Ao lidar com dados textuais, uma tarefa comum envolve dividir strings em palavras individuais. O método str.split() do Python oferece uma solução direta, mas suporta apenas um único delimitador como argumento. Essa limitação pode se tornar um obstáculo ao lidar com texto que contém vários tipos de limites de palavras, como sinais de pontuação.
O módulo Python re fornece uma alternativa poderosa: re.split(). Esta função permite especificar um padrão para usar como delimitador de limite de palavra. O padrão pode incluir expressões regulares para corresponder a vários tipos de limites simultaneamente.
Por exemplo, para dividir a sequência a seguir em palavras, manipulando espaços em branco e sinais de pontuação como limites de palavras:
"Hey, you - what are you doing here!?"
Você pode usar o seguinte padrão de expressão regular:
'\W '
Este padrão corresponde a qualquer sequência de caracteres que não sejam palavras (alfabéticos, numéricos ou sublinhados). Quando usado com re.split(), ele dividirá a string em todas as ocorrências desses caracteres, criando efetivamente uma lista de palavras.
Veja como você pode usá-lo em Python:
import re text = "Hey, you - what are you doing here!?" words = re.split('\W ', text) print(words)
Saída:
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
Como você pode ver, re.split() efetivamente divide a string em palavras individuais, preservando os limites corretos das palavras, apesar da presença de vários delimitadores. Essa flexibilidade o torna uma ferramenta valiosa para lidar com cenários complexos de análise de texto, onde vários delimitadores de limites de palavras são encontrados.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3