處理文字資料時,常見的任務是將字串拆分為單字。 Python 的 str.split() 方法提供了一個簡單的解決方案,但它僅支援單一分隔符號作為其參數。在處理包含多種類型的單字邊界(例如標點符號)的文字時,此限制可能會成為障礙。
Python re 模組提供了一個強大的替代方案:re.split()。此函數可讓您指定用作單字邊界定界符的模式。此模式可以包含正規表示式,以同時符合多種類型的邊界。
例如,要將以下字串拆分為單詞,將空格和標點符號都處理為單詞邊界:
"Hey, you - what are you doing here!?"
您可以使用以下正規表示式模式:
'\W '
此模式來匹配任何非單字字元序列(字母、數字或底線)。當與 re.split() 一起使用時,它將在這些字元的所有出現處分割字串,從而有效地建立單字清單。
以下是在 Python 中使用它的方法:
import re text = "Hey, you - what are you doing here!?" words = re.split('\W ', text) print(words)
輸出:
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
如您所見,re.split() 有效地將字串拆分為單個單詞,儘管存在多個分隔符,但仍保留了正確的單字邊界。這種靈活性使其成為處理複雜文字解析場景(遇到多個單字邊界分隔符號)的寶貴工具。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3