Python 中的Unicode 調試:刪除\xa0 不間斷空格
使用Beautiful Soup 解析HTML 並存取文本內容時(使用文本內容時 ( )),很常見的是Unicode 字元\xa0,代表不間斷空格。若要有效地刪除這些空格並將其替換為Python 2.7 中的常規空格,請按照下列步驟操作:
匯入unicodedata 模組:
import unicodedata
利用unicodedata.normalize() 刪除Unicode 格式:
text = unicodedata.normalize('NFKD', text)
用常規空格取代不間斷空格:
text = text.replace(u'\xa0', ' ')
text = text.replace(u'\xa0', ' ')理解過程
\xa0 是一個Unicode 字符,表示Latin1 (ISO 8859-1) 中不間斷的空格。若要刪除這些特殊字元並將其轉換為常規空格,必須使用 unicodedata 模組。免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3