文本文件中的Unicode 文本:無錯誤寫作綜合指南
從Google 文件中提取的編碼資料可能具有挑戰性,尤其是當遇到需要轉換為HTML 使用的非ASCII 符號時。本指南提供了處理 Unicode 文字並防止編碼錯誤的解決方案。
最初,在資料檢索期間將所有內容轉換為 Unicode 並將其寫入檔案似乎是正確的方法。但是,由於存在非 ASCII 符號,此方法可能會導致編碼錯誤。為了解決這個問題,在整個過程中專門處理 Unicode 物件至關重要。
將Unicode 物件(u'Δ, Й, ק...') 轉換為檔案可寫字串時,有必要將其編碼為unicode 編碼格式:
foo = u'Δ, Й, ק, م, ๗, あ, 叶, 葉, and 말.'
f = open('test', 'w')
f.write(foo.encode('utf8'))
f.close()
透過將 Unicode 物件編碼為 'utf8',可以將其寫入檔案而不會遇到編碼錯誤。
再次讀取此檔案時,我們必須對 unicode 進行解碼- 將字串物件編碼回 Unicode 物件:
f = file('test', 'r')
print(f.read().decode('utf8'))
透過執行下列步驟,可以安全地向文字檔案寫入和讀取Unicode 文本,同時防止編碼錯誤並確保非ASCII 符號正確處理。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3