テキスト ファイル内の Unicode テキスト: エラーのない記述のための包括的なガイド
Google ドキュメントから抽出されたデータのコーディングは、特に困難な場合があります。 HTML で使用するために変換する必要がある非 ASCII シンボルが見つかった場合。このガイドでは、Unicode テキストを処理し、エンコード エラーを防ぐためのソリューションを提供します。
最初は、データの取得中にすべてを Unicode に変換してファイルに書き込むのが正しいアプローチのように思えるかもしれません。ただし、この方法では、非 ASCII シンボルが存在するため、エンコード エラーが発生する可能性があります。これを解決するには、プロセス全体を通じて Unicode オブジェクトのみを扱うことが重要です。
Unicode オブジェクト (u'Δ、Й、ק...') をファイル書き込み可能な文字列に変換する場合、次のことが必要です。それを Unicode でエンコードされた形式にエンコードします:
foo = u'Δ, Й, ק, م, ๗, あ, 叶, 葉, and 말.'
f = open('test', 'w')
f.write(foo.encode('utf8'))
f.close()
Unicode オブジェクトを「utf8」としてエンコードすると、エンコード エラーが発生することなくファイルに書き込むことができます。
このファイルを再度読み取るときは、Unicode をデコードする必要があります。 -エンコードされた文字列オブジェクトを Unicode オブジェクトに戻す:
f = file('test', 'r')
print(f.read().decode('utf8'))
これらの手順に従うことで、エンコード エラーを防ぎ、非 ASCII 記号が確実に表示されるようにしながら、Unicode テキストをテキスト ファイルに安全に書き込んだり、テキスト ファイルから読み取ったりすることができます。正しく処理されました。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3