Python でサロゲート ペアを通常の文字列に変換するには?

表紙 > プログラミング > Python でサロゲートペアを通常の文字列に変換するには?

Python でサロゲートペアを通常の文字列に変換するには?

2024 年 12 月 21 日に公開

ブラウズ：568

How to Convert Surrogate Pairs to Normal Strings in Python?

Python でサロゲートペアを通常の文字列に変換する

この質問では、サロゲートペアを含む Python Unicode 文字列を標準文字列に変換する方法を求めます。表現。目標は、わかりやすい Unicode 文字または標準化された 16 進形式を取得することです。

提供されたコードスニペットは、絵文字を表すサロゲートペアを含む Python 文字列を示します。

emoji = "This is \ud83d\ude4f, an emoji."

この問題を解決するには、次のことを区別することが重要です。ディスク上の JSON ファイル内のリテラルサロゲートペア文字列 (6 文字) とメモリ内の 1 文字のサロゲートペア文字列 (1 文字)。

文字列が Python ソースコードで見つかった 1 文字のサロゲートペアの場合 (提供されている例のように)、アップストリームに潜在的なバグがあることを示しています。これが発生し、解決できない場合は、サロゲートパスエラーハンドラーを使用できます:

"\ud83d\ude4f".encode('utf-16', 'surrogatepass').decode('utf-16')

これは、対応する Unicode 文字を疑問符で表して出力します。 (?):

'?'

ディスク上の JSON ファイル内のリテラルサロゲートペア文字列の場合、JSON データのロード後にサロゲートペアが存在してはなりません:

ascii(json.loads(r'"\ud83d\ude4f"'))

これUnicode 文字の標準化された 16 進形式を出力します:

'\U0001f64f'

この区別を理解することは、Python でサロゲートペアを処理し、使用可能な形式に変換するために不可欠です。

最新のチュートリアルもっと>

GO言語ガベージコレクションでスライスメモリを処理する方法は？
Go slices：aftertial analysis *q =（*q）[1：len（*q）] rを返します } FUNCプッシュバック（Q *[]文字列、文字列）{ *q = append（*q、a） } この場合、要素が正面からポップされると、スライスが...

プログラミング 2025-07-16に投稿されました
Pandas DataFramesで列を効率的に選択するにはどうすればよいですか？
Pandas DataFrames の列の選択データ操作タスクを扱うと、特定の列の選択が必要になります。パンダでは、列を選択するためのさまざまなオプションがあります。数値インデックス列インデックスがわかっている場合、ILOC関数を使用してそれらを選択します。 Pythonインデック...

プログラミング 2025-07-16に投稿されました
フォームリフレッシュ後に重複した提出を防ぐ方法は？
を更新することで重複した提出を防ぐ Web開発で、フォームの提出後にページが更新された場合に重複した提出の問題に遭遇することが一般的です。これに対処するには、次のアプローチを検討してください。 if（isset（$ _ post ['name']））{ ...

プログラミング 2025-07-16に投稿されました
GO言語でエクスポートパッケージタイプを動的に発見する方法は？
エクスポートされたパッケージタイプを動的に見つける反射パッケージの限られたタイプの発見機能とは対照的に、この記事では、ランタイムですべてのパッケージタイプ（特に構造体）を発見するための代替方法を説明します。後で） in go 1.5および後続のバージョンでは、タイプとインポーターパッ...

プログラミング 2025-07-16に投稿されました
$最大カウントを見つけるときにmysqlで\ "無効なグループ関数の使用を解決する方法\"エラーは？$
最大カウントを見つけるときにmysqlで\ "無効なグループ関数の使用を解決する方法\"エラーは？
mysql を使用して最大カウントを取得する方法mysqlでは、次のコマンドを使用して特定の列によってグループ化された値の最大値を見つけようとする際に問題に遭遇する可能性があります。 emp1グループからmax（count（*））を名前で選択します。エラー1111（HY000）：グル...

プログラミング 2025-07-16に投稿されました
McRyptからOpenSSLに暗号化を移行し、OpenSSLを使用してMcRyptで暗号化されたデータを復号化できますか？
暗号化ライブラリをMcRyptからOpenSSL にアップグレードして、暗号化ライブラリをMcRyptからOpenSLにアップグレードできますか？ OpenSSLでは、McRyptで暗号化されたデータを復号化することは可能ですか？ 2つの異なる投稿は矛盾する情報を提供します。もしそうなら...

プログラミング 2025-07-16に投稿されました
一定の列を追加するためのSpark DataFrameのヒント
スパークデータフレームに一定の列を作成するすべての行に適用される任意の値で一定の列をスパークデータフレームに追加することができます。この目的を目的としたwithcolumnメソッドは、2番目の引数として直接的な値を提供しようとするときにエラーを引き起こす可能性があります。点灯 df.wi...

プログラミング 2025-07-16に投稿されました
$PHP \の機能の再定義制限を克服する方法は？$
PHP \の機能の再定義制限を克服する方法は？
PHPの関数の再定義制限をPHPで克服することは、同じ名前の関数を複数回定義することはノーではありません。提供されたコードスニペットで見られるように、そうすることは、恐ろしい「再び削除できない」エラーになります。 $ b）{ $ a * $ b; } を返しますが、PHPツールベ...

プログラミング 2025-07-16に投稿されました
UTF8 MySQLテーブルでLATIN1文字をUTF8に正しく変換する方法
latin1文字をUTF8テーブル内のutf8に変換する diaCriticsのキャラクターが遭遇した問題に遭遇しました（ "Jáuòiñe"）がUTF8テーブルで存在していないために、utf8テーブルが不足しているために存在していませんでした。「mysql_se...

プログラミング 2025-07-16に投稿されました
formdata（）で複数のファイルアップロードを処理するにはどうすればよいですか？
formdata（）を使用して複数のファイルアップロードを処理すると、複数のファイルアップロードを処理する必要があることがよくあります。 fd.append("fileToUpload[]", files[x]);メソッドはこの目的に使用でき、単一のリクエストで複数...

プログラミング 2025-07-16に投稿されました
なぜ画像はまだChromeに境界があるのですか？ `border：none;`無効な解決策
cromeの画像境界を削除する 1つの頻繁な問題は、chromeとie9の画像を操作する際に遭遇する頻繁な問題です。と「国境：なし;」 CSSで。この問題を解決するには、次のアプローチを検討してください。スタイル。これを回避するには、次のCSS IDブロックを使用して、目的のパディング...

プログラミング 2025-07-16に投稿されました
顔を検出するための原因とソリューション：エラー-215
エラー処理： "エラー：（-215）！empty（）in function detectectmultiscale" in opencv の解決済みの誤報を検出しようとする場合、 "関数DetectMultiscale。」このエラーは、通常、顔の検出のため...

プログラミング 2025-07-16に投稿されました
$\ "while（1）vs。for（;;）：コンパイラの最適化はパフォーマンスの違いを排除しますか？\"$
\ "while（1）vs。for（;;）：コンパイラの最適化はパフォーマンスの違いを排除しますか？\"
while（1）vs。for（;;）：速度の違いはありますか？ loops？回答：では、ほとんどの最新のコンパイラーでは、（1）と（;;）。コンパイラー： perl：の両方が（1）と（;;）が同じオプコードをもたらします。 1 入力 - > 2を入力します 2 NextS...

プログラミング 2025-07-16に投稿されました
PHPのファイルシステム機能でUTF-8ファイル名を処理するにはどうすればよいですか？
PHPのファイルシステム関数のUTF-8ファイル名を処理する PHPのMKDIR関数を使用してUTF-8文字を含むフォルダーを作成するとき、に遭遇するwindows explorerに遭遇する可能性があります。 urlエンコードファイル名この問題を解決するには、urlencod...

プログラミング 2025-07-16に投稿されました
Pythonの文字列から絵文字を削除する方法：一般的なエラーを修正するための初心者のガイド？
emojisをpython emojisの除去する絵文字を削除するための提供されたPythonコードは、構文誤差が含まれているため失敗します。 Unicode文字列は、Python 2のU ''プレフィックスを使用して指定する必要があります。さらに、Re.Unicod...

プログラミング 2025-07-16に投稿されました