「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > PHPでUTF-8文字からUCS-2コードポイントを抽出する方法は?

PHPでUTF-8文字からUCS-2コードポイントを抽出する方法は?

2025-02-06に投稿しました
ブラウズ:408

How to Extract UCS-2 Code Points from UTF-8 Characters in PHP?

PHPのUTF-8文字のUCS-2コードポイントの決定

手元のタスクは、UCS-2コードポイントを抽出することです。特定のUTF-8文字列内の文字用。これを達成するには、カスタムPHP関数を定義できます。各文字は、ユニコードコードポイントに応じて、1〜4バイトのシーケンスで表されます。各バイトサイズの範囲は次のとおりです。 && &&] 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxx:4バイト

文字あたりのバイト数を決定するために、最初のバイトを調べる、 && &&] 110:2 byte文字
  • 1110:3 byte文字
  • 11110:4 byte文字
  • 10:Continuation byte
  • 11111:invalid文字

バイト数が決定されると、ビット操作を使用してコードポイントを抽出できます。上記の分析では、1つのUTF-8文字を入力として取得し、UCS-2コードポイントを返すカスタムPHP関数を示します。 { //コードポイントを初期化します $ codePoint = 0; //最初のバイトを取得します $ firstbyte = ord($ char); //バイト数を決定します if($ firstbyte

  • 例の使用法:
  • 関数を使用するために、UTF-8文字を入力として提供するだけで:
  • $ char = " ñ "; $ codePoint = get_ucs2_codepoint($ char); Echo "UCS-2コードポイント:$ codePoint \ n";
  • output:
ucs-2コードポイント:241

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3