"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > PHP에서 UCS-2 코드 포인트를 추출하는 방법은 무엇입니까?

PHP에서 UCS-2 코드 포인트를 추출하는 방법은 무엇입니까?

2025-02-06에 게시되었습니다
검색:738

How to Extract UCS-2 Code Points from UTF-8 Characters in PHP?

우선 UTF-8 인코딩 체계를 이해하는 것이 중요합니다. 각 문자는 유니 코드 코드 포인트에 따라 1 내지 4 바이트의 시퀀스로 표시됩니다. 각 바이트 크기의 범위는 다음과 같습니다.

0xxxxxxx : 1 바이트

110xxxxx 10xxxxx : 2 bytes

1110xxxxxx 10xxxx : 3 bytes

  • &&] 11110xxxx 10xxxxxx 10xxxxx : 4 바이트
  • 0 : 1 바이트 문자

&&] 110 : 바이트 문자

1110 : 3 바이트 문자

function get_ucs2_codepoint($char)
{
    // Initialize the code point
    $codePoint = 0;

    // Get the first byte
    $firstByte = ord($char);

    // Determine the number of bytes
    if ($firstByte  10 : 연속 바이트 

11111 : 무적 문자 1111 : &&&]

바이트 수가 결정되면 비트 조작을 사용하여 코드 포인트를 추출 할 수 있습니다. 위의 분석에서, 다음은 단일 UTF-8 문자를 입력으로 취하고 UCS-2 코드 포인트를 반환하는 사용자 정의 PHP 기능입니다. { // 코드 포인트를 초기화합니다 $ CodePoint = 0; // 첫 바이트를 얻습니다 $ firstByte = Ord ($ char); // 바이트 수를 결정합니다 if ($ firstByte

$char = "ñ";
$codePoint = get_ucs2_codepoint($char);
echo "UCS-2 code point: $codePoint\n";

함수를 사용하려면 utf-8 문자를 입력으로 간단히 제공합니다.
UCS-2 code point: 241

$ char = " N"; $ CodePoint = get_ucs2_codepoint ($ char); echo "ucs-2 코드 포인트 : $ codepoint \ n"; How to Extract UCS-2 Code Points from UTF-8 Characters in PHP?

출력 :

ucs-2 코드 포인트 : 241

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3