Iterando sobre pontos de código Unicode em strings Java
Embora a classe String forneça o método codePointAt(int) para acessar pontos de código Unicode, sua indexação depende em deslocamentos de caracteres em vez de deslocamentos de pontos de código. Isso levanta preocupações sobre o manuseio de caracteres dentro da faixa de alto substituto e a eficiência da abordagem de iteração proposta usando varredura caractere por caractere. a representação interna de String emprega um esquema de codificação baseado em UTF-16. Caracteres fora do Plano Multilíngue Básico (BMP) são codificados usando o esquema substituto. Para uma iteração eficiente, considere usar a seguinte abordagem canônica:
final int length = s.length(); for (int deslocamento = 0; deslocamento
Essa abordagem trata corretamente pares substitutos para caracteres fora do BMP. Ao utilizar Character.charCount(codepoint), ele aumenta eficientemente o deslocamento pelo número apropriado de caracteres para cada codepoint.Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3