«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Как эффективно перебирать кодовые точки Unicode в строках Java?

Как эффективно перебирать кодовые точки Unicode в строках Java?

Опубликовано 12 ноября 2024 г.
Просматривать:258

How to Efficiently Iterate Over Unicode Codepoints in Java Strings?

Итерация по кодовым точкам Юникода в строках Java

Хотя класс String предоставляет метод codePointAt(int) для доступа к кодовым точкам Юникода, его индексирование зависит от на смещениях символов, а не на смещениях кодовых точек. Это вызывает обеспокоенность по поводу обработки символов в пределах высокого суррогатного диапазона и эффективности предлагаемого итерационного подхода с использованием посимвольного сканирования. внутреннее строковое представление использует схему кодирования на основе UTF-16. Символы вне базовой многоязычной плоскости (BMP) кодируются с использованием схемы суррогатного материнства. Для эффективной итерации рассмотрите возможность использования следующего канонического подхода:

final int length = s.length(); for (int offset = 0; offset

Этот подход правильно обрабатывает суррогатные пары для символов вне BMP. Используя Character.charCount(codepoint), он эффективно увеличивает смещение на соответствующее количество символов для каждой кодовой точки.

Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3