迭代Java 字串中的Unicode 代碼點
雖然String 類別提供了用於訪問Unicode 代碼點的codePointAt(int) 方法,但其索引依賴基於字元偏移量而不是代碼點偏移量。這引起了對處理高代理範圍內的字元以及所提出的使用逐字元掃描的迭代方法的效率的擔憂。
改進的迭代解決方案
Java 的內部字串表示採用基於 UTF-16 的編碼方案。基本多語言平面 (BMP) 以外的字元使用代理方案進行編碼。為了有效率迭代,請考慮使用以下規範方法:
final int length = s.length();
for (int offset = 0; offset 此方法可以正確處理 BMP 以外的字元的代理對。透過利用Character.charCount(codepoint),它可以有效地將每個代碼點的偏移量增加適當的字元數。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3