「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > Go Regex \\b Boundary がラテン文字で失敗するのはなぜですか?

Go Regex \\b Boundary がラテン文字で失敗するのはなぜですか?

2024 年 11 月 8 日に公開
ブラウズ:998

 Why Does Go Regex \b Boundary Fail with Latin Characters?

\b Go 正規表現におけるラテン文字の境界

Go 正規表現の世界では、\b 境界オプションには少し癖があります。ラテン文字を扱う場合。この問題は、アクセント付き母音や特殊文字などのラテン文字を含む単語を定義しようとするときに発生します。

次の例を考えてみましょう。\b 境界オプションを使用して単語 "vis" と一致させたいとします。

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}

驚くべきことに、「révisé」を false として一致させるという予期した結果は発生しません。代わりに、true として一致します。これは、\b が ASCII 単語境界でのみ機能するためです。

この問題を解決してラテン文字と正確に一致させるには、\b 境界をより包括的な代替物に置き換えることができます。以下に例を示します:

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}

この変更により、正規表現は文字列の先頭 (\A)、文字列の末尾 (\z)、および空白 (\s) の組み合わせを使用して単語の先頭と末尾を認識するようになりました。結果は、「vis」が true で、「révisé」が false と正確に一致します:

true
true
false
false

この手法により、ラテン文字の存在に関係なく、単語の正確な一致が保証されます。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3