कुशल एल्गोरिदम का उपयोग करके शब्दों में अनस्पेस्ड टेक्स्ट का टोकनाइजेशन
प्राकृतिक भाषा प्रसंस्करण के दायरे में, वर्णों की एक सतत धारा को विभाजित करने की क्षमता सार्थक शब्दों में लिखना महत्वपूर्ण है। यह प्रक्रिया, जिसे टोकननाइजेशन के रूप में जाना जाता है, विशेष रूप से उस समय चुनौतीपूर्ण होती है जब उस पाठ से निपटना जिसमें रिक्त स्थान या सीमांकक का अभाव होता है। "टेबलएप्पलचेयरटेबलकबोर्ड..." शब्दों की एक सूची में, अस्पष्ट सबस्ट्रिंग की संभावना को ध्यान में रखते हुए जहां एक अनुक्रम कई शब्द बना सकता है (उदाहरण के लिए, "अलमारी" "कप" या "बोर्ड" हो सकता है)। वास्तविक दुनिया के परिदृश्यों में असंतोषजनक परिणाम मिलते हैं। इस सीमा को दूर करने के लिए, हम एक एल्गोरिदम का लाभ उठाते हैं जिसमें शब्द आवृत्ति वितरण शामिल होता है। n-वें लगातार शब्द का सामना करना लगभग 1/(n * log(N)) है, जहां N भाषा में शब्दों की कुल संख्या है। इस संबंध को एन्कोड करने वाले पूर्व-गणना लागत शब्दकोश का उपयोग करके, हम प्रत्येक संभावित शब्द उम्मीदवार को एक लागत निर्दिष्ट कर सकते हैं।
डायनामिक प्रोग्रामिंग दृष्टिकोण
इष्टतम शब्द विभाजन निर्धारित करने के लिए, हम गतिशील प्रोग्रामिंग नियोजित करें। हम प्रत्येक संभावित विभाजन बिंदु के लिए चालू लागत मूल्य बनाए रखते हुए, इनपुट स्ट्रिंग के माध्यम से पुनरावृति करते हैं। प्रत्येक स्थिति में, हम स्ट्रिंग के अंत से शुरू होने वाले उम्मीदवार शब्दों का मूल्यांकन करते हैं और सबसे कम लागत के साथ विभाजन का चयन करते हैं।
एल्गोरिदम कार्यान्वयन
प्रदान किया गया पायथन कोड प्रदान करता है इस एल्गोरिदम का संक्षिप्त कार्यान्वयन:
गणित आयात लॉग से # Zipf के नियम का उपयोग करके पूर्व-गणना किया गया शब्द लागत शब्दकोश शब्द लागत = ... # लागत के आधार पर सर्वोत्तम शब्द मिलान खोजने के लिए सहायक कार्य def best_match(i): ... # गतिशील प्रोग्रामिंग का उपयोग करके इनपुट स्ट्रिंग में रिक्त स्थान का अनुमान लगाने का कार्य def infer_spaces: ...
उदाहरण उपयोग
इस कोड का उपयोग करने के लिए, बस निरंतर टेक्स्ट स्ट्रिंग को निम्नानुसार इनपुट करें:
s = 'thumbgreenappleactiveassignmentweeklymetafor ' print(infer_spaces(s))
परिणाम और मूल्यांकन
यह एल्गोरिदम सीमित शब्द शब्दकोश के साथ भी असाधारण प्रदर्शन प्रदर्शित करता है। यह उच्च सटीकता के साथ जटिल पाठ को सफलतापूर्वक टोकनाइज़ करता है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3