मान लें कि हम chicagomusiccompass.com को स्क्रैप करना चाहते हैं।
जैसा कि आप देख सकते हैं, इसमें कई कार्ड हैं, प्रत्येक एक घटना का प्रतिनिधित्व करता है। अब, आइए अगला देखें:
ध्यान दें कि इवेंट का नाम है:
jazmin bean: the traumatic livelihood tour
तो अब सवाल यह है: हम पाठ से कलाकार का नाम कैसे निकाल सकते हैं?
एक इंसान के रूप में, मैं "आसानी से" बता सकता हूं कि जैज़मिन बीन कलाकार है - बस उनका विकी पेज देखें। लेकिन उस नाम को निकालने के लिए कोड लिखना मुश्किल हो सकता है।
हम सोच सकते हैं, "अरे, : से पहले कुछ भी कलाकार का नाम होना चाहिए," जो चतुराईपूर्ण लगता है, है ना? यह इस मामले के लिए काम करता है, लेकिन इसके बारे में क्या:
happy hour on the patio: kathryn & chris
यहाँ, ऑर्डर फ़्लिप किया गया है। हम अलग-अलग मामलों को संभालने के लिए तर्क जोड़ना जारी रख सकते हैं, लेकिन जल्द ही हमारे पास ढेर सारे नियम होंगे जो नाजुक हैं और शायद सब कुछ कवर नहीं करेंगे।
यही वह जगह है जहां नामांकित इकाई पहचान (एनईआर) मॉडल काम में आते हैं। वे खुले स्रोत हैं और हमें पाठ से नाम निकालने में मदद कर सकते हैं। यह हर मामले को नहीं पकड़ पाएगा, लेकिन अधिकांश समय, वे हमें वह जानकारी देंगे जिसकी हमें ज़रूरत है।
इस दृष्टिकोण के साथ, निष्कर्षण बहुत आसान हो जाता है। मैं पायथन के साथ जा रहा हूं क्योंकि पायथन में मशीन लर्निंग के आसपास का समुदाय अपराजेय है।
from gliner import GLiNER model = GLiNER.from_pretrained("urchade/gliner_base") text = "jazmin bean: the traumatic livelihood tour" labels = ["person", "bands", "projects"] entities = model.predict_entities(text, labels) for entity in entities: print(entity["text"], "=>", entity["label"])
जो आउटपुट उत्पन्न करता है:
jazmin bean => person
अब, आइए उस दूसरे मामले पर एक नज़र डालें:
happy hour on the patio: kathryn & chris
आउटपुट:
kathryn => person chris => person
स्रोत-GLiNER
बहुत बढ़िया, है ना? नाम निकालने के लिए अब कोई कठिन तर्क नहीं, बस एक मॉडल का उपयोग करें। निश्चित रूप से, यह हर संभावित मामले को कवर नहीं करेगा, लेकिन मेरे प्रोजेक्ट के लिए लचीलेपन का यह स्तर ठीक काम करता है। यदि आपको अधिक सटीकता की आवश्यकता है, तो आप हमेशा यह कर सकते हैं:
एक सॉफ़्टवेयर डेवलपर के रूप में, मशीन लर्निंग क्षेत्र में टूल के साथ अपडेट रहने की अत्यधिक अनुशंसा की जाती है। हर चीज़ को केवल सादे प्रोग्रामिंग और तर्क से हल नहीं किया जा सकता है - कुछ चुनौतियों को मॉडल और आंकड़ों का उपयोग करके बेहतर ढंग से निपटाया जा सकता है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3