"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > ईटीएल: टेक्स्ट से किसी व्यक्ति का नाम निकालना

ईटीएल: टेक्स्ट से किसी व्यक्ति का नाम निकालना

2024-11-07 को प्रकाशित
ब्राउज़ करें:398

मान लें कि हम chicagomusiccompass.com को स्क्रैप करना चाहते हैं।

जैसा कि आप देख सकते हैं, इसमें कई कार्ड हैं, प्रत्येक एक घटना का प्रतिनिधित्व करता है। अब, आइए अगला देखें:

ETL: Extracting a Person

ध्यान दें कि इवेंट का नाम है:


jazmin bean: the traumatic livelihood tour


तो अब सवाल यह है: हम पाठ से कलाकार का नाम कैसे निकाल सकते हैं?

एक इंसान के रूप में, मैं "आसानी से" बता सकता हूं कि जैज़मिन बीन कलाकार है - बस उनका विकी पेज देखें। लेकिन उस नाम को निकालने के लिए कोड लिखना मुश्किल हो सकता है।

हम सोच सकते हैं, "अरे, : से पहले कुछ भी कलाकार का नाम होना चाहिए," जो चतुराईपूर्ण लगता है, है ना? यह इस मामले के लिए काम करता है, लेकिन इसके बारे में क्या:


happy hour on the patio: kathryn & chris


यहाँ, ऑर्डर फ़्लिप किया गया है। हम अलग-अलग मामलों को संभालने के लिए तर्क जोड़ना जारी रख सकते हैं, लेकिन जल्द ही हमारे पास ढेर सारे नियम होंगे जो नाजुक हैं और शायद सब कुछ कवर नहीं करेंगे।

यही वह जगह है जहां नामांकित इकाई पहचान (एनईआर) मॉडल काम में आते हैं। वे खुले स्रोत हैं और हमें पाठ से नाम निकालने में मदद कर सकते हैं। यह हर मामले को नहीं पकड़ पाएगा, लेकिन अधिकांश समय, वे हमें वह जानकारी देंगे जिसकी हमें ज़रूरत है।

इस दृष्टिकोण के साथ, निष्कर्षण बहुत आसान हो जाता है। मैं पायथन के साथ जा रहा हूं क्योंकि पायथन में मशीन लर्निंग के आसपास का समुदाय अपराजेय है।


from gliner import GLiNER

model = GLiNER.from_pretrained("urchade/gliner_base")

text = "jazmin bean: the traumatic livelihood tour"
labels = ["person", "bands", "projects"]
entities = model.predict_entities(text, labels)

for entity in entities:
    print(entity["text"], "=>", entity["label"])


जो आउटपुट उत्पन्न करता है:


jazmin bean => person


अब, आइए उस दूसरे मामले पर एक नज़र डालें:


happy hour on the patio: kathryn & chris


आउटपुट:


kathryn => person
chris => person


स्रोत-GLiNER

बहुत बढ़िया, है ना? नाम निकालने के लिए अब कोई कठिन तर्क नहीं, बस एक मॉडल का उपयोग करें। निश्चित रूप से, यह हर संभावित मामले को कवर नहीं करेगा, लेकिन मेरे प्रोजेक्ट के लिए लचीलेपन का यह स्तर ठीक काम करता है। यदि आपको अधिक सटीकता की आवश्यकता है, तो आप हमेशा यह कर सकते हैं:

  • एक अलग मॉडल आज़माएं
  • मौजूदा मॉडल में योगदान करें
  • परियोजना को फोर्क करें और इसे अपनी आवश्यकताओं के अनुरूप संशोधित करें

निष्कर्ष

एक सॉफ़्टवेयर डेवलपर के रूप में, मशीन लर्निंग क्षेत्र में टूल के साथ अपडेट रहने की अत्यधिक अनुशंसा की जाती है। हर चीज़ को केवल सादे प्रोग्रामिंग और तर्क से हल नहीं किया जा सकता है - कुछ चुनौतियों को मॉडल और आंकड़ों का उपयोग करके बेहतर ढंग से निपटाया जा सकता है।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/garciadiazzaime/etl-extracting-a-persons-name-from-text-ahl?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] से संपर्क करें।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3