"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ >  > एलएलएम से परे: यहां बताया गया है कि छोटे भाषा मॉडल एआई का भविष्य क्यों हैं

एलएलएम से परे: यहां बताया गया है कि छोटे भाषा मॉडल एआई का भविष्य क्यों हैं

2024-11-01 को प्रकाशित
ब्राउज़ करें:494

ओपन एआई के चैटजीपीटी की रिलीज के साथ बड़े भाषा मॉडल (एलएलएम) ने धूम मचा दी। तब से, कई कंपनियों ने अपने एलएलएम भी लॉन्च किए हैं, लेकिन अधिक कंपनियां अब छोटे भाषा मॉडल (एसएलएम) की ओर झुक रही हैं।

एसएलएम गति प्राप्त कर रहे हैं, लेकिन वे क्या हैं, और वे एलएलएम से कैसे भिन्न हैं?

लघु ​​भाषा मॉडल क्या है?

एक छोटा भाषा मॉडल (एसएलएम) कम मापदंडों वाला एक प्रकार का कृत्रिम बुद्धिमत्ता मॉडल है (इसे प्रशिक्षण के दौरान सीखे गए मॉडल में एक मूल्य के रूप में सोचें)। अपने बड़े समकक्षों की तरह, एसएलएम पाठ उत्पन्न कर सकते हैं और अन्य कार्य कर सकते हैं। हालाँकि, एसएलएम प्रशिक्षण के लिए कम डेटासेट का उपयोग करते हैं, कम पैरामीटर होते हैं, और प्रशिक्षण और चलाने के लिए कम कम्प्यूटेशनल शक्ति की आवश्यकता होती है।

एसएलएम प्रमुख कार्यात्मकताओं पर ध्यान केंद्रित करते हैं, और उनके छोटे पदचिह्न का मतलब है कि उन्हें विभिन्न उपकरणों पर तैनात किया जा सकता है, जिनमें ये भी शामिल हैं जिसमें मोबाइल उपकरणों की तरह उच्च-स्तरीय हार्डवेयर नहीं है। उदाहरण के लिए, Google का नैनो एक ऑन-डिवाइस SLM है जो शुरू से ही बनाया गया है जो मोबाइल उपकरणों पर चलता है। कंपनी के अनुसार, अपने छोटे आकार के कारण, नैनो स्थानीय स्तर पर नेटवर्क कनेक्टिविटी के साथ या उसके बिना भी चल सकती है।

Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

नैनो के अलावा, एआई क्षेत्र में अग्रणी और आगामी कंपनियों के कई अन्य एसएलएम हैं। कुछ लोकप्रिय SLM में माइक्रोसॉफ्ट का Phi-3, OpenAI का GPT-4o मिनी, एंथ्रोपिक का क्लाउड 3 हाइकू, मेटा का लामा 3 और मिस्ट्रल AI का मिक्सट्रल 8x7B शामिल हैं।

अन्य विकल्प भी उपलब्ध हैं, जिन्हें आप सोच सकते हैं कि ये एलएलएम हैं लेकिन हैं एसएलएम. यह विशेष रूप से सच है क्योंकि अधिकांश कंपनियां एलएलएम और एसएलएम दोनों की पेशकश करते हुए अपने पोर्टफोलियो में एक से अधिक भाषा मॉडल जारी करने का बहु-मॉडल दृष्टिकोण अपना रही हैं। एक उदाहरण GPT-4 है, जिसमें GPT-4, GPT-4o (ओमनी), और GPT-4o मिनी सहित विभिन्न मॉडल हैं।

छोटे भाषा मॉडल बनाम बड़े भाषा मॉडल

एसएलएम पर चर्चा करते समय, हम उनके बड़े समकक्षों: एलएलएम को नजरअंदाज नहीं कर सकते। एसएलएम और एलएलएम के बीच मुख्य अंतर मॉडल आकार का है, जिसे मापदंडों के संदर्भ में मापा जाता है। एसएलएम माने जाने के लिए या एलएलएम माने जाने के लिए आवश्यक न्यूनतम संख्या से अधिक। हालाँकि, एसएलएम में आम तौर पर लाखों से कुछ अरब पैरामीटर होते हैं, जबकि एलएलएम में इससे भी अधिक, खरबों तक होते हैं। अफवाह है कि GPT-4 मॉडल में लगभग 1.76 ट्रिलियन) हैं, जबकि Microsoft के 2024 Phi-3-mini, Phi-3-small, और Phi-3-मध्यम SLM क्रमशः 3.8, 7 और 14 बिलियन पैरामीटर मापते हैं।

एसएलएम और एलएलएम के बीच एक और अंतर कारक प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की मात्रा है। एसएलएम को छोटी मात्रा में डेटा पर प्रशिक्षित किया जाता है, जबकि एलएलएम बड़े डेटासेट का उपयोग करते हैं। यह अंतर जटिल कार्यों को हल करने के लिए मॉडल की क्षमता को भी प्रभावित करता है।

प्रशिक्षण में उपयोग किए जाने वाले बड़े डेटा के कारण, एलएलएम विभिन्न प्रकार के जटिल कार्यों को हल करने के लिए बेहतर अनुकूल हैं जिनके लिए उन्नत तर्क की आवश्यकता होती है, जबकि एसएलएम सरल कार्यों के लिए बेहतर अनुकूल होते हैं। कार्य. एलएलएम के विपरीत, एसएलएम कम प्रशिक्षण डेटा का उपयोग करते हैं, लेकिन एक छोटे पैकेज में एलएलएम में पाई जाने वाली कई क्षमताओं को प्राप्त करने के लिए उपयोग किया जाने वाला डेटा उच्च गुणवत्ता का होना चाहिए।Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

छोटे भाषा मॉडल भविष्य क्यों हैं

अधिकांश उपयोग के मामलों में, एसएलएम विभिन्न प्रकार के कार्यों को करने के लिए कंपनियों और उपभोक्ताओं द्वारा उपयोग किए जाने वाले मुख्यधारा मॉडल बनने के लिए बेहतर स्थिति में हैं। निश्चित रूप से, एलएलएम के अपने फायदे हैं और जटिल कार्यों को हल करने जैसे कुछ उपयोग के मामलों के लिए अधिक उपयुक्त हैं। हालाँकि, निम्नलिखित कारणों से एसएलएम अधिकांश उपयोग के मामलों के लिए भविष्य हैं।

1. कम प्रशिक्षण और रखरखाव लागत

एसएलएम को एलएलएम की तुलना में प्रशिक्षण के लिए कम डेटा की आवश्यकता होती है, जो उन्हें सीमित प्रशिक्षण डेटा, वित्त या दोनों के साथ व्यक्तियों और छोटी से मध्यम कंपनियों के लिए सबसे व्यवहार्य विकल्प। एलएलएम को बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है और, विस्तार से, प्रशिक्षण और संचालन दोनों के लिए विशाल कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। जीपीटी-4 एमआईटी में एक कार्यक्रम में बोलते हुए (वायर्ड के अनुसार)। एक अन्य उदाहरण मेटा का OPT-175B LLM है। मेटा का कहना है कि इसे 992 NVIDIA A100 80GB GPU का उपयोग करके प्रशिक्षित किया गया था, जिसकी लागत CNBC के अनुसार लगभग $10,000 प्रति यूनिट थी। ऊर्जा, वेतन और अधिक जैसे अन्य खर्चों को शामिल किए बिना, इसकी लागत लगभग $9 मिलियन है।

ऐसे आंकड़ों के साथ, छोटी और मध्यम कंपनियों के लिए एलएलएम को प्रशिक्षित करना व्यवहार्य नहीं है। इसके विपरीत, एसएलएम में संसाधन-वार प्रवेश बाधा कम होती है और चलाने की लागत कम होती है, और इस प्रकार, अधिक कंपनियां उन्हें अपनाएंगी।Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

2. बेहतर प्रदर्शन

प्रदर्शन दूसरा है वह क्षेत्र जहां एसएलएम अपने कॉम्पैक्ट आकार के कारण एलएलएम को मात देते हैं। एसएलएम में विलंबता कम होती है और ये उन परिदृश्यों के लिए अधिक उपयुक्त होते हैं जहां तेज़ प्रतिक्रियाओं की आवश्यकता होती है, जैसे वास्तविक समय के अनुप्रयोगों में। उदाहरण के लिए, डिजिटल असिस्टेंट जैसे वॉयस रिस्पांस सिस्टम में त्वरित प्रतिक्रिया को प्राथमिकता दी जाती है।

डिवाइस पर चलने (इस पर बाद में और अधिक) का मतलब यह भी है कि आपके अनुरोध को ऑनलाइन सर्वर तक यात्रा करने और वापस आने की आवश्यकता नहीं है। आपके प्रश्न का उत्तर दें, जिससे त्वरित प्रतिक्रियाएँ प्राप्त होंगी। वर्तमान एलएलएम को कच्चे इंटरनेट डेटा के बड़े डेटासेट का उपयोग करके प्रशिक्षित किया गया है। इस प्रकार, वे सभी स्थितियों में सटीक नहीं हो सकते हैं। यह चैटजीपीटी और इसी तरह के मॉडलों की समस्याओं में से एक है और आपको एआई चैटबॉट द्वारा कही गई हर बात पर भरोसा क्यों नहीं करना चाहिए। दूसरी ओर, एसएलएम को एलएलएम की तुलना में उच्च गुणवत्ता वाले डेटा का उपयोग करके प्रशिक्षित किया जाता है और इस प्रकार उनकी सटीकता अधिक होती है।

एसएलएम को विशिष्ट कार्यों या डोमेन पर केंद्रित प्रशिक्षण के साथ और भी बेहतर बनाया जा सकता है, जिससे उनमें बेहतर सटीकता हो सकती है। बड़े, अधिक सामान्यीकृत मॉडल की तुलना में क्षेत्र। इन्हें स्मार्टफोन और स्वायत्त वाहनों जैसे अत्याधुनिक उपकरणों पर तैनात किया जा सकता है, जिनमें बड़ी कम्प्यूटेशनल शक्ति या संसाधन नहीं होते हैं। Google का नैनो मॉडल डिवाइस पर चल सकता है, जिससे यह तब भी काम कर सकता है जब आपके पास सक्रिय इंटरनेट कनेक्शन न हो।Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI

यह क्षमता कंपनियों और उपभोक्ताओं दोनों के लिए फायदे की स्थिति प्रस्तुत करती है। सबसे पहले, यह गोपनीयता के लिए एक जीत है क्योंकि उपयोगकर्ता डेटा को क्लाउड पर भेजे जाने के बजाय स्थानीय रूप से संसाधित किया जाता है, जो महत्वपूर्ण है क्योंकि अधिक एआई हमारे स्मार्टफ़ोन में एकीकृत होता है, जिसमें हमारे बारे में लगभग हर विवरण शामिल होता है। यह कंपनियों के लिए भी एक जीत है क्योंकि उन्हें एआई कार्यों को संभालने के लिए बड़े सर्वर को तैनात करने और चलाने की आवश्यकता नहीं है।

एसएलएम गति प्राप्त कर रहे हैं, सबसे बड़े उद्योग के खिलाड़ियों, जैसे ओपन एआई, गूगल, माइक्रोसॉफ्ट, के साथ। एंथ्रोपिक, और मेटा, ऐसे मॉडल जारी कर रहे हैं। ये मॉडल सरल कार्यों के लिए अधिक उपयुक्त हैं, जिसके लिए हममें से अधिकांश लोग एलएलएम का उपयोग करते हैं; इसलिए, वे भविष्य हैं।

लेकिन एलएलएम कहीं नहीं जा रहे हैं। इसके बजाय, उनका उपयोग उन्नत अनुप्रयोगों के लिए किया जाएगा जो चिकित्सा अनुसंधान की तरह कुछ नया बनाने के लिए विभिन्न डोमेन में जानकारी को जोड़ते हैं।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://www.makeuseof.com/why-small-भाषा-मॉडल-are-the-future-of-ai/ यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] से संपर्क करें।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3