एलएलएम से परे: यहां बताया गया है कि छोटे भाषा मॉडल एआई का भविष्य क्यों हैं

मुखपृष्ठ > ऐ > एलएलएम से परे: यहां बताया गया है कि छोटे भाषा मॉडल एआई का भविष्य क्यों हैं

एलएलएम से परे: यहां बताया गया है कि छोटे भाषा मॉडल एआई का भविष्य क्यों हैं

2024-11-01 को प्रकाशित

ब्राउज़ करें:494

ओपन एआई के चैटजीपीटी की रिलीज के साथ बड़े भाषा मॉडल (एलएलएम) ने धूम मचा दी। तब से, कई कंपनियों ने अपने एलएलएम भी लॉन्च किए हैं, लेकिन अधिक कंपनियां अब छोटे भाषा मॉडल (एसएलएम) की ओर झुक रही हैं।

एसएलएम गति प्राप्त कर रहे हैं, लेकिन वे क्या हैं, और वे एलएलएम से कैसे भिन्न हैं?

लघु भाषा मॉडल क्या है?

एक छोटा भाषा मॉडल (एसएलएम) कम मापदंडों वाला एक प्रकार का कृत्रिम बुद्धिमत्ता मॉडल है (इसे प्रशिक्षण के दौरान सीखे गए मॉडल में एक मूल्य के रूप में सोचें)। अपने बड़े समकक्षों की तरह, एसएलएम पाठ उत्पन्न कर सकते हैं और अन्य कार्य कर सकते हैं। हालाँकि, एसएलएम प्रशिक्षण के लिए कम डेटासेट का उपयोग करते हैं, कम पैरामीटर होते हैं, और प्रशिक्षण और चलाने के लिए कम कम्प्यूटेशनल शक्ति की आवश्यकता होती है।

एसएलएम प्रमुख कार्यात्मकताओं पर ध्यान केंद्रित करते हैं, और उनके छोटे पदचिह्न का मतलब है कि उन्हें विभिन्न उपकरणों पर तैनात किया जा सकता है, जिनमें ये भी शामिल हैं जिसमें मोबाइल उपकरणों की तरह उच्च-स्तरीय हार्डवेयर नहीं है। उदाहरण के लिए, Google का नैनो एक ऑन-डिवाइस SLM है जो शुरू से ही बनाया गया है जो मोबाइल उपकरणों पर चलता है। कंपनी के अनुसार, अपने छोटे आकार के कारण, नैनो स्थानीय स्तर पर नेटवर्क कनेक्टिविटी के साथ या उसके बिना भी चल सकती है।

$Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

नैनो के अलावा, एआई क्षेत्र में अग्रणी और आगामी कंपनियों के कई अन्य एसएलएम हैं। कुछ लोकप्रिय SLM में माइक्रोसॉफ्ट का Phi-3, OpenAI का GPT-4o मिनी, एंथ्रोपिक का क्लाउड 3 हाइकू, मेटा का लामा 3 और मिस्ट्रल AI का मिक्सट्रल 8x7B शामिल हैं।

अन्य विकल्प भी उपलब्ध हैं, जिन्हें आप सोच सकते हैं कि ये एलएलएम हैं लेकिन हैं एसएलएम. यह विशेष रूप से सच है क्योंकि अधिकांश कंपनियां एलएलएम और एसएलएम दोनों की पेशकश करते हुए अपने पोर्टफोलियो में एक से अधिक भाषा मॉडल जारी करने का बहु-मॉडल दृष्टिकोण अपना रही हैं। एक उदाहरण GPT-4 है, जिसमें GPT-4, GPT-4o (ओमनी), और GPT-4o मिनी सहित विभिन्न मॉडल हैं।

छोटे भाषा मॉडल बनाम बड़े भाषा मॉडल

एसएलएम पर चर्चा करते समय, हम उनके बड़े समकक्षों: एलएलएम को नजरअंदाज नहीं कर सकते। एसएलएम और एलएलएम के बीच मुख्य अंतर मॉडल आकार का है, जिसे मापदंडों के संदर्भ में मापा जाता है। एसएलएम माने जाने के लिए या एलएलएम माने जाने के लिए आवश्यक न्यूनतम संख्या से अधिक। हालाँकि, एसएलएम में आम तौर पर लाखों से कुछ अरब पैरामीटर होते हैं, जबकि एलएलएम में इससे भी अधिक, खरबों तक होते हैं। अफवाह है कि GPT-4 मॉडल में लगभग 1.76 ट्रिलियन) हैं, जबकि Microsoft के 2024 Phi-3-mini, Phi-3-small, और Phi-3-मध्यम SLM क्रमशः 3.8, 7 और 14 बिलियन पैरामीटर मापते हैं।

एसएलएम और एलएलएम के बीच एक और अंतर कारक प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की मात्रा है। एसएलएम को छोटी मात्रा में डेटा पर प्रशिक्षित किया जाता है, जबकि एलएलएम बड़े डेटासेट का उपयोग करते हैं। यह अंतर जटिल कार्यों को हल करने के लिए मॉडल की क्षमता को भी प्रभावित करता है।

प्रशिक्षण में उपयोग किए जाने वाले बड़े डेटा के कारण, एलएलएम विभिन्न प्रकार के जटिल कार्यों को हल करने के लिए बेहतर अनुकूल हैं जिनके लिए उन्नत तर्क की आवश्यकता होती है, जबकि एसएलएम सरल कार्यों के लिए बेहतर अनुकूल होते हैं। कार्य. एलएलएम के विपरीत, एसएलएम कम प्रशिक्षण डेटा का उपयोग करते हैं, लेकिन एक छोटे पैकेज में एलएलएम में पाई जाने वाली कई क्षमताओं को प्राप्त करने के लिए उपयोग किया जाने वाला डेटा उच्च गुणवत्ता का होना चाहिए। $Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

छोटे भाषा मॉडल भविष्य क्यों हैं

अधिकांश उपयोग के मामलों में, एसएलएम विभिन्न प्रकार के कार्यों को करने के लिए कंपनियों और उपभोक्ताओं द्वारा उपयोग किए जाने वाले मुख्यधारा मॉडल बनने के लिए बेहतर स्थिति में हैं। निश्चित रूप से, एलएलएम के अपने फायदे हैं और जटिल कार्यों को हल करने जैसे कुछ उपयोग के मामलों के लिए अधिक उपयुक्त हैं। हालाँकि, निम्नलिखित कारणों से एसएलएम अधिकांश उपयोग के मामलों के लिए भविष्य हैं।

1. कम प्रशिक्षण और रखरखाव लागत

एसएलएम को एलएलएम की तुलना में प्रशिक्षण के लिए कम डेटा की आवश्यकता होती है, जो उन्हें सीमित प्रशिक्षण डेटा, वित्त या दोनों के साथ व्यक्तियों और छोटी से मध्यम कंपनियों के लिए सबसे व्यवहार्य विकल्प। एलएलएम को बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है और, विस्तार से, प्रशिक्षण और संचालन दोनों के लिए विशाल कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। जीपीटी-4 एमआईटी में एक कार्यक्रम में बोलते हुए (वायर्ड के अनुसार)। एक अन्य उदाहरण मेटा का OPT-175B LLM है। मेटा का कहना है कि इसे 992 NVIDIA A100 80GB GPU का उपयोग करके प्रशिक्षित किया गया था, जिसकी लागत CNBC के अनुसार लगभग $10,000 प्रति यूनिट थी। ऊर्जा, वेतन और अधिक जैसे अन्य खर्चों को शामिल किए बिना, इसकी लागत लगभग $9 मिलियन है।

ऐसे आंकड़ों के साथ, छोटी और मध्यम कंपनियों के लिए एलएलएम को प्रशिक्षित करना व्यवहार्य नहीं है। इसके विपरीत, एसएलएम में संसाधन-वार प्रवेश बाधा कम होती है और चलाने की लागत कम होती है, और इस प्रकार, अधिक कंपनियां उन्हें अपनाएंगी। $Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

2. बेहतर प्रदर्शन

प्रदर्शन दूसरा है वह क्षेत्र जहां एसएलएम अपने कॉम्पैक्ट आकार के कारण एलएलएम को मात देते हैं। एसएलएम में विलंबता कम होती है और ये उन परिदृश्यों के लिए अधिक उपयुक्त होते हैं जहां तेज़ प्रतिक्रियाओं की आवश्यकता होती है, जैसे वास्तविक समय के अनुप्रयोगों में। उदाहरण के लिए, डिजिटल असिस्टेंट जैसे वॉयस रिस्पांस सिस्टम में त्वरित प्रतिक्रिया को प्राथमिकता दी जाती है।

डिवाइस पर चलने (इस पर बाद में और अधिक) का मतलब यह भी है कि आपके अनुरोध को ऑनलाइन सर्वर तक यात्रा करने और वापस आने की आवश्यकता नहीं है। आपके प्रश्न का उत्तर दें, जिससे त्वरित प्रतिक्रियाएँ प्राप्त होंगी। वर्तमान एलएलएम को कच्चे इंटरनेट डेटा के बड़े डेटासेट का उपयोग करके प्रशिक्षित किया गया है। इस प्रकार, वे सभी स्थितियों में सटीक नहीं हो सकते हैं। यह चैटजीपीटी और इसी तरह के मॉडलों की समस्याओं में से एक है और आपको एआई चैटबॉट द्वारा कही गई हर बात पर भरोसा क्यों नहीं करना चाहिए। दूसरी ओर, एसएलएम को एलएलएम की तुलना में उच्च गुणवत्ता वाले डेटा का उपयोग करके प्रशिक्षित किया जाता है और इस प्रकार उनकी सटीकता अधिक होती है।

एसएलएम को विशिष्ट कार्यों या डोमेन पर केंद्रित प्रशिक्षण के साथ और भी बेहतर बनाया जा सकता है, जिससे उनमें बेहतर सटीकता हो सकती है। बड़े, अधिक सामान्यीकृत मॉडल की तुलना में क्षेत्र। इन्हें स्मार्टफोन और स्वायत्त वाहनों जैसे अत्याधुनिक उपकरणों पर तैनात किया जा सकता है, जिनमें बड़ी कम्प्यूटेशनल शक्ति या संसाधन नहीं होते हैं। Google का नैनो मॉडल डिवाइस पर चल सकता है, जिससे यह तब भी काम कर सकता है जब आपके पास सक्रिय इंटरनेट कनेक्शन न हो। $Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

यह क्षमता कंपनियों और उपभोक्ताओं दोनों के लिए फायदे की स्थिति प्रस्तुत करती है। सबसे पहले, यह गोपनीयता के लिए एक जीत है क्योंकि उपयोगकर्ता डेटा को क्लाउड पर भेजे जाने के बजाय स्थानीय रूप से संसाधित किया जाता है, जो महत्वपूर्ण है क्योंकि अधिक एआई हमारे स्मार्टफ़ोन में एकीकृत होता है, जिसमें हमारे बारे में लगभग हर विवरण शामिल होता है। यह कंपनियों के लिए भी एक जीत है क्योंकि उन्हें एआई कार्यों को संभालने के लिए बड़े सर्वर को तैनात करने और चलाने की आवश्यकता नहीं है।

एसएलएम गति प्राप्त कर रहे हैं, सबसे बड़े उद्योग के खिलाड़ियों, जैसे ओपन एआई, गूगल, माइक्रोसॉफ्ट, के साथ। एंथ्रोपिक, और मेटा, ऐसे मॉडल जारी कर रहे हैं। ये मॉडल सरल कार्यों के लिए अधिक उपयुक्त हैं, जिसके लिए हममें से अधिकांश लोग एलएलएम का उपयोग करते हैं; इसलिए, वे भविष्य हैं।

लेकिन एलएलएम कहीं नहीं जा रहे हैं। इसके बजाय, उनका उपयोग उन्नत अनुप्रयोगों के लिए किया जाएगा जो चिकित्सा अनुसंधान की तरह कुछ नया बनाने के लिए विभिन्न डोमेन में जानकारी को जोड़ते हैं।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://www.makeuseof.com/why-small-भाषा-मॉडल-are-the-future-of-ai/ यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] से संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

एलएलएम के लिए 8 आवश्यक मुफ्त और भुगतान एपीआई सिफारिशें
] ] वे आवश्यक पुलों के रूप में कार्य करते हैं, बड़े पैमाने पर बड़े भाषा मॉडल (एलएलएम) को विविध सॉफ्टवेयर पारिस्थितिक तंत्र से जोड़ते हैं। यह कुशल डे...

ऐ 2025-04-21 को पोस्ट किया गया
उपयोगकर्ता गाइड: फाल्कन 3-7 बी निर्देश मॉडल
] ] यह नवीनतम पुनरावृत्ति एक नया प्रदर्शन बेंचमार्क स्थापित करता है, जो ओपन-सोर्स एआई की क्षमताओं को आगे बढ़ाता है। ] छोटे उपकरणों पर इसका निर्बाध प...

ऐ 2025-04-20 पर पोस्ट किया गया
दीपसेक-वी 3 बनाम जीपीटी -4 ओ और लामा 3.3 70 बी: सबसे मजबूत एआई मॉडल खुलासा
The evolution of AI language models has set new standards, especially in the coding and programming landscape. Leading the c...

ऐ 2025-04-18 को पोस्ट किया गया
शीर्ष 5 एआई बुद्धिमान बजट उपकरण
एआई के साथ वित्तीय स्वतंत्रता को अनलॉक करना: भारत में शीर्ष बजट ऐप क्या आप लगातार सोचकर थक गए हैं कि आपका पैसा कहां जाता है? क्या बिल आपकी आय को खा...

ऐ 2025-04-17 को पोस्ट किया गया
एक्सेल Sumproduct फ़ंक्शन की विस्तृत व्याख्या - स्कूल ऑफ डेटा विश्लेषण
एक्सेल का SUMPRODUC ] यह बहुमुखी फ़ंक्शन सहजता से योग और गुणा करने की क्षमताओं को जोड़ता है, जो इसी सीमा या सरणियों में जोड़, घटाव और विभाजन तक फैलता...

ऐ 2025-04-16 को पोस्ट किया गया
गहराई से शोध पूरी तरह से खुला है, CHATGPT प्लस उपयोगकर्ता लाभ
] ] मिथुन, ग्रोक 3, और पेरप्लेक्सिटी जैसे प्रतियोगियों से इसी तरह की विशेषताओं का परीक्षण करने के बाद, मैं आत्मविश्वास से ओपनई के गहरे शोध को बेहतर व...

ऐ 2025-04-16 को पोस्ट किया गया
अमेज़ॅन नोवा टुडे रियल एक्सपीरियंस एंड रिव्यू - एनालिटिक्स विदिया
] ] यह लेख नोवा की वास्तुकला में देरी करता है, हाथों पर उदाहरणों के माध्यम से अपनी क्षमताओं की पड़ताल करता है, और बेंचमार्क परिणामों की जांच करता है। ...

ऐ 2025-04-16 को पोस्ट किया गया
5 तरीके चटपट टाइमिंग टास्क फ़ंक्शन का उपयोग करने के तरीके
] ] यह उपयोगकर्ताओं को दोहराव के संकेतों को स्वचालित करने की अनुमति देता है, ऑफ़लाइन रहते हुए भी पूर्व निर्धारित समय पर सूचनाएं या प्रतिक्रियाएं प्रा...

ऐ 2025-04-16 को पोस्ट किया गया
तीनों में से कौन सी चैटबॉट एक ही प्रॉम्प्ट का जवाब देता है सबसे अच्छा है?
शोर के माध्यम से कटौती करने में मदद करने के लिए, मैंने यह देखने के लिए एक समान संकेत का उपयोग करके तीनों को परीक्षण में डाल दिया कि कौन सबसे अच्छी...

ऐ 2025-04-15 को पोस्ट किया गया
CHATGPT पर्याप्त है, कोई समर्पित AI चैट मशीन की आवश्यकता नहीं है
] लेकिन मेरे अनुभव में, Chatgpt बहुत अधिक सब कुछ संभालता है जो मैं उस पर फेंक देता हूं, बिना प्लेटफार्मों के बीच स्विच करने की आवश्यकता के बिना, बस थो...

ऐ 2025-04-14 को पोस्ट किया गया
भारतीय एआई पल: चीन और संयुक्त राज्य अमेरिका के साथ प्रतिस्पर्धा
] ] भारत के विविध भाषाई और सांस्कृतिक परिदृश्य को पूरा करने वाले स्वदेशी बड़े भाषा मॉडल (एलएलएम) और एआई उपकरणों की तत्काल आवश्यकता निर्विवाद है। यह ...

ऐ 2025-04-13 को पोस्ट किया गया
AirFlow और Docker का उपयोग करके PostgreSQL के लिए CSV के आयात को स्वचालित करना
] हम कुशल वर्कफ़्लो प्रबंधन के लिए डीएजी, कार्यों और ऑपरेटरों जैसे कोर एयरफ्लो अवधारणाओं को कवर करेंगे। ] हम कुशल डेटा हैंडलिंग सुनिश्चित करने और डे...

ऐ 2025-04-12 को पोस्ट किया गया
झुंड खुफिया एल्गोरिदम: तीन पायथन कार्यान्वयन
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

ऐ 2025-03-24 को पोस्ट किया गया
कैसे अपने एलएलएम को राग और ठीक-ट्यूनिंग के साथ अधिक सटीक बनाने के लिए
Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...

ऐ 2025-03-24 को पोस्ट किया गया
Google मिथुन क्या है? Google के Chatgpt प्रतिद्वंद्वी के बारे में आपको सब कुछ जानना होगा
Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...

ऐ 2025-03-23 पर पोस्ट किया गया