ओपन एआई के चैटजीपीटी की रिलीज के साथ बड़े भाषा मॉडल (एलएलएम) ने धूम मचा दी। तब से, कई कंपनियों ने अपने एलएलएम भी लॉन्च किए हैं, लेकिन अधिक कंपनियां अब छोटे भाषा मॉडल (एसएलएम) की ओर झुक रही हैं।
एसएलएम गति प्राप्त कर रहे हैं, लेकिन वे क्या हैं, और वे एलएलएम से कैसे भिन्न हैं?
एक छोटा भाषा मॉडल (एसएलएम) कम मापदंडों वाला एक प्रकार का कृत्रिम बुद्धिमत्ता मॉडल है (इसे प्रशिक्षण के दौरान सीखे गए मॉडल में एक मूल्य के रूप में सोचें)। अपने बड़े समकक्षों की तरह, एसएलएम पाठ उत्पन्न कर सकते हैं और अन्य कार्य कर सकते हैं। हालाँकि, एसएलएम प्रशिक्षण के लिए कम डेटासेट का उपयोग करते हैं, कम पैरामीटर होते हैं, और प्रशिक्षण और चलाने के लिए कम कम्प्यूटेशनल शक्ति की आवश्यकता होती है।
एसएलएम प्रमुख कार्यात्मकताओं पर ध्यान केंद्रित करते हैं, और उनके छोटे पदचिह्न का मतलब है कि उन्हें विभिन्न उपकरणों पर तैनात किया जा सकता है, जिनमें ये भी शामिल हैं जिसमें मोबाइल उपकरणों की तरह उच्च-स्तरीय हार्डवेयर नहीं है। उदाहरण के लिए, Google का नैनो एक ऑन-डिवाइस SLM है जो शुरू से ही बनाया गया है जो मोबाइल उपकरणों पर चलता है। कंपनी के अनुसार, अपने छोटे आकार के कारण, नैनो स्थानीय स्तर पर नेटवर्क कनेक्टिविटी के साथ या उसके बिना भी चल सकती है।
नैनो के अलावा, एआई क्षेत्र में अग्रणी और आगामी कंपनियों के कई अन्य एसएलएम हैं। कुछ लोकप्रिय SLM में माइक्रोसॉफ्ट का Phi-3, OpenAI का GPT-4o मिनी, एंथ्रोपिक का क्लाउड 3 हाइकू, मेटा का लामा 3 और मिस्ट्रल AI का मिक्सट्रल 8x7B शामिल हैं।
अन्य विकल्प भी उपलब्ध हैं, जिन्हें आप सोच सकते हैं कि ये एलएलएम हैं लेकिन हैं एसएलएम. यह विशेष रूप से सच है क्योंकि अधिकांश कंपनियां एलएलएम और एसएलएम दोनों की पेशकश करते हुए अपने पोर्टफोलियो में एक से अधिक भाषा मॉडल जारी करने का बहु-मॉडल दृष्टिकोण अपना रही हैं। एक उदाहरण GPT-4 है, जिसमें GPT-4, GPT-4o (ओमनी), और GPT-4o मिनी सहित विभिन्न मॉडल हैं।
एसएलएम पर चर्चा करते समय, हम उनके बड़े समकक्षों: एलएलएम को नजरअंदाज नहीं कर सकते। एसएलएम और एलएलएम के बीच मुख्य अंतर मॉडल आकार का है, जिसे मापदंडों के संदर्भ में मापा जाता है। एसएलएम माने जाने के लिए या एलएलएम माने जाने के लिए आवश्यक न्यूनतम संख्या से अधिक। हालाँकि, एसएलएम में आम तौर पर लाखों से कुछ अरब पैरामीटर होते हैं, जबकि एलएलएम में इससे भी अधिक, खरबों तक होते हैं। अफवाह है कि GPT-4 मॉडल में लगभग 1.76 ट्रिलियन) हैं, जबकि Microsoft के 2024 Phi-3-mini, Phi-3-small, और Phi-3-मध्यम SLM क्रमशः 3.8, 7 और 14 बिलियन पैरामीटर मापते हैं।
एसएलएम और एलएलएम के बीच एक और अंतर कारक प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की मात्रा है। एसएलएम को छोटी मात्रा में डेटा पर प्रशिक्षित किया जाता है, जबकि एलएलएम बड़े डेटासेट का उपयोग करते हैं। यह अंतर जटिल कार्यों को हल करने के लिए मॉडल की क्षमता को भी प्रभावित करता है।प्रशिक्षण में उपयोग किए जाने वाले बड़े डेटा के कारण, एलएलएम विभिन्न प्रकार के जटिल कार्यों को हल करने के लिए बेहतर अनुकूल हैं जिनके लिए उन्नत तर्क की आवश्यकता होती है, जबकि एसएलएम सरल कार्यों के लिए बेहतर अनुकूल होते हैं। कार्य. एलएलएम के विपरीत, एसएलएम कम प्रशिक्षण डेटा का उपयोग करते हैं, लेकिन एक छोटे पैकेज में एलएलएम में पाई जाने वाली कई क्षमताओं को प्राप्त करने के लिए उपयोग किया जाने वाला डेटा उच्च गुणवत्ता का होना चाहिए।
छोटे भाषा मॉडल भविष्य क्यों हैं
अधिकांश उपयोग के मामलों में, एसएलएम विभिन्न प्रकार के कार्यों को करने के लिए कंपनियों और उपभोक्ताओं द्वारा उपयोग किए जाने वाले मुख्यधारा मॉडल बनने के लिए बेहतर स्थिति में हैं। निश्चित रूप से, एलएलएम के अपने फायदे हैं और जटिल कार्यों को हल करने जैसे कुछ उपयोग के मामलों के लिए अधिक उपयुक्त हैं। हालाँकि, निम्नलिखित कारणों से एसएलएम अधिकांश उपयोग के मामलों के लिए भविष्य हैं।
एसएलएम को एलएलएम की तुलना में प्रशिक्षण के लिए कम डेटा की आवश्यकता होती है, जो उन्हें सीमित प्रशिक्षण डेटा, वित्त या दोनों के साथ व्यक्तियों और छोटी से मध्यम कंपनियों के लिए सबसे व्यवहार्य विकल्प। एलएलएम को बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है और, विस्तार से, प्रशिक्षण और संचालन दोनों के लिए विशाल कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। जीपीटी-4 एमआईटी में एक कार्यक्रम में बोलते हुए (वायर्ड के अनुसार)। एक अन्य उदाहरण मेटा का OPT-175B LLM है। मेटा का कहना है कि इसे 992 NVIDIA A100 80GB GPU का उपयोग करके प्रशिक्षित किया गया था, जिसकी लागत CNBC के अनुसार लगभग $10,000 प्रति यूनिट थी। ऊर्जा, वेतन और अधिक जैसे अन्य खर्चों को शामिल किए बिना, इसकी लागत लगभग $9 मिलियन है।
2. बेहतर प्रदर्शन
प्रदर्शन दूसरा है वह क्षेत्र जहां एसएलएम अपने कॉम्पैक्ट आकार के कारण एलएलएम को मात देते हैं। एसएलएम में विलंबता कम होती है और ये उन परिदृश्यों के लिए अधिक उपयुक्त होते हैं जहां तेज़ प्रतिक्रियाओं की आवश्यकता होती है, जैसे वास्तविक समय के अनुप्रयोगों में। उदाहरण के लिए, डिजिटल असिस्टेंट जैसे वॉयस रिस्पांस सिस्टम में त्वरित प्रतिक्रिया को प्राथमिकता दी जाती है।डिवाइस पर चलने (इस पर बाद में और अधिक) का मतलब यह भी है कि आपके अनुरोध को ऑनलाइन सर्वर तक यात्रा करने और वापस आने की आवश्यकता नहीं है। आपके प्रश्न का उत्तर दें, जिससे त्वरित प्रतिक्रियाएँ प्राप्त होंगी। वर्तमान एलएलएम को कच्चे इंटरनेट डेटा के बड़े डेटासेट का उपयोग करके प्रशिक्षित किया गया है। इस प्रकार, वे सभी स्थितियों में सटीक नहीं हो सकते हैं। यह चैटजीपीटी और इसी तरह के मॉडलों की समस्याओं में से एक है और आपको एआई चैटबॉट द्वारा कही गई हर बात पर भरोसा क्यों नहीं करना चाहिए। दूसरी ओर, एसएलएम को एलएलएम की तुलना में उच्च गुणवत्ता वाले डेटा का उपयोग करके प्रशिक्षित किया जाता है और इस प्रकार उनकी सटीकता अधिक होती है।एसएलएम को विशिष्ट कार्यों या डोमेन पर केंद्रित प्रशिक्षण के साथ और भी बेहतर बनाया जा सकता है, जिससे उनमें बेहतर सटीकता हो सकती है। बड़े, अधिक सामान्यीकृत मॉडल की तुलना में क्षेत्र। इन्हें स्मार्टफोन और स्वायत्त वाहनों जैसे अत्याधुनिक उपकरणों पर तैनात किया जा सकता है, जिनमें बड़ी कम्प्यूटेशनल शक्ति या संसाधन नहीं होते हैं। Google का नैनो मॉडल डिवाइस पर चल सकता है, जिससे यह तब भी काम कर सकता है जब आपके पास सक्रिय इंटरनेट कनेक्शन न हो।
यह क्षमता कंपनियों और उपभोक्ताओं दोनों के लिए फायदे की स्थिति प्रस्तुत करती है। सबसे पहले, यह गोपनीयता के लिए एक जीत है क्योंकि उपयोगकर्ता डेटा को क्लाउड पर भेजे जाने के बजाय स्थानीय रूप से संसाधित किया जाता है, जो महत्वपूर्ण है क्योंकि अधिक एआई हमारे स्मार्टफ़ोन में एकीकृत होता है, जिसमें हमारे बारे में लगभग हर विवरण शामिल होता है। यह कंपनियों के लिए भी एक जीत है क्योंकि उन्हें एआई कार्यों को संभालने के लिए बड़े सर्वर को तैनात करने और चलाने की आवश्यकता नहीं है।
एसएलएम गति प्राप्त कर रहे हैं, सबसे बड़े उद्योग के खिलाड़ियों, जैसे ओपन एआई, गूगल, माइक्रोसॉफ्ट, के साथ। एंथ्रोपिक, और मेटा, ऐसे मॉडल जारी कर रहे हैं। ये मॉडल सरल कार्यों के लिए अधिक उपयुक्त हैं, जिसके लिए हममें से अधिकांश लोग एलएलएम का उपयोग करते हैं; इसलिए, वे भविष्य हैं।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3