सॉफ्टवेयर इंजीनियरों के लिए मशीन लर्निंग

मुखपृष्ठ > प्रोग्रामिंग > सॉफ्टवेयर इंजीनियरों के लिए मशीन लर्निंग

सॉफ्टवेयर इंजीनियरों के लिए मशीन लर्निंग

2024-08-07 को प्रकाशित

ब्राउज़ करें:746

Machine Learning for Software Engineers

अगर आपको यह मूल्यवान लगता है तो मुझे बताएं और मैं आगे बढ़ता रहूंगा!

अध्याय 1 - रैखिक मॉडल

सबसे सरल लेकिन शक्तिशाली अवधारणाओं में से एक रैखिक मॉडल है।

एमएल में, हमारा प्राथमिक लक्ष्य डेटा के आधार पर भविष्यवाणियां करना है। रैखिक मॉडल मशीन लर्निंग के "हैलो वर्ल्ड" की तरह है - यह सीधा है लेकिन अधिक जटिल मॉडल को समझने की नींव बनाता है।

आइए घर की कीमतों की भविष्यवाणी करने के लिए एक मॉडल बनाएं। इस उदाहरण में, आउटपुट अपेक्षित "घर की कीमत" है, और आपका इनपुट "वर्गफुट", "num_bedrooms" आदि जैसी चीजें होंगी...

def prediction(sqft, num_bedrooms, num_baths):
    weight_1, weight_2, weight_3 = .0, .0, .0  
    home_price = weight_1*sqft, weight_2*num_bedrooms, weight_3*num_baths
    return home_price

आपको प्रत्येक इनपुट के लिए एक "वजन" दिखाई देगा। ये वज़न ही भविष्यवाणी के पीछे का जादू पैदा करते हैं। यह उदाहरण उबाऊ है क्योंकि वज़न शून्य होने के कारण इसका आउटपुट हमेशा शून्य होगा।

तो आइए जानें कि हम ये वज़न कैसे पता कर सकते हैं।

वज़न ढूँढना

वजन ज्ञात करने की प्रक्रिया को मॉडल को "प्रशिक्षण" कहा जाता है।

सबसे पहले, हमें ज्ञात सुविधाओं (इनपुट) और कीमतों (आउटपुट) वाले घरों का एक डेटासेट चाहिए। उदाहरण के लिए:

data = [
    {"sqft": 1000, "bedrooms": 2, "baths": 1, "price": 200000},
    {"sqft": 1500, "bedrooms": 3, "baths": 2, "price": 300000},
    # ... more data points ...
]

इससे पहले कि हम अपना वजन अपडेट करने का कोई तरीका बनाएं, हमें यह जानना होगा कि हमारी भविष्यवाणियां कितनी सही हैं। हम अपनी भविष्यवाणी और वास्तविक मूल्य के बीच अंतर की गणना कर सकते हैं।

home_price = prediction(1000, 2, 1) # our weights are currently zero, so this is zero
actual_value = 200000

error = home_price - actual_value # 0 - 200000 we are way off. 
# let's square this value so we aren't dealing with negatives
error = home_price**2

अब हमारे पास यह जानने का एक तरीका है कि हम एक डेटा बिंदु के लिए कितने ऑफ (त्रुटि) हैं, हम सभी डेटा बिंदुओं पर औसत त्रुटि की गणना कर सकते हैं। इसे सामान्यतः माध्य वर्ग त्रुटि कहा जाता है।

अंत में, वज़न को इस तरह से अपडेट करें जिससे माध्य वर्ग त्रुटि कम हो जाए।

बेशक, हम यादृच्छिक संख्याएं चुन सकते हैं और जैसे-जैसे आगे बढ़ेंगे, सर्वोत्तम मूल्य बचाते रहेंगे- लेकिन यह अक्षम है। तो आइए एक अलग विधि का पता लगाएं: ग्रेडिएंट डिसेंट।

ढतला हुआ वंश

ग्रेडिएंट डिसेंट एक अनुकूलन एल्गोरिदम है जिसका उपयोग हमारे मॉडल के लिए सर्वोत्तम वजन खोजने के लिए किया जाता है।

ग्रेडिएंट एक वेक्टर है जो हमें बताता है कि जब हम प्रत्येक वजन में छोटे बदलाव करते हैं तो त्रुटि कैसे बदलती है।

साइडबार अंतर्ज्ञान
एक पहाड़ी परिदृश्य पर खड़े होने की कल्पना करें, और आपका लक्ष्य निम्नतम बिंदु (न्यूनतम त्रुटि) तक पहुंचना है। ढाल एक कम्पास की तरह है जो हमेशा सबसे तीव्र चढ़ाई की ओर इशारा करती है। ढाल की दिशा के विपरीत जाकर, हम निम्नतम बिंदु की ओर कदम बढ़ा रहे हैं।

यह ऐसे काम करता है:

यादृच्छिक भार (या शून्य) से प्रारंभ करें।
वर्तमान वजन के लिए त्रुटि की गणना करें।
प्रत्येक वजन के लिए त्रुटि की ढाल (ढलान) की गणना करें।
त्रुटि को कम करने वाली दिशा में एक छोटा कदम बढ़ाकर वजन को अपडेट करें।
चरण 2-4 तब तक दोहराएँ जब तक त्रुटि काफ़ी कम होना बंद न हो जाए।

हम प्रत्येक त्रुटि के लिए ग्रेडिएंट की गणना कैसे करते हैं?

ग्रेडिएंट की गणना करने का एक तरीका वजन में छोटे बदलाव करना है, देखें कि इसका हमारी त्रुटि पर क्या प्रभाव पड़ा, और देखें कि हमें वहां से कहां जाना चाहिए।

def calculate_gradient(weight, data, feature_index, step_size=1e-5):
    original_error = calculate_mean_squared_error(weight, data)

    # Slightly increase the weight
    weight[feature_index]  = step_size
    new_error = calculate_mean_squared_error(weight, data)

    # Calculate the slope
    gradient = (new_error - original_error) / step_size

    # Reset the weight
    weight[feature_index] -= step_size

    return gradient

चरण-दर-चरण विश्लेषण

इनपुट पैरामीटर्स:
- वजन: हमारे मॉडल के लिए वजन का वर्तमान सेट।
- डेटा: घर की सुविधाओं और कीमतों का हमारा डेटासेट।
- फीचर_इंडेक्स: जिस वजन के लिए हम ग्रेडिएंट की गणना कर रहे हैं (वर्गफुट के लिए 0, शयनकक्ष के लिए 1, स्नान के लिए 2)।
- चरण_आकार: एक छोटा मान जिसका उपयोग हम वजन को थोड़ा बदलने के लिए करते हैं (डिफ़ॉल्ट 1e-5 या 0.00001 है)।
मूल त्रुटि की गणना करें:

   original_error = calculate_mean_squared_error(weight, data)

हम पहले अपने वर्तमान भार के साथ माध्य वर्ग त्रुटि की गणना करते हैं। इससे हमें अपना शुरुआती बिंदु मिलता है।

वजन थोड़ा बढ़ाएं:

   weight[feature_index]  = step_size

हम थोड़ी मात्रा में वजन बढ़ाते हैं (चरण_आकार)। यह हमें यह देखने की अनुमति देता है कि वजन में एक छोटा सा परिवर्तन हमारी त्रुटि को कैसे प्रभावित करता है।

नई त्रुटि की गणना करें:

   new_error = calculate_mean_squared_error(weight, data)

हम थोड़े बढ़े हुए वजन के साथ फिर से माध्य वर्ग त्रुटि की गणना करते हैं।

ढलान (ढाल) की गणना करें:

   gradient = (new_error - original_error) / step_size

यह महत्वपूर्ण कदम है। हम पूछ रहे हैं: "जब हमने वजन थोड़ा बढ़ाया तो त्रुटि में कितना बदलाव आया?"

यदि नया_त्रुटि> मूल_त्रुटि है, तो ग्रेडिएंट सकारात्मक है, जिसका अर्थ है कि इस वजन को बढ़ाने से त्रुटि बढ़ जाती है।
यदि नया_त्रुटि
परिमाण हमें बताता है कि इस भार में परिवर्तन के प्रति त्रुटि कितनी संवेदनशील है।
- वजन रीसेट करें:

   weight[feature_index] -= step_size

हमने वजन को उसके मूल मूल्य पर वापस रख दिया क्योंकि हम परीक्षण कर रहे थे कि अगर हमने इसे बदल दिया तो क्या होगा।

ग्रेडिएंट लौटाएं:

   return gradient

हम इस वजन के लिए परिकलित ग्रेडिएंट लौटाते हैं।

इसे "संख्यात्मक ग्रेडिएंट गणना" या "परिमित अंतर विधि" कहा जाता है। हम विश्लेषणात्मक रूप से गणना करने के बजाय ग्रेडिएंट का अनुमान लगा रहे हैं।

आइये वज़न अपडेट करें

अब जब हमारे पास अपने ग्रेडिएंट हैं, तो हम ग्रेडिएंट को घटाकर अपने वजन को ग्रेडिएंट की विपरीत दिशा में बढ़ा सकते हैं।

weights[i] -= gradients[i]

यदि हमारा ग्रेडिएंट बहुत बड़ा है, तो हम अपने वजन को बहुत अधिक अपडेट करके आसानी से अपने न्यूनतम से अधिक कर सकते हैं। इसे ठीक करने के लिए, हम ग्रेडिएंट को कुछ छोटी संख्या से गुणा कर सकते हैं:

learning_rate = 0.00001
weights[i] -= learning_rate*gradients[i]

और इसलिए यहां बताया गया है कि हम इसे सभी भारों के लिए कैसे करते हैं:

def gradient_descent(data, learning_rate=0.00001, num_iterations=1000):
    weights = [0, 0, 0]  # Start with zero weights

    for _ in range(num_iterations):
        gradients = [
            calculate_gradient(weights, data, 0), # sqft
            calculate_gradient(weights, data, 1), # bedrooms
            calculate_gradient(weights, data, 2)  # bathrooms
        ]

        # Update each weight
        for i in range(3):
            weights[i] -= learning_rate * gradients[i]

        if _ % 100 == 0:
            error = calculate_mean_squared_error(weights, data)
            print(f"Iteration {_}, Error: {error}, Weights: {weights}")

    return weights

आखिरकार, हमें अपना वजन मिल गया!

मॉडल की व्याख्या

एक बार जब हमारे पास प्रशिक्षित वजन हो, तो हम उनका उपयोग अपने मॉडल की व्याख्या करने के लिए कर सकते हैं:

'वर्ग फुट' का वजन प्रति वर्ग फुट मूल्य वृद्धि को दर्शाता है।
'बेडरूम' का वजन प्रति अतिरिक्त बेडरूम की कीमत में वृद्धि दर्शाता है।
'स्नान' का वजन प्रति अतिरिक्त बाथरूम की कीमत में वृद्धि दर्शाता है।

उदाहरण के लिए, यदि हमारा प्रशिक्षित वजन [100, 10000, 15000] है, तो इसका मतलब है:

प्रत्येक वर्ग फुट घर की कीमत में $100 जोड़ता है।
प्रत्येक शयनकक्ष घर की कीमत में $10,000 जोड़ता है।
प्रत्येक बाथरूम घर की कीमत में $15,000 जोड़ता है।

रैखिक मॉडल, अपनी सादगी के बावजूद, मशीन लर्निंग में शक्तिशाली उपकरण हैं। वे अधिक जटिल एल्गोरिदम को समझने के लिए आधार प्रदान करते हैं और वास्तविक दुनिया की समस्याओं में व्याख्या योग्य अंतर्दृष्टि प्रदान करते हैं।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/akdevelop/machine-learning-for-software-engineers-2hid?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] से संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

मैं PHP के फाइलसिस्टम फ़ंक्शंस में UTF-8 फ़ाइल नाम कैसे संभाल सकता हूं?
असंगतता। mkdir ($ dir_name); मूल UTF-8 फ़ाइल नाम को पुनः प्राप्त करने के लिए, urldecode का उपयोग करें। केवल) विंडोज पर, आप UTF-8 फ़ाइल नाम ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
आप MySQL में डेटा को पिवट करने के लिए समूह का उपयोग कैसे कर सकते हैं?
] यहाँ, हम एक सामान्य चुनौती से संपर्क करते हैं: पंक्ति-आधारित से स्तंभ-आधारित डेटा को बदलना समूह द्वारा समूह का उपयोग करके। आइए निम्न क्वेरी पर विचार...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
$क्यों isn \ 't मेरी css पृष्ठभूमि छवि दिखाई दे रही है?$
क्यों isn \ 't मेरी css पृष्ठभूमि छवि दिखाई दे रही है?
] छवि और स्टाइल शीट एक ही निर्देशिका में निवास कर रही है, फिर भी पृष्ठभूमि एक खाली सफेद कैनवास बनी हुई है। छवि को संलग्न करने वाले उद्धरण फ़ाइल नाम: ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं फ्लेक्सबॉक्स और वर्टिकल स्क्रॉलिंग को पूरी तरह से हाइट लेआउट में प्रभावी ढंग से कैसे जोड़ सकता हूं?
] हालाँकि, यह फ्लेक्सबॉक्स लेआउट की इंटरैक्टिव प्रकृति के कारण चुनौतियों का सामना कर सकता है। यह समाधान कॉलम पर फ्लेक्स-दिशा सेट करने और ओवरफ्लो-वाई क...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं पायथन की समझ का उपयोग करके कुशलता से शब्दकोश कैसे बना सकता हूं?
] हालांकि वे सूची की समझ के समान हैं, कुछ उल्लेखनीय अंतर हैं। आपको स्पष्ट रूप से कुंजी और मूल्यों को निर्दिष्ट करना होगा। उदाहरण के लिए: d = {n: n *...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
PYTZ शुरू में अप्रत्याशित समय क्षेत्र ऑफसेट क्यों दिखाता है?
] उदाहरण के लिए, एशिया/hong_kong शुरू में एक सात घंटे और 37 मिनट की ऑफसेट दिखाता है: आयात pytz Std> विसंगति स्रोत समय क्षेत्र और ऑफसेट प...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं नंबर-केवल आउटपुट के साथ एकल अंक मान्यता के लिए pytesseract को कैसे कॉन्फ़िगर कर सकता हूं?
] इस समस्या को संबोधित करने के लिए, हम Tesseract के कॉन्फ़िगरेशन विकल्पों की बारीकियों में तल्लीन करते हैं। एकल वर्ण मान्यता के लिए, उपयुक्त PSM 10 है...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मेरी रैखिक ढाल पृष्ठभूमि में धारियां क्यों हैं, और मैं उन्हें कैसे ठीक कर सकता हूं?
] इन भद्दे कलाकृतियों को एक जटिल पृष्ठभूमि प्रसार घटना के लिए जिम्मेदार ठहराया जा सकता है। इसके बाद, रैखिक-ग्रेडिएंट इस पूरी ऊंचाई पर फैलता है, दोहराए...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
कैसे जांचें कि क्या किसी वस्तु की पायथन में एक विशिष्ट विशेषता है?
] निम्नलिखित उदाहरण पर विचार करें जहां एक अपरिभाषित संपत्ति तक पहुंचने का प्रयास एक त्रुटि उठाता है: >>> a = someclass () >>> a.property ट्रेसबैक (स...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं जावा में निर्देशिका परिवर्तन सहित कमांड प्रॉम्प्ट कमांड को कैसे निष्पादित कर सकता हूं?
] यद्यपि आपको कोड स्निपेट मिल सकते हैं जो कमांड प्रॉम्प्ट खोलते हैं, वे अक्सर निर्देशिकाओं को बदलने और अतिरिक्त कमांड को निष्पादित करने की क्षमता में ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मान्य कोड के बावजूद PHP में इनपुट कैप्चरिंग इनपुट क्यों है?
] $ _Server ['php_self']?> हालांकि, आउटपुट खाली रहता है। जबकि विधि = "प्राप्त करें" मूल रूप से काम करती है, विधि = "पोस्ट"...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
जावा के पूर्ण-स्क्रीन अनन्य मोड में उपयोगकर्ता इनपुट को कैसे संभालें?
java में पूर्ण स्क्रीन अनन्य मोड में उपयोगकर्ता इनपुट को संभालना, जब पूर्ण स्क्रीन अनन्य मोड में एक जावा एप्लिकेशन चलाना अपेक्षित नहीं हो ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
पायथन पढ़ें CSV फ़ाइल Unicodedecodeerror अल्टीमेट सॉल्यूशन
डिकोड बाइट्स स्थिति 2-3 में: truncated \ uxxxxxxxxx escape यह त्रुटि तब होती है जब CSV फ़ाइल के पथ में विशेष वर्ण होते हैं या यूनिकोड होता है कि पा...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
$मैक्स काउंट को ढूंढते समय MySQL में समूह फ़ंक्शन \ "त्रुटि के \" अमान्य उपयोग को कैसे हल करें?$
मैक्स काउंट को ढूंढते समय MySQL में समूह फ़ंक्शन \ "त्रुटि के \" अमान्य उपयोग को कैसे हल करें?
नाम से EMP1 समूह से अधिकतम (गिनती (*)) का चयन करें; त्रुटि 1111 (Hy000): समूह फ़ंक्शन का अमान्य उपयोग त्रुटि को समझना त्रुटि उत्पन्न होती है ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
फिक्स्ड पोजिशनिंग का उपयोग करते समय 100% ग्रिड-टेम्प्लेट-कॉलम के साथ ग्रिड शरीर से परे क्यों फैलता है?
] फिक्स्ड; class = "स्निपेट-कोड"> । माता-पिता { स्थिति: फिक्स्ड; चौड़ाई: 100%; 6fr; lang-html atrayprint-override ">

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया