DQN का उपयोग करके एक शतरंज एजेंट का निर्माण

मुखपृष्ठ > प्रोग्रामिंग > DQN का उपयोग करके एक शतरंज एजेंट का निर्माण

DQN का उपयोग करके एक शतरंज एजेंट का निर्माण

2025-03-24 को पोस्ट किया गया

ब्राउज़ करें:972

मैंने हाल ही में एक DQN आधारित शतरंज एजेंट को लागू करने की कोशिश की।

अब, जो कोई भी जानता है कि DQNS और शतरंज कैसे काम करता है, आपको बताएगा कि यह एक गूंगा विचार है।

और ... यह था, लेकिन एक शुरुआत के रूप में मैंने इसका आनंद लिया। इस लेख में मैं इस पर काम करते समय सीखे गए अंतर्दृष्टि को साझा करूंगा।

पर्यावरण को समझना।

]

 from kaggle_environments import make
 env = make("chess", debug=True)

 from Chessnut import Game
 initial_fen = env.state[0]['observation']['board']
 game=Game(env.state[0]['observation']['board'])

फेन को मैट्रिक्स प्रारूप में परिवर्तित करना

Building a Chess Agent using DQN

]

पर्यावरण के लिए एक आवरण बनाना

वर्ग envcust: def init (स्व): self.env = मेक ("शतरंज", डिबग = सच) self.game = game (env.state [0] ['अवलोकन'] ['बोर्ड']) प्रिंट (self.env.state [0] ['अवलोकन'] ['बोर्ड']) self.action_space = game.get_moves (); self.obs_space = (self.env.state [0] ['अवलोकन'] ['बोर्ड']) def get_action (स्व): रिटर्न गेम (self.env.state [0] ['अवलोकन'] ['बोर्ड'])। get_moves (); def get_obs_space (स्व): FEN_TO_BORD (self.env.state [0] ['अवलोकन'] ['बोर्ड'] लौटें) डीईएफ चरण (स्व, एक्शन): इनाम = ० g = game (self.env.state [0] ['अवलोकन'] ['बोर्ड']); if (g.board.get_piece (game.xy2i (क्रिया [2: 4])) == 'q'): इनाम = 7 elif g.board.get_piece (game.xy2i (एक्शन [2: 4]) == 'n' या g.board.get_piece (game.xy2i (एक्शन [2: 4]) == 'b' या g.board.get_piece (game.xy2i (2: 4]) == 'r': इनाम = 4 elif g.board.get_piece (game.xy2i (क्रिया [2: 4])) == 'p': इनाम = 2 g = game (self.env.state [0] ['अवलोकन'] ['बोर्ड']); g.apply_move (कार्रवाई) किया = गलत if (g.status == 2): किया = सच इनाम = 10 एलिफ जी.एसटीएटीस == 1: किया = सच इनाम = -5 self.env.step ([कार्रवाई, 'कोई नहीं']) self.action_space = list (self.get_action ()) if (self.action_space == []): किया = सच अन्य: self.env.step (['कोई नहीं', random.choice (self.action_space)]]) g = game (self.env.state [0] ['अवलोकन'] ['बोर्ड']); यदि g.status == 2: इनाम = -10 किया = सच self.action_space = list (self.get_action ()) लौटें self.env.state [0] ['अवलोकन'] ['बोर्ड'], इनाम, किया

]

] Building a Chess Agent using DQN

एक रिप्ले बफर बनाना

]

सहायक कार्य

class EnvCust:
    def __init__(self):
        self.env = make("chess", debug=True)
        self.game=Game(env.state[0]['observation']['board'])
        print(self.env.state[0]['observation']['board'])
        self.action_space=game.get_moves();
        self.obs_space=(self.env.state[0]['observation']['board'])

    def get_action(self):
        return Game(self.env.state[0]['observation']['board']).get_moves();


    def get_obs_space(self):
        return fen_to_board(self.env.state[0]['observation']['board'])

    def step(self,action):
        reward=0
        g=Game(self.env.state[0]['observation']['board']);
        if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'):
            reward=7
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r':
            reward=4
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='P':
            reward=2
        g=Game(self.env.state[0]['observation']['board']);
        g.apply_move(action)
        done=False
        if(g.status==2):
            done=True
            reward=10
        elif g.status == 1:  
            done = True
            reward = -5 
        self.env.step([action,'None'])
        self.action_space=list(self.get_action())
        if(self.action_space==[]):
            done=True
        else:
            self.env.step(['None',random.choice(self.action_space)])
            g=Game(self.env.state[0]['observation']['board']);
            if g.status==2:
                reward=-10
                done=True

        self.action_space=list(self.get_action())
        return self.env.state[0]['observation']['board'],reward,done

] कुल 64 वर्ग हैं, इसलिए मैंने प्रत्येक चाल के लिए 64*64 अद्वितीय अनुक्रमित होने का फैसला किया।

]

तंत्रिका नेटवर्क संरचना

आयात मशाल एनएन के रूप में टार्च को आयात करें इष्टतम के रूप में टार्च को आयात करें क्लास DQN (NN.MODULE): def __init __ (स्व): सुपर (dqn, स्व) .__ init __ () self.conv_layers = nn.ceptiential ( nn.conv2d (12, 32, kernel_size = 3, स्ट्राइड = 1, पैडिंग = nn.relu (), nn.conv2d (32, 64, kernel_size = 3, स्ट्राइड = 1, पैडिंग = 1), nn.relu () ) self.fc_layers = nn.cepentiential ( nn.flatten (), nn.linear (64 * 8 * 8, 256), nn.relu (), nn.linear (256, 128), nn.relu (), nn.linear (128, 4096) ) डीईएफ फॉरवर्ड (सेल्फ, एक्स): x = x.unsqueeze (0) x = self.conv_layers (x) x = self.fc_layers (x) X रिटर्न करें पूर्वानुमान (स्व, राज्य, वैध_एक्ट_इंडिस): Torch.no_grad () के साथ: q_values = self.forward (राज्य) q_values = q_values.squeeze (0) मान्य_क्यू_वैल्यूज़ = q_values [मान्य_एक्ट_इंडिस] BEST_ACTION_RELATIVE_INDEX = VAIL_Q_VALUES.ARGMAX ()। आइटम () max_q_value = ralid_q_values.argmax () best_action_index = ralid_action_indices [best_action_relative_index] MAX_Q_VALUE, BEST_ACTION_INDEX लौटें

] एजेंट को लागू करना

] target_network = dqn ()। to (डिवाइस) # लक्ष्य q-network ऑप्टिमाइज़र = torch.optim.adam (model.parameters (), lr = 1e-4) replay_buffer = replaybuffer (बफ़र_सिज़ = 10000) एप्सिलॉन = 0.5 गामा = 0.99 batch_size = 15 डीईएफ ट्रेन (एपिसोड): रेंज में ईपी के लिए (1, एपिसोड 1): प्रिंट ('एपिसोड नंबर:', ईपी) myenv = envcust () किया = गलत राज्य = myenv.obs_space i = ० जबकि नहीं किया गया और मैं batch_size: mini_batch = replay_buffer.sample (batch_size) मिनी_बैच में ई के लिए: राज्य, कार्रवाई, इनाम, अगला_स्टेट, किया = ई जी = खेल (अगला_स्टेट) अधिनियम = g.get_moves (); ind_a = action_index (अधिनियम) input_state = torch.tensor (fen_to_board (next_state), dtype = torch.float32, आवश्यकताएँ_ग्राड = true) .to (डिवाइस) tpred, _ = target_network.predict (input_state, ind_a) लक्ष्य = इनाम गामा * tpred * (1 - किया) act_ind = uci_to_action_index (क्रिया) input_state2 = torch.tensor (fen_to_board (state), dtype = torch.float32, आवश्यकता है_ग्राड = true) .to (डिवाइस) current_q_value = model (input_state2) [0, act_ind] हानि = (current_q_value - लक्ष्य) ** 2 ऑप्टिमाइज़र.जेरो_ग्रैड () नुकसान ऑप्टिमाइज़र.स्टेप () यदि ep % 5 == 0: target_network.load_state_dict (model.state_dict ())

]

Building a Chess Agent using DQN

विज्ञप्ति वक्तव्य इस लेख को पुन: प्रस्तुत किया गया है: https://dev.to/ankit_upadhyay_1c38ae52c0/building-a-chess-agent-using-dqn-40po?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] पर संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

मैं PHP के फाइलसिस्टम फ़ंक्शंस में UTF-8 फ़ाइल नाम कैसे संभाल सकता हूं?
असंगतता। mkdir ($ dir_name); मूल UTF-8 फ़ाइल नाम को पुनः प्राप्त करने के लिए, urldecode का उपयोग करें। केवल) विंडोज पर, आप UTF-8 फ़ाइल नाम ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
आप MySQL में डेटा को पिवट करने के लिए समूह का उपयोग कैसे कर सकते हैं?
] यहाँ, हम एक सामान्य चुनौती से संपर्क करते हैं: पंक्ति-आधारित से स्तंभ-आधारित डेटा को बदलना समूह द्वारा समूह का उपयोग करके। आइए निम्न क्वेरी पर विचार...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
$क्यों isn \ 't मेरी css पृष्ठभूमि छवि दिखाई दे रही है?$
क्यों isn \ 't मेरी css पृष्ठभूमि छवि दिखाई दे रही है?
] छवि और स्टाइल शीट एक ही निर्देशिका में निवास कर रही है, फिर भी पृष्ठभूमि एक खाली सफेद कैनवास बनी हुई है। छवि को संलग्न करने वाले उद्धरण फ़ाइल नाम: ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं फ्लेक्सबॉक्स और वर्टिकल स्क्रॉलिंग को पूरी तरह से हाइट लेआउट में प्रभावी ढंग से कैसे जोड़ सकता हूं?
] हालाँकि, यह फ्लेक्सबॉक्स लेआउट की इंटरैक्टिव प्रकृति के कारण चुनौतियों का सामना कर सकता है। यह समाधान कॉलम पर फ्लेक्स-दिशा सेट करने और ओवरफ्लो-वाई क...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं पायथन की समझ का उपयोग करके कुशलता से शब्दकोश कैसे बना सकता हूं?
] हालांकि वे सूची की समझ के समान हैं, कुछ उल्लेखनीय अंतर हैं। आपको स्पष्ट रूप से कुंजी और मूल्यों को निर्दिष्ट करना होगा। उदाहरण के लिए: d = {n: n *...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
PYTZ शुरू में अप्रत्याशित समय क्षेत्र ऑफसेट क्यों दिखाता है?
] उदाहरण के लिए, एशिया/hong_kong शुरू में एक सात घंटे और 37 मिनट की ऑफसेट दिखाता है: आयात pytz Std> विसंगति स्रोत समय क्षेत्र और ऑफसेट प...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं नंबर-केवल आउटपुट के साथ एकल अंक मान्यता के लिए pytesseract को कैसे कॉन्फ़िगर कर सकता हूं?
] इस समस्या को संबोधित करने के लिए, हम Tesseract के कॉन्फ़िगरेशन विकल्पों की बारीकियों में तल्लीन करते हैं। एकल वर्ण मान्यता के लिए, उपयुक्त PSM 10 है...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मेरी रैखिक ढाल पृष्ठभूमि में धारियां क्यों हैं, और मैं उन्हें कैसे ठीक कर सकता हूं?
] इन भद्दे कलाकृतियों को एक जटिल पृष्ठभूमि प्रसार घटना के लिए जिम्मेदार ठहराया जा सकता है। इसके बाद, रैखिक-ग्रेडिएंट इस पूरी ऊंचाई पर फैलता है, दोहराए...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
कैसे जांचें कि क्या किसी वस्तु की पायथन में एक विशिष्ट विशेषता है?
] निम्नलिखित उदाहरण पर विचार करें जहां एक अपरिभाषित संपत्ति तक पहुंचने का प्रयास एक त्रुटि उठाता है: >>> a = someclass () >>> a.property ट्रेसबैक (स...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मैं जावा में निर्देशिका परिवर्तन सहित कमांड प्रॉम्प्ट कमांड को कैसे निष्पादित कर सकता हूं?
] यद्यपि आपको कोड स्निपेट मिल सकते हैं जो कमांड प्रॉम्प्ट खोलते हैं, वे अक्सर निर्देशिकाओं को बदलने और अतिरिक्त कमांड को निष्पादित करने की क्षमता में ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
मान्य कोड के बावजूद PHP में इनपुट कैप्चरिंग इनपुट क्यों है?
] $ _Server ['php_self']?> हालांकि, आउटपुट खाली रहता है। जबकि विधि = "प्राप्त करें" मूल रूप से काम करती है, विधि = "पोस्ट"...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
जावा के पूर्ण-स्क्रीन अनन्य मोड में उपयोगकर्ता इनपुट को कैसे संभालें?
java में पूर्ण स्क्रीन अनन्य मोड में उपयोगकर्ता इनपुट को संभालना, जब पूर्ण स्क्रीन अनन्य मोड में एक जावा एप्लिकेशन चलाना अपेक्षित नहीं हो ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
पायथन पढ़ें CSV फ़ाइल Unicodedecodeerror अल्टीमेट सॉल्यूशन
डिकोड बाइट्स स्थिति 2-3 में: truncated \ uxxxxxxxxx escape यह त्रुटि तब होती है जब CSV फ़ाइल के पथ में विशेष वर्ण होते हैं या यूनिकोड होता है कि पा...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
$मैक्स काउंट को ढूंढते समय MySQL में समूह फ़ंक्शन \ "त्रुटि के \" अमान्य उपयोग को कैसे हल करें?$
मैक्स काउंट को ढूंढते समय MySQL में समूह फ़ंक्शन \ "त्रुटि के \" अमान्य उपयोग को कैसे हल करें?
नाम से EMP1 समूह से अधिकतम (गिनती (*)) का चयन करें; त्रुटि 1111 (Hy000): समूह फ़ंक्शन का अमान्य उपयोग त्रुटि को समझना त्रुटि उत्पन्न होती है ...

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया
फिक्स्ड पोजिशनिंग का उपयोग करते समय 100% ग्रिड-टेम्प्लेट-कॉलम के साथ ग्रिड शरीर से परे क्यों फैलता है?
] फिक्स्ड; class = "स्निपेट-कोड"> । माता-पिता { स्थिति: फिक्स्ड; चौड़ाई: 100%; 6fr; lang-html atrayprint-override ">

प्रोग्रामिंग 2025-03-28 को पोस्ट किया गया