」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用DQN建立國際象棋代理

使用DQN建立國際象棋代理

發佈於2025-03-24
瀏覽:982

我最近尝试实施基于DQN的国际象棋代理。

现在,任何知道DQN和国际象棋工作方式的人都会告诉您这是一个愚蠢的想法。

而且...是的,但是作为初学者,我仍然喜欢它。在本文中,我将分享我在研究此工作时学到的见解。


了解环境。

在我开始实施代理本身之前,我必须熟悉我要使用的环境,并在训练过程中与代理商进行自定义包装器。

  • 我使用了Kaggle_environments Library中的国际象棋环境。



    来自kaggle_environments Import Make env = make(“国际象棋”,debug = true)

     from kaggle_environments import make
     env = make("chess", debug=True)
    
    我还使用了Chessnut,这是一个轻巧的Python库,可帮助解析和验证国际象棋游戏。
  • 摘自Chessnut Import Game onitire_fen = env.State [0] ['观察'] ['板'] game = game(Env.State [0] ['观察'] ['板'])



    在这种环境中,董事会状态以FEN格式存储。
     from Chessnut import Game
     initial_fen = env.state[0]['observation']['board']
     game=Game(env.state[0]['observation']['board'])
    
    它提供了一种紧凑的方式来表示板上的所有作品和当前活动的播放器。但是,由于我计划将输入馈送到神经网络,因此我必须修改状态的表示。
将FEN转换为矩阵格式

[2

由于板上有12种不同类型的作品,因此我创建了12个频道的8x8网格,以表示板上每种类型的状态。

Building a Chess Agent using DQN 为环境创建包装器

类环境: def __init __(自我): self.env = make(“国际象棋”,debug = true) self.game = game(env.State [0] ['observation'] ['board']) 打印(self.env.state [0] ['observation'] ['board']) self.action_space = game.get_moves(); self.obs_space =(self.env.state [0] ['observation'] ['board']) def get_action(self): 返回游戏(self.env.state [0] ['observation'] ['board'])。get_moves(); def get_obs_space(self): 返回fen_to_board(self.env.state [0] ['observation'] ['board']) def步骤(自我,动作): 奖励= 0 g = game(self.env.state [0] ['observation'] ['board']); if(g.board.get_piece(game.xy2i(action [2:4]))=='q'): 奖励= 7 Elif G.board.get_piece(game.xy2i(action [2:4]))=='n'或g.board.get_piece(game.xy2i(action [2:4]))=='b'或g.board.get.get_piece(game.xy.xy.xy2i(action.xy2i) 奖励= 4 elif G.board.get_piece(game.xy2i(action [2:4]))=='p': 奖励= 2 g = game(self.env.state [0] ['observation'] ['board']); G.Apply_move(动作) 完成= false 如果(g.status == 2): 完成= true 奖励= 10 Elif G.Status == 1: 完成= true 奖励= -5 self.env.Step([[动作,'none']) self.action_space = list(self.get_action()) if(self.action_space == []): 完成= true 别的: self.env.Step([['none',random.choice(self.action_space)]) g = game(self.env.state [0] ['observation'] ['board']); 如果G.Status == 2: 奖励= -10 完成= true self.action_space = list(self.get_action()) 返回self.env.State [0] ['observation'] ['board'],奖励,完成


此包装器的重点是为代理提供奖励策略,并在训练过程中与环境交互。

我试图创建一个奖励策略,以给校友给出积极的观点,并取出敌人的零件,而负面的积分失去了游戏。

创建重播缓冲区 Building a Chess Agent using DQN [2

在培训期间使用重播缓冲区来保存(状态,操作,奖励,下一个状态)输出,然后随机使用用于反向传播的目标网络

辅助功能

[2 [2
我知道,并非所有64*64的动作都是合法的,但是我可以使用Chessnut处理合法性,并且模式很简单。


神经网络结构

导入火炬 导入Torch.nn作为nn 导入Torch.optim作为最佳 DQN类(nn.Module): def __init __(自我): super(dqn,self).__ init __() self.conv_layers = nn.Sequepential( nn.conv2d(12,32,kernel_size = 3,大步= 1,padding = nn.relu(), nn.conv2d(32,64,kernel_size = 3,步幅= 1,填充= 1), nn.relu() ) self.fc_layers = nn.Sequepential( nn.flatten(), nn.linear(64 * 8 * 8,256), nn.relu(), nn.linear(256,128), nn.relu(), nn.linear(128,4096) ) def向前(self,x): x = x.unsqueeze(0) x = self.conv_layers(x) x = self.fc_layers(x) 返回x def预测(自我,状态,有效_ACTION_INDICES): 使用Torch.no_grad(): q_values = self.forward(状态) q_values = q_values.squeeze(0) 有效_Q_VALUES = q_values [有效_ACTION_INDICES] best_action_relative_index =有效_Q_VALUES.ARGMAX()。项目() max_q_value =有效_Q_VALUE.ARGMAX()() BEST_ACTION_INDEX =有效_ACTION_INDICES [BEST_ACTION_RELATITY_INDEX] 返回max_q_value,best_action_index
class EnvCust:
    def __init__(self):
        self.env = make("chess", debug=True)
        self.game=Game(env.state[0]['observation']['board'])
        print(self.env.state[0]['observation']['board'])
        self.action_space=game.get_moves();
        self.obs_space=(self.env.state[0]['observation']['board'])

    def get_action(self):
        return Game(self.env.state[0]['observation']['board']).get_moves();


    def get_obs_space(self):
        return fen_to_board(self.env.state[0]['observation']['board'])

    def step(self,action):
        reward=0
        g=Game(self.env.state[0]['observation']['board']);
        if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'):
            reward=7
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r':
            reward=4
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='P':
            reward=2
        g=Game(self.env.state[0]['observation']['board']);
        g.apply_move(action)
        done=False
        if(g.status==2):
            done=True
            reward=10
        elif g.status == 1:  
            done = True
            reward = -5 
        self.env.step([action,'None'])
        self.action_space=list(self.get_action())
        if(self.action_space==[]):
            done=True
        else:
            self.env.step(['None',random.choice(self.action_space)])
            g=Game(self.env.state[0]['observation']['board']);
            if g.status==2:
                reward=-10
                done=True

        self.action_space=list(self.get_action())
        return self.env.state[0]['observation']['board'],reward,done
这个神经网络使用卷积层进行12个通道输入,还使用有效的操作索引来过滤奖励输出预测。

实现代理

): 休息 a_index = action_index(action) 如果random.random() batch_size: mini_batch = replay_buffer.sample(batch_size) 对于mini_batch中的e: 状态,行动,奖励,next_state,完成= e g = game(next_state) act = g.get_moves(); ind_a = action_index(ACT) input_state = TORCH.TENSOR(fen_to_board(next_state),dtype = type = turch.float32,需要 tpred,_ = target_network.predict(input_state,ind_a) target =奖励伽玛 * tpred *(1-完成) act_ind = uci_to_action_index(Action) input_state2 = torch.tensor(fen_to_board(state),dtype = type = terch.float32,quirens_grad = true)。 current_q_value =模型(input_state2)[0,act_ind] 损失=(current_q_value-目标)** 2 优化器.zero_grad() loss.backward() 优化器.step() 如果EP%5 == 0: target_network.load_state_dict(model.state_dict()) 这显然是一个非常基本的模型,没有机会实际上表现良好(但事实并非如此),但是它确实有助于我理解DQN的工作方式。 [2

版本聲明 本文轉載於:https://dev.to/ankit_upadhyay_1c38ae52c0/building-a-chess-agent-using-dqn-40po?1如有侵犯,請聯繫[email protected]刪除
最新教學 更多>
  • MySQL中如何高效地根據兩個條件INSERT或UPDATE行?
    MySQL中如何高效地根據兩個條件INSERT或UPDATE行?
    在兩個條件下插入或更新或更新 solution:的答案在於mysql的插入中...在重複鍵更新語法上。如果不存在匹配行或更新現有行,則此功能強大的功能可以通過插入新行來進行有效的數據操作。如果違反了唯一的密鑰約束。 實現所需的行為,該表必須具有唯一的鍵定義(在這種情況下為'名稱'...
    程式設計 發佈於2025-07-03
  • Java中如何使用觀察者模式實現自定義事件?
    Java中如何使用觀察者模式實現自定義事件?
    在Java 中創建自定義事件的自定義事件在許多編程場景中都是無關緊要的,使組件能夠基於特定的觸發器相互通信。本文旨在解決以下內容:問題語句我們如何在Java中實現自定義事件以促進基於特定事件的對象之間的交互,定義了管理訂閱者的類界面。 以下代碼片段演示瞭如何使用觀察者模式創建自定義事件: args...
    程式設計 發佈於2025-07-03
  • C++20 Consteval函數中模板參數能否依賴於函數參數?
    C++20 Consteval函數中模板參數能否依賴於函數參數?
    [ consteval函數和模板參數依賴於函數參數在C 17中,模板參數不能依賴一個函數參數,因為編譯器仍然需要對非contexexpr futcoriations contim at contexpr function進行評估。 compile time。 C 20引入恆定函數,必須在編譯時進...
    程式設計 發佈於2025-07-03
  • 如何在GO編譯器中自定義編譯優化?
    如何在GO編譯器中自定義編譯優化?
    在GO編譯器中自定義編譯優化 GO中的默認編譯過程遵循特定的優化策略。 However, users may need to adjust these optimizations for specific requirements.Optimization Control in Go Compi...
    程式設計 發佈於2025-07-03
  • Python元類工作原理及類創建與定制
    Python元類工作原理及類創建與定制
    python中的metaclasses是什麼? Metaclasses負責在Python中創建類對象。就像類創建實例一樣,元類也創建類。他們提供了對類創建過程的控制層,允許自定義類行為和屬性。 在Python中理解類作為對象的概念,類是描述用於創建新實例或對象的藍圖的對象。這意味著類本身是使用...
    程式設計 發佈於2025-07-03
  • 查找當前執行JavaScript的腳本元素方法
    查找當前執行JavaScript的腳本元素方法
    如何引用當前執行腳本的腳本元素在某些方案中理解問題在某些方案中,開發人員可能需要將其他腳本動態加載其他腳本。但是,如果Head Element尚未完全渲染,則使用document.getElementsbytagname('head')[0] .appendChild(v)的常規方...
    程式設計 發佈於2025-07-03
  • 同實例無需轉儲複製MySQL數據庫方法
    同實例無需轉儲複製MySQL數據庫方法
    在同一實例上複製一個MySQL數據庫而無需轉儲在同一mySQL實例上複製數據庫,而無需創建InterMediate sqql script。以下方法為傳統的轉儲和IMPORT過程提供了更簡單的替代方法。 直接管道數據 MySQL手動概述了一種允許將mysqldump直接輸出到MySQL cli...
    程式設計 發佈於2025-07-03
  • 如何解決AppEngine中“無法猜測文件類型,使用application/octet-stream...”錯誤?
    如何解決AppEngine中“無法猜測文件類型,使用application/octet-stream...”錯誤?
    appEngine靜態文件mime type override ,靜態文件處理程序有時可以覆蓋正確的mime類型,在錯誤消息中導致錯誤消息:“無法猜測mimeType for for file for file for [File]。 application/application/octet...
    程式設計 發佈於2025-07-03
  • 在Python中如何創建動態變量?
    在Python中如何創建動態變量?
    在Python 中,動態創建變量的功能可以是一種強大的工具,尤其是在使用複雜的數據結構或算法時,Dynamic Variable Creation的動態變量創建。 Python提供了幾種創造性的方法來實現這一目標。 利用dictionaries 一種有效的方法是利用字典。字典允許您動態創建密鑰並...
    程式設計 發佈於2025-07-03
  • 解決Spring Security 4.1及以上版本CORS問題指南
    解決Spring Security 4.1及以上版本CORS問題指南
    彈簧安全性cors filter:故障排除常見問題 在將Spring Security集成到現有項目中時,您可能會遇到與CORS相關的錯誤,如果像“訪問Control-allo-allow-Origin”之類的標頭,則無法設置在響應中。為了解決此問題,您可以實現自定義過濾器,例如代碼段中的MyFi...
    程式設計 發佈於2025-07-03
  • Async Void vs. Async Task在ASP.NET中:為什麼Async Void方法有時會拋出異常?
    Async Void vs. Async Task在ASP.NET中:為什麼Async Void方法有時會拋出異常?
    在ASP.NET async void void async void void void void void void void的設計無需返回asynchroncon而無需返回任務對象。他們在執行過程中增加未償還操作的計數,並在完成後減少。在某些情況下,這種行為可能是有益的,例如未期望或明確...
    程式設計 發佈於2025-07-03
  • 為什麼儘管有效代碼,為什麼在PHP中捕獲輸入?
    為什麼儘管有效代碼,為什麼在PHP中捕獲輸入?
    在php ;?>" method="post">The intention is to capture the input from the text box and display it when the submit button is clicked.但是,輸出...
    程式設計 發佈於2025-07-03
  • CSS強類型語言解析
    CSS強類型語言解析
    您可以通过其强度或弱输入的方式对编程语言进行分类的方式之一。在这里,“键入”意味着是否在编译时已知变量。一个例子是一个场景,将整数(1)添加到包含整数(“ 1”)的字符串: result = 1 "1";包含整数的字符串可能是由带有许多运动部件的复杂逻辑套件无意间生成的。它也可以是故意从单个真理...
    程式設計 發佈於2025-07-03
  • 如何使用不同數量列的聯合數據庫表?
    如何使用不同數量列的聯合數據庫表?
    合併列數不同的表 當嘗試合併列數不同的數據庫表時,可能會遇到挑戰。一種直接的方法是在列數較少的表中,為缺失的列追加空值。 例如,考慮兩個表,表 A 和表 B,其中表 A 的列數多於表 B。為了合併這些表,同時處理表 B 中缺失的列,請按照以下步驟操作: 確定表 B 中缺失的列,並將它們添加到表的...
    程式設計 發佈於2025-07-03
  • 如何干淨地刪除匿名JavaScript事件處理程序?
    如何干淨地刪除匿名JavaScript事件處理程序?
    刪除匿名事件偵聽器將匿名事件偵聽器添加到元素中會提供靈活性和簡單性,但是當要刪除它們時,可以構成挑戰,而無需替換元素本身就可以替換一個問題。 element? element.addeventlistener(event,function(){/在這里工作/},false); 要解決此問題,請考...
    程式設計 發佈於2025-07-03

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3