”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 使用DQN建立国际象棋代理

使用DQN建立国际象棋代理

发布于2025-03-24
浏览:662

我最近尝试实施基于DQN的国际象棋代理。

现在,任何知道DQN和国际象棋工作方式的人都会告诉您这是一个愚蠢的想法。

而且...是的,但是作为初学者,我仍然喜欢它。在本文中,我将分享我在研究此工作时学到的见解。


了解环境。

在我开始实施代理本身之前,我必须熟悉我要使用的环境,并在训练过程中与代理商进行自定义包装器。

  • 我使用了Kaggle_environments Library中的国际象棋环境。



    来自kaggle_environments Import Make env = make(“国际象棋”,debug = true)

     from kaggle_environments import make
     env = make("chess", debug=True)
    
    我还使用了Chessnut,这是一个轻巧的Python库,可帮助解析和验证国际象棋游戏。
  • 摘自Chessnut Import Game onitire_fen = env.State [0] ['观察'] ['板'] game = game(Env.State [0] ['观察'] ['板'])



    在这种环境中,董事会状态以FEN格式存储。
     from Chessnut import Game
     initial_fen = env.state[0]['observation']['board']
     game=Game(env.state[0]['observation']['board'])
    
    它提供了一种紧凑的方式来表示板上的所有作品和当前活动的播放器。但是,由于我计划将输入馈送到神经网络,因此我必须修改状态的表示。
将FEN转换为矩阵格式

[2

由于板上有12种不同类型的作品,因此我创建了12个频道的8x8网格,以表示板上每种类型的状态。

Building a Chess Agent using DQN 为环境创建包装器

类环境: def __init __(自我): self.env = make(“国际象棋”,debug = true) self.game = game(env.State [0] ['observation'] ['board']) 打印(self.env.state [0] ['observation'] ['board']) self.action_space = game.get_moves(); self.obs_space =(self.env.state [0] ['observation'] ['board']) def get_action(self): 返回游戏(self.env.state [0] ['observation'] ['board'])。get_moves(); def get_obs_space(self): 返回fen_to_board(self.env.state [0] ['observation'] ['board']) def步骤(自我,动作): 奖励= 0 g = game(self.env.state [0] ['observation'] ['board']); if(g.board.get_piece(game.xy2i(action [2:4]))=='q'): 奖励= 7 Elif G.board.get_piece(game.xy2i(action [2:4]))=='n'或g.board.get_piece(game.xy2i(action [2:4]))=='b'或g.board.get.get_piece(game.xy.xy.xy2i(action.xy2i) 奖励= 4 elif G.board.get_piece(game.xy2i(action [2:4]))=='p': 奖励= 2 g = game(self.env.state [0] ['observation'] ['board']); G.Apply_move(动作) 完成= false 如果(g.status == 2): 完成= true 奖励= 10 Elif G.Status == 1: 完成= true 奖励= -5 self.env.Step([[动作,'none']) self.action_space = list(self.get_action()) if(self.action_space == []): 完成= true 别的: self.env.Step([['none',random.choice(self.action_space)]) g = game(self.env.state [0] ['observation'] ['board']); 如果G.Status == 2: 奖励= -10 完成= true self.action_space = list(self.get_action()) 返回self.env.State [0] ['observation'] ['board'],奖励,完成


此包装器的重点是为代理提供奖励策略,并在训练过程中与环境交互。

我试图创建一个奖励策略,以给校友给出积极的观点,并取出敌人的零件,而负面的积分失去了游戏。

创建重播缓冲区 Building a Chess Agent using DQN [2

在培训期间使用重播缓冲区来保存(状态,操作,奖励,下一个状态)输出,然后随机使用用于反向传播的目标网络

辅助功能

[2 [2
我知道,并非所有64*64的动作都是合法的,但是我可以使用Chessnut处理合法性,并且模式很简单。


神经网络结构

导入火炬 导入Torch.nn作为nn 导入Torch.optim作为最佳 DQN类(nn.Module): def __init __(自我): super(dqn,self).__ init __() self.conv_layers = nn.Sequepential( nn.conv2d(12,32,kernel_size = 3,大步= 1,padding = nn.relu(), nn.conv2d(32,64,kernel_size = 3,步幅= 1,填充= 1), nn.relu() ) self.fc_layers = nn.Sequepential( nn.flatten(), nn.linear(64 * 8 * 8,256), nn.relu(), nn.linear(256,128), nn.relu(), nn.linear(128,4096) ) def向前(self,x): x = x.unsqueeze(0) x = self.conv_layers(x) x = self.fc_layers(x) 返回x def预测(自我,状态,有效_ACTION_INDICES): 使用Torch.no_grad(): q_values = self.forward(状态) q_values = q_values.squeeze(0) 有效_Q_VALUES = q_values [有效_ACTION_INDICES] best_action_relative_index =有效_Q_VALUES.ARGMAX()。项目() max_q_value =有效_Q_VALUE.ARGMAX()() BEST_ACTION_INDEX =有效_ACTION_INDICES [BEST_ACTION_RELATITY_INDEX] 返回max_q_value,best_action_index
class EnvCust:
    def __init__(self):
        self.env = make("chess", debug=True)
        self.game=Game(env.state[0]['observation']['board'])
        print(self.env.state[0]['observation']['board'])
        self.action_space=game.get_moves();
        self.obs_space=(self.env.state[0]['observation']['board'])

    def get_action(self):
        return Game(self.env.state[0]['observation']['board']).get_moves();


    def get_obs_space(self):
        return fen_to_board(self.env.state[0]['observation']['board'])

    def step(self,action):
        reward=0
        g=Game(self.env.state[0]['observation']['board']);
        if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'):
            reward=7
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r':
            reward=4
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='P':
            reward=2
        g=Game(self.env.state[0]['observation']['board']);
        g.apply_move(action)
        done=False
        if(g.status==2):
            done=True
            reward=10
        elif g.status == 1:  
            done = True
            reward = -5 
        self.env.step([action,'None'])
        self.action_space=list(self.get_action())
        if(self.action_space==[]):
            done=True
        else:
            self.env.step(['None',random.choice(self.action_space)])
            g=Game(self.env.state[0]['observation']['board']);
            if g.status==2:
                reward=-10
                done=True

        self.action_space=list(self.get_action())
        return self.env.state[0]['observation']['board'],reward,done
这个神经网络使用卷积层进行12个通道输入,还使用有效的操作索引来过滤奖励输出预测。

实现代理

): 休息 a_index = action_index(action) 如果random.random() batch_size: mini_batch = replay_buffer.sample(batch_size) 对于mini_batch中的e: 状态,行动,奖励,next_state,完成= e g = game(next_state) act = g.get_moves(); ind_a = action_index(ACT) input_state = TORCH.TENSOR(fen_to_board(next_state),dtype = type = turch.float32,需要 tpred,_ = target_network.predict(input_state,ind_a) target =奖励伽玛 * tpred *(1-完成) act_ind = uci_to_action_index(Action) input_state2 = torch.tensor(fen_to_board(state),dtype = type = terch.float32,quirens_grad = true)。 current_q_value =模型(input_state2)[0,act_ind] 损失=(current_q_value-目标)** 2 优化器.zero_grad() loss.backward() 优化器.step() 如果EP%5 == 0: target_network.load_state_dict(model.state_dict()) 这显然是一个非常基本的模型,没有机会实际上表现良好(但事实并非如此),但是它确实有助于我理解DQN的工作方式。 [2

版本声明 本文转载于:https://dev.to/ankit_upadhyay_1c38ae52c0/building-a-chess-agent-using-dqn-40po?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 如何处理PHP文件系统功能中的UTF-8文件名?
    如何处理PHP文件系统功能中的UTF-8文件名?
    在PHP的Filesystem functions中处理UTF-8 FileNames 在使用PHP的MKDIR函数中含有UTF-8字符的文件很多flusf-8字符时,您可能会在Windows Explorer中遇到comploreer grounder grounder grounder gro...
    编程 发布于2025-03-28
  • 如何使用组在MySQL中旋转数据?
    如何使用组在MySQL中旋转数据?
    在关系数据库中使用mySQL组使用mySQL组进行查询结果,在关系数据库中使用MySQL组,转移数据的数据是指重新排列的行和列的重排以增强数据可视化。在这里,我们面对一个共同的挑战:使用组的组将数据从基于行的基于列的转换为基于列。 Let's consider the following ...
    编程 发布于2025-03-28
  • 为什么我的CSS背景图像出现?
    为什么我的CSS背景图像出现?
    故障排除:CSS背景图像未出现 ,您的背景图像尽管遵循教程说明,但您的背景图像仍未加载。图像和样式表位于相同的目录中,但背景仍然是空白的白色帆布。而不是不弃用的,您已经使用了CSS样式: bockent {背景:封闭图像文件名:背景图:url(nickcage.jpg); 如果您的html,css...
    编程 发布于2025-03-28
  • 如何在全高布局中有效地将Flexbox和垂直滚动结合在一起?
    如何在全高布局中有效地将Flexbox和垂直滚动结合在一起?
    在全高布局中集成flexbox和垂直滚动Traditional Flexbox Approach (Old Properties)Flexbox layouts using the old syntax (display: box) permit full-height apps with ver...
    编程 发布于2025-03-28
  • 如何使用Python理解有效地创建字典?
    如何使用Python理解有效地创建字典?
    在python中,词典综合提供了一种生成新词典的简洁方法。尽管它们与列表综合相似,但存在一些显着差异。与问题所暗示的不同,您无法为钥匙创建字典理解。您必须明确指定键和值。 For example:d = {n: n**2 for n in range(5)}This creates a dicti...
    编程 发布于2025-03-28
  • 为什么PYTZ最初显示出意外的时区偏移?
    为什么PYTZ最初显示出意外的时区偏移?
    与pytz 最初从pytz获得特定的偏移。例如,亚洲/hong_kong最初显示一个七个小时37分钟的偏移: 差异源利用本地化将时区分配给日期,使用了适当的时区名称和偏移量。但是,直接使用DateTime构造器分配时区不允许进行正确的调整。 example pytz.timezone(...
    编程 发布于2025-03-28
  • 如何配置Pytesseract以使用数字输出的单位数字识别?
    如何配置Pytesseract以使用数字输出的单位数字识别?
    Pytesseract OCR具有单位数字识别和仅数字约束 在pytesseract的上下文中,在配置tesseract以识别单位数字和限制单个数字和限制输出对数字可能会提出质疑。 To address this issue, we delve into the specifics of Te...
    编程 发布于2025-03-28
  • 如何检查对象是否具有Python中的特定属性?
    如何检查对象是否具有Python中的特定属性?
    方法来确定对象属性存在寻求一种方法来验证对象中特定属性的存在。考虑以下示例,其中尝试访问不确定属性会引起错误: >>> a = someClass() >>> A.property Trackback(最近的最新电话): 文件“ ”,第1行, AttributeError: SomeClass...
    编程 发布于2025-03-28
  • 如何在Java中执行命令提示命令,包括目录更改,包括目录更改?
    如何在Java中执行命令提示命令,包括目录更改,包括目录更改?
    在java 通过Java通过Java运行命令命令可能很具有挑战性。尽管您可能会找到打开命令提示符的代码段,但他们通常缺乏更改目录并执行其他命令的能力。 solution:使用Java使用Java,使用processBuilder。这种方法允许您:启动一个过程,然后将其标准错误重定向到其标准输出。...
    编程 发布于2025-03-28
  • 为什么尽管有效代码,为什么在PHP中捕获输入?
    为什么尽管有效代码,为什么在PHP中捕获输入?
    在php ;?>" method="post">The intention is to capture the input from the text box and display it when the submit button is clicked.但是,输出...
    编程 发布于2025-03-28
  • 如何在Java的全屏独家模式下处理用户输入?
    如何在Java的全屏独家模式下处理用户输入?
    Handling User Input in Full Screen Exclusive Mode in JavaIntroductionWhen running a Java application in full screen exclusive mode, the usual event ha...
    编程 发布于2025-03-28
  • Python读取CSV文件UnicodeDecodeError终极解决方法
    Python读取CSV文件UnicodeDecodeError终极解决方法
    在试图使用已内置的CSV模块读取Python中时,CSV文件中的Unicode Decode Decode Decode Decode decode Error读取,您可能会遇到错误的错误:无法解码字节 在位置2-3中:截断\ uxxxxxxxx逃脱当CSV文件包含特殊字符或Unicode的路径逃...
    编程 发布于2025-03-28
  • 找到最大计数时,如何解决mySQL中的“组函数\”错误的“无效使用”?
    找到最大计数时,如何解决mySQL中的“组函数\”错误的“无效使用”?
    如何在mySQL中使用mySql 检索最大计数,您可能会遇到一个问题,您可能会在尝试使用以下命令:理解错误正确找到由名称列分组的值的最大计数,请使用以下修改后的查询: 计数(*)为c 来自EMP1 按名称组 c desc订购 限制1 查询说明 select语句提取名称列和每个名称...
    编程 发布于2025-03-28
  • 为什么使用固定定位时,为什么具有100%网格板柱的网格超越身体?
    为什么使用固定定位时,为什么具有100%网格板柱的网格超越身体?
    网格超过身体,用100%grid-template-columns 为什么在grid-template-colms中具有100%的显示器,当位置设置为设置的位置时,grid-template-colly修复了?问题: 考虑以下CSS和html: class =“ snippet-code”> g...
    编程 发布于2025-03-28
  • 如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    使用http request 上传文件上传到http server,同时也提交其他参数,java.net.net.urlconnection and Multipart/form-data Encoding是普遍的。 Here's a breakdown of the process:Mu...
    编程 发布于2025-03-28

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3