史上首次，强化学习算法控制核聚变登Nature：人造太阳向前一大步

来源：网络浏览：117 2022-11-12 22:34:01

机心报道

机心编辑部

在过去的三年里，DeepMind和瑞士洛桑联邦理工学院EPFL进行了一个神秘的项目，即通过强化学习控制核聚变反应堆中过热的等离子体，但现在他们已经宣告成功。

DeepMind研究科学家David Pfau在论文发表后表示：“为了共享这一瞬间，我等了很久，这是在核聚变研究设备上进行深度强化学习的首次演示！ " "

核聚变、强大的人工智能、脑机接口是人类科技发展的几个重要方向，对于它们何时能实现，科学家们的说法永远是“还要几十年”——面临的挑战太多，手头方法有限。

那么，用人工智能控制核聚变是一个很有前景的方向吗？这个问题可能需要给出阿尔法go的DeepMind来回答。

最近，EPFL和DeepMind利用深度强化学习控制托卡马克装置等离子体的研究刊登在了《自然》杂志上。

论文地址： https://www.nature.com/articles/s 41586-021-04301-9

首先，让我们考虑一下为什么用人工智能控制核聚变的问题。

托卡马克是一种用于容纳核聚变反应的环形容器，其内部呈现出特殊的混乱状态。氢原子在非常高的温度下被压扁，产生比太阳表面更热、旋转、滚动的等离子体。找到控制和限制等离子体的方法是释放核聚变潜力的关键，后者被认为是未来几十年清洁能源的源泉。

在这方面，科学原理似乎合情合理，剩下的是工程挑战。参加这项研究的瑞士等离子中心( SPC )主任Ambrogio Fasoli说：“我们需要加热该装置，并保持足够的时间以吸收能量。 " "

同样由聚变驱动的恒星，光靠重力质量就可以吸引氢原子，克服其相反电荷。在地球上，科学家们改用强力磁线圈来限制核聚变反应，将其推到需要的位置。必须小心控制这些线圈，以免等离子体接触容器本身。会损伤容器的壁，减缓融合反应。

但是，每当研究者试图改变等离子体的配置，生成更多能量或更纯净的等离子体时，都需要大量的工序和设计工作。传统系统由计算机控制，基于模型和仿真，但Fasoli表示传统方法“不一定复杂且能起到优化作用”。

DeepMind控制团队负责人Martin Riedmiller表示：“人工智能，特别是强化学习特别适合解决托卡马克等离子体控制的复杂问题。 “DeepMind在论文中详细介绍了提出的能够自主控制等离子体的AI。

技术概要

DeepMind提出的模型体系结构如下图所示，该方法包括3个阶段。

第一阶段：设计者为实验指定目标，可能伴随着随时间变化的控制目标；第二阶段：深度RL算法与托卡马克模拟器交互，找到接近最优的控制策略以满足指定目标；第三阶段：神经网络表示的控制策略在托卡马克硬件上实时执行(零样本)。图控制器设计架构中每个组件的图像。

在第一阶段，实验目标由一系列包含不同期望特性的目标指定。特性范围包括位置和等离子体电流的基本稳定性以及多个时变目标的复杂组合。并且，这些目标分组为报酬函数，在各时间步骤中向状态分配标量质量测定值。该报酬函数还惩罚控制策略，使其不进入终端状态。重要的是指定了最低限度的有意设计的报酬函数，为学习算法提供了最大的灵活性以获得预期的结果。

在第二阶段，如图1a、b所示，高性能RL算法通过与环境交互收集数据，找到控制策略。该研究中使用的模拟器在具有足以记述等离子体形状和电流变化的物理忠实度的同时，维持了学习所需的计算成本。具体而言，该研究基于自由边界等离子体演化( free-boundary plasma-evolution )模型，对等离子体状态在极磁场线圈电压影响下的演化进行建模。

RL算法利用收集到的模拟器数据，找到关于指定报酬函数的最佳策略。根据演化等离子体状态计算要求，模拟器数据速率明显低于典型RL环境的数据速率。该研究通过最大后验战略优化( MPO )，克服了数据不足的问题。 MPO支持分布式并行流之间的数据收集，以高效的方式进行学习。

在阶段3，控制策略绑定到相关的实验控制目标和可执行文件，并使用自定义编译器( 10 kHz实时控制)最大限度地减少依赖性，消除不必要的计算。该可执行文件由托卡马克配置变量( TCV )控制框架加载(图1d )。每个实验都从标准等离子体形成工艺( plasma-formation procedures )开始，传统的控制器维持等离子体的位置和总电流。在规定的时间，被称为“handover”，控制切换为控制战略，然后启动19个TCV控制线圈，将等离子体的形状和电流转换为期望的目标。训练完成后，网络权重不会进一步调整。这意味着实现了从模拟到硬件的零样本迁移。

基本功能演示

该研究在TCV实验中展示了所提出的体系结构控制目标的能力。首先，给出了正确控制等离子体平衡的基本质量。控制策略的性能如图2所示。所有任务均已成功运行，跟踪精度低于预期阈值。结果表明，RL体系结构可以在放电实验的所有相关阶段进行精确的等离子体控制。

图2 :等离子电流、垂直稳定性、位置和形状控制演示。

示威控制

其次，展示了提出的体系结构为科学研究生成复杂结构的能力。结果如图3所示：

图3控制演示。

新型多畴等离子体演示

最后，给出了探索新等离子体配置的体系结构的强大功能。 DeepMind测试了“液滴”( droplets )的控制。这是容器内部同时存在两个独立等离子体的配置。根据所提出的方法，DeepMind简单调整了模拟切换状态，考虑了来自单轴等离子体的不同切换条件，并定义了稳定各液滴组件位置，同时增加畴等离子体电流的激励函数。

图4:tcv上两个独立液滴在整个4:200mm控制窗口的持续控制演示。

未来展望

总之，随着聚变堆变大，与DeepMind合作可能是最重要的。物理学家已经很好地掌握了用传统方法控制小型托卡马克等离子体的方法，但随着科学家们试图使核电站规模的版本成为可能，挑战只会更多。这个领域虽然缓慢，但取得了稳定的进展。

上周，位于英国牛津郡的欧盟环状核反应堆( JET )项目取得突破，创下了从融合实验中提取能量的新纪录，5秒内产生了59万亿焦耳的能量。同时，法国国际热核聚变实验堆( ITER )国际合作项目正在建设中，预计2025年启动，成为世界上最大的实验性核聚变反应堆。

圣地亚哥能源研究中心的副研究科学家Dmitri Orlov说：“托卡马克装置越复杂、性能越高，就越需要通过越来越高的可靠性和准确性来控制更多的数量。 ”AI控制的托卡马克装置可以通过优化控制从反应到容器壁的热移动，防止破坏性的“等离子体不稳定性”。可以重新设计核反应堆本身，利用强化学习提供的更严格的控制。

最终，Ambrogio Fasoli认为，通过与DeepMind的合作，研究人员可以突破极限，加速走向聚变能的漫长旅程。人工智能赋予我们探索人类无法探索的东西的力量。因为我们可以用自己不冒险的控制系统来实现目标。 “如果确信有即使接近极限也不会超过极限的控制系统，就可以用于探索实际上不存在的可能性。 " "

参考链接：

33559 www.wired.com/story/deep mind-ai-nuclear-fusion /