MIT开发新算法 可帮助AI系统规避对抗性输入

导读 & 12288;& 12288;据外媒报道,麻省理工学院(MIT)的研究人员开发出一种全新深度学习算法,可对所接收的测量数据和输入建立健全的“怀疑”

  据外媒报道,麻省理工学院(MIT)的研究人员开发出一种全新深度学习算法,可对所接收的测量数据和输入建立健全的“怀疑”机制,帮助机器在真实、不完美的世界中导航。

  文章首席作者及麻省理工学院航空与航天系博士后Michael Everett表示:“尽管目前基于深度神经网络的系统在许多机器人任务中都算很前沿,但在安全关键领域中,由于深度神经网络系统的网络鲁棒性没有正式的保障,所以仍然很危险。一旦传感器输入受到小扰动(如噪声或对抗性实例)通常会改变基于网络的决策,如自动驾驶汽车会因此变换车道。

  鉴于上述危险,研究人员已根据这些对抗性输入开发出很多算法建立防御机制。部分对抗性输入还可提供正式的鲁棒性保证或证明。此项工作利用了经验证的对抗鲁棒性,进而为深度强化学习算法开发可靠的在线鲁棒算法。

  由于存在潜在对抗和噪音,输入空间可能会出现最糟糕的偏差,因此提出的防御措施会在识别和选择鲁棒操作执行期,需要计算状态操作值的保证下限。而且,即使验证者可能因干扰不了解真实状态和最佳操作,最终策略仍可具备解决方案品质保证。”

  该研究团队将强化学习算法与深度神经网络相结合,构建出新方法:CARRL,即深度强化学习的认证对抗性鲁棒性(Certified Adversarial Robustness for Deep Reinforcement Learning)。研究人员在不同场景中对该方法进行了测试,如碰撞仿真测试和视频游戏Pong,发现即使存在不确定性和对抗性输入,CARRL也比标准的机器学习技术表现地更好,不仅成功避免碰撞,且在Pong游戏中多次获胜。

  Everett还表示:“在出现对抗性时,用户总是认为有人入侵其电脑,但有可能只是传感器性能不佳或测量工具有误,这都很常见。我们的新算法可解决这一问题并做出安全决策。任何需要极高安全性的地方都应该考虑采用该算法。”

  可能的现实:为了使AI系统能够抵抗对抗性输入,研究人员曾为监督学习采用防御措施。通常情况下,会通过训练神经网络使其将标签或动作与给定输入相关联。例如,曾接收过大量被标记为猫、房屋和热狗图像的神经网络可以正确标记新图像为猫。

  在强大的AI系统中,相同的监督学习技术可使用稍作更改的图像版本测试。如果网络对每张图片的标记标签均为“猫”,无论是否更改,该图片很有可能确实是猫,则该网络对于任何对抗性影响都具有较强的鲁棒性。但浏览所有图像是不可能的,且很难应对高时效性任务,如避免碰撞。此外,如果网络较不稳定性,且一些经修改的猫图片会被标记为房屋或热狗,那么现有方法无法标识图像标签或确定采取何种措施。

  研究人员Bj?rn Lütjens表示:“为了在对安全性要求高的场景下使用神经网络,我们必须知道如何在最坏情况下做出实时决策。”

  该团队希望以强化学习为基础。强化学习是机器学习的另一种形式,不需要将标记的输入与输出相关联,而是旨在强化对某些输入做出的响应动作。这种方法通常用于训练计算机竞技类游戏,如象棋和围棋。采用强化学习的前提是,假设输入正确。Everett及其同事们称此次研究是首次在强化学习中给不确定、对抗性的输入带来“可验证的鲁棒性”。

  他们所采用的方法CARRL使用现有的深度强化学习算法来训练深度Q网络或DQN(一种多层神经网络,最终将输入与Q值或奖励水平相关联)。该方法采用输入(例如带有单个点的图像),并考虑对抗性影响或实际上可能在点周围的区域。基于麻省理工学院研究生Tsui-Wei“Lily” Weng博士研发的技术,该点在所处区域内的每个可能位置都由DQN连通,发现关联举动,从而引起最佳最坏情况发生。

  对抗的世界:在视频游戏Pong的测试中,两名玩家手持屏幕两侧的球拍来回传递乒乓球。研究人员在游戏中加入了一个“对手”,将球拉得比实际球高得多。他们发现,随着对手的影响力不断增强,CARRL比标准技术的获胜率更高。

  Everett表示:“如果预设测量值不完全值得信任,且乒乓球可能在固定区域内的任何地方,那么使用该方法通知计算机将球拍置于该区域的中间,从而确保在最坏偏差下击中乒乓球。”

  该方法在碰撞测试中同样具有鲁棒性。在碰撞测试中,该团队模拟了一个蓝色和橙色代理,试图在不发生碰撞的情况下切换位置。当团队扰乱橙色代理对蓝色代理位置的观察时,CARRL将橙色代理引导到另一个代理周围,随着对手越强大,泊位越宽,蓝色代理的位置变得越不确定。

  CARRL的保守变化使得橙色代理会假设另一种代理可能在其附近的任何地方,作为回应,可能会错过了目的地。Everett称,这种极端保守的做法很有用,研究人员可以将其用作调整算法鲁棒性的限制。比如,该算法可能会考虑较小的偏差或不确定性区域,这仍将允许代理获得较高的报酬并到达其目的地。Everett还称,除克服传感器缺陷外,CARRL可能是帮助机器人安全处理现实世界中不可预测的交互作用的开始。

  Everett表示:“人类是有对抗性的,如站在机器人前面阻碍传感器或与它们进行交互,但不一定是出于最佳意图。机器人如何思考人们可能会尝试做的所有事情?如何设法避免它们发生?我们要防御哪种对抗模型? 这就是我们正在考虑的方法。”福特公司作为MIT的盟友,也对该项研究提供了部分支持。

免责声明:本文由用户上传,如有侵权请联系删除!