微软邓力：深度强化学习在聊天机器人领域的应用

xiaoxiao2021-02-28 48

微软人工智能首席科学家邓力在此前接受的采访时曾表示深度强化学习是A.I. Bots的关键技术，在这篇发表于venturebeat的文章中，他详细解析了为什么需要A.I. Bots，A.I. Bots的实现，以及深度强化学习如何发挥作用。

在今年3月份，微软CEO Satya Nadella谈到了关于更普遍地使用人类语言与计算机设备交互的未来产业趋势，他称之为“对话即平台（Conversation as a Platform）”。

同时，他还宣布了几项Bot项目，其中包括微软Bot架构（bot framework）；四月份，Facebook发布了基于Bots的聊天机器人平台Messenger Platform；五月份，Google宣布尝试开发AI驱动的Bots，并命名为Google Assistant。至此，Bots已被广泛地视为一种新的用户界面（UI），将从根本上改变人机交互的体验。

Apps和Web模型存在的问题？

Apps平台是由Apple公司多年前为智能手机开发的，随后，Google推出了Google Play Store。应用平台是基于一个统一的资源模型（模型中规定了手机满足需求时所需的内存和处理速度），但缺点是大量的应用程序充斥着用户的手机屏幕，尽管他们常使用的APPS不超过20个左右。

事实上，常用到的智能手机应用的总数目实际正在下降。总的来说，尽管数以百万计的应用已被开发上架，但其中的大多数是从未被使用的。这无疑会导致设备资源和用户时间（用于下载、安装和管理Apps）大量的浪费。

Web模型在移动界面上表现更为糟糕。通过移动设备访问web服务的使用量较低。这种较低的使用率源于一个事实：很多流行网站的设计和优化是为了迎合非移动的PCs端，而PCs端通常都是典型的宽带接入方式。

智能手机有限的带宽和计算资源是许多Web服务的严重障碍。然而，大多数网站遵循传统地以页面为中心的信息配置范式，导致（非移动端）浏览器暗中模仿阅读器，这对移动设备而言是次优的。

结果：我们需要从头开始重设设计手机用户界面，以便于实现移动时代的全部潜力。

对话成为新兴的移动用户界面范式

幸运的是，在重新设计和部署中，一种新兴的范式十分适合移动终端。这种新的对话（即平台范式）使得移动用户能够发现、访问、交互日常生活中息息相关的信息与服务，从而使得有用的信息和服务能够自然地整合到对话流中（conversation streams）。

这一对话UI范式将导致一个新的生态形成，新生的生态要比之前的Web和Apps的生态系统具有更大的规模优势。这之所以成为可能，是因为信息产业正在进入物理世界数字化以及连接这些链接到物理服务的新时代。这一物理的、交互的、以服务为中心的世界远超之前静态网络信息配置时代。

消息（Messaging）是该新的对话范式的核心，包括一系列的短文本、音频和视频信息。由于兼具异步和近实时两种特性，消息变成了一个加速器，驱动着数字对话的成长。用户无需再额外花费进行交互预先计划的时间成本，且仍保留近实时对话的能力。

Bots作为智能对话接口代理

在对话交互中，相比于以对话为中心的移动UI范式，更为重要的是所提供的各类型智能服务。我们既有像siri、Google Now、 Cortana和 Alexa这类的智能个人助理，又有可通过自动对话接口获取获取的个体Bot。

新兴对话范式的最终模式：用户无需再下载Apps，AI Bots利用语音和自然语言处理能力监控并相应消息UI，自动地将必要的服务资源（可能存在云端）提供给用户。

由于最近机器学习和AI技术的巨大进步，AI bots的实现成为可能。这些进步使得我们能够将越来越多所关心的事物自动化。过去几年内深度学习的发展，尤其是过去一年半发展起来的深度强化学习（Deep reinforcement learning，RL），高效地利用了不断增长的数据和计算资源，促进了我们为世界环境和与我们生活相关的应用领域构建计算模型的能力。

在机器学习中，RL具有鲜明的特点。你需要从用户处得到反馈，也必须给予用户奖励。就像在玩一盘暂时不知道最终奖品的国际象棋比赛。你知道与人工智能的交互会导致任务完成的结果。例如，你知道最终的目的是预定航班，但是Bot仅会说那些对于完成目标有帮助的事情，即使用户可能无法理解bot正在努力追求的最终目标和奖励。

这些进步使得自动语音和自然语言理解变得触手可及，最终使得我们能够解决对话理解和很多领域的对话问题。基于深度强化学习的A.I. Bots 能够理解所有领域的语义，还能够扩展到今日尚无法涉足的领域。

A.I. Bots将采用迭代和反馈回路进行自我发展，并逐步趋近于完美。内置在A.I. Bots的RL组件中的环境模式能够自动且精致地检测、获取、创造并积累新知识，使得我们可以开发更多的智能服务、积累更多的经验，尤其是预定、付款等行为导向型服务。

A.I. Bots的三种类型

一般来说，存在三种类型的A.I. Bots。第一类是搜索信息，因此它的目标是明确的；第二类同样是搜索信息，但目标不是立即明确的。例如你可能问的是一个电影院的开放时间，这不是说你的目的只局限于答案，而是获得答案是达到看电影这个最终目标的一个步骤。对于第一种类型，奖励是明确定义的；对于第二种类型，奖励同样也是相当明确的（或者将会明确定义）。

当使用强大的深度强化学习技术进行构建时，以上两种Bots都有自己的、定义较为直接的奖励函数（强化学习的关键组件）。这两类Bots均可用于完成搜索信息或者完成预定机票、酒店等特定任务。

第三类A.I. Bot是社交Bot，它们需要的指导最多，通常也被称为聊天Bot或闲聊Bot。该类Bot的奖赏函数（用于深度强化学习算法）–简单地称为“情感智能”–不能被轻易地量化。例如，可以向其进行要求咨询，或者是询问一些今天做什么之类的含糊问题。

处理社交Bot十分复杂的奖励函数需要扩展能力，为了给该扩展能力提供数学基础，学术界以及从业者都需要深入调查。这里的目标是将常用的RL算法（例如用于AlphaGo的关键学习方法）扩展成更好的算法，以便利用信息理论上的和内在动机的奖励。

在转向其他类试图完成任务的Bot对话之前，这类奖励会抓取用户在与Bot对话中获取的情感满意度。对于计算机科学家和电气工程师而言，这是一片十分有前景的人工智能研究领域。

原文：How deep reinforcement learning can help chatbots 作者：邓力，微软首席人工智能科学家编译：刘崇鑫责编：周建丁（zhoujd@csdn.net）

技术

最新回复(0)