学徒学习_全球百科

1 学徒学习
2 映射函数方法

3 系统模型方法
4 计划方法

5 学徒学习的例子

学徒学习

在人工智能中，学徒学习（或从示范中学习）是通过观察专家来学习的过程。它可以被看作是监督学习的一种形式，其中训练数据集由示范教师的任务执行情况组成。

映射函数方法

映射方法试图通过形成从状态到行动，或从状态到奖励值的直接映射来模仿专家。例如，在2002年，研究人员用这种方法来教AIBO机器人的基本足球技能。逆向强化学习方法逆向强化学习（IRL）是从观察到的行为中推导出一个奖励函数的过程。普通的强化学习涉及使用奖励和惩罚来学习行为，而在IRL中，方向是相反的，机器人观察一个人的行为，以弄清该行为似乎要达到什么目标。IRL问题可以被定义为。给出1）一个xxx在各种情况下的行为的测量值；2）对该xxx的感觉输入的测量值；3）物理环境的模型（包括该xxx的身体）。确定该xxx正在优化的奖励函数。IRL研究员StuartJ.Russell提出，IRL可能被用来观察人类，并试图编纂他们复杂的道德价值观，以努力创造出有道德的机器人，有朝一日可能不需要被明确告知就知道不煮你的猫。这个场景可以被建模为一个合作的反向强化学习游戏，其中一个人玩家和一个机器人玩家合作，以确保人的隐性目标，尽管这些目标不被人和机器人明确知道。2017年，OpenAI和DeepMind将深度学习应用于简单领域的合作逆向强化学习，如Atari游戏和后空翻等简单的机器人任务。人类的作用仅限于回答机器人的询问，即两个不同的动作中哪一个是首选。研究人员发现有证据表明，这些技术在经济上可以扩展到现代系统。通过逆向强化学习的学徒制（AIRP）是由伯克利大学EECS系教授PieterAbbeel和斯坦福大学计算机科学系副教授AndrewNg在2004年开发的。AIRP处理马尔科夫决策过程，在这个过程中，我们没有明确给出奖励函数，而是可以观察专家演示我们想要学习执行的任务。AIRP已被用于建立高度动态场景的奖励函数模型，在这些场景中没有明显的直观奖励函数。

以驾驶任务为例，有许多不同的目标同时发挥作用--如保持安全的跟车距离、良好的车速、不频繁变换车道等。这项任务，乍一看似乎很容易，但一个微不足道的奖励函数可能不会收敛到想要的政策。AIRP已被广泛使用的一个领域是直升机控制。虽然简单的轨迹可以直观地推导出来，但复杂的任务如特技飞行表演已经获得了成功。其中包括特技动作，如原地翻转、原地翻滚、环形、飓风甚至自动旋转着陆。这项工作是由PieterAbbeel、AdamCoates和AndrewNg开发的--通过学徒制学习的自主直升机特技飞行。

系统模型方法

编辑

系统模型试图通过对世界动态的建模来模仿专家。

计划方法

编辑

系统学习规则，将先决条件和后决条件与每个行动联系起来。在1994年的一次演示中，一个人形动物只通过两次重复性的捡球任务的演示就学会了一个通用的计划。

学徒学习的例子

编辑

从演示中学习通常是从一个角度来解释的，即工作中的机器人控制系统是可用的，人类演示者正在使用它。事实上，如果软件正常工作，人类操作者拿着机器人手臂，用它做了一个动作，机器人随后就会重现这个动作。例如，他教机器人手臂如何把杯子放在咖啡机下面并按下启动按钮。在重放阶段，机器人正在1:1地模仿这一行为。但这并不是系统内部的工作方式；这只是观众可以观察到的。在现实中，从示范中学习要复杂得多。最早关于机器人学徒学习的作品之一（拟人化机器人通过模仿学习）是阿德里安-斯托伊卡在1995年的博士论文。1997年，机器人专家StefanSchaal正在研究Sarcos机器人手臂。目标很简单：解决钟摆式上升任务。机器人本身可以执行一个动作，因此，钟摆在移动。问题是，目前还不清楚什么动作会导致什么运动。这是一个最佳控制问题，可以用数学公式描述，但很难解决。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/175454/