行动模型学习
编辑行动模型学习(有时缩写为行动学习)是机器学习的一个领域,涉及到创建和修改软件代理对其环境中可以执行的行动的效果和前提条件的知识。这种知识通常用基于逻辑的行动描述语言表示,并作为自动计划器的输入。当目标改变时,学习行动模型是很重要的。当一个xxx行动了一段时间后,它可以利用其积累的关于领域内行动的知识来做出更好的决定。因此,学习行动模型有别于强化学习。它能够对行动进行推理,而不是在世界中进行昂贵的试验。行动模型学习是一种归纳推理的形式,新的知识是基于xxx的观察而产生的。它与标准的监督学习不同,正确的输入/输出对从未被提出,不精确的行动模型也没有被明确纠正。行动模型学习的通常动机是,为计划者手动指定行动模型通常是一项困难、耗时和容易出错的任务(特别是在复杂环境中)。
行动模型
编辑给出一个训练集{displaystyles,s'}是两个连续时间步骤的世界状态观测值。是两个连续时间步骤中对世界状态的观察结果{displaystylet,t'}是对世界状态的观察,来自两个连续的时间步骤t,t′。{displaystylea}是在时间步骤中观察到的动作实例。是在时间步骤中观察到的一个动作实例{displaystylet}是在时间步骤t中观察到的动作实例。一般来说,行动模型学习的目标是构建一个行动模型.除了确定性,各个方法在处理领域的其他属性(如部分可观察性或传感器噪声)方面也有所不同。
行动学习方法
编辑最近的行动学习方法采取了各种方法,并采用了来自人工智能和计算逻辑不同领域的各种工具。作为一个基于命题逻辑的方法的例子,我们可以提到SLAF(同步学习和过滤)算法,它使用xxx的观察来构建一个随时间变化的长命题公式,随后使用可满足性(SAT)解算器来解释它。另一种技术是将学习转换为可满足性问题(这里是加权MAX-SAT),并使用SAT求解器,在ARMS(行动-关系模型系统)中实现。
两种相互类似的、完全声明式的行动学习方法是基于逻辑编程范式的答案集编程(ASP)及其扩展,即反应式ASP。在另一个例子中,采用了自下而上的归纳逻辑编程方法。几个不同的解决方案并不直接基于逻辑。例如,使用感知器算法的行动模型学习或在可能的行动模型空间上的多层次贪婪搜索。在1992年的一篇较早的论文中,行动模型学习被作为强化学习的一个延伸来研究。
文献资料
编辑大多数行动学习研究论文都发表在专注于一般人工智能的期刊和会议上(如人工智能研究杂志(JAIR)、人工智能、应用人工智能(AAI)或AAAI会议)。尽管主题相互关联,但行动模型学习通常不会在像ICAPS这样的规划会议上讨论。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175433/