根据经典的教科书上的定义,Reinforcement Learning is learning what to do – how to map situations to actions, so as to maximize a numerical reward signal.[cite David Sutter]。即增强学习关注于智能体(智能体)做什么,如何从当前的状态中找到相应的动作,从而得到更好的奖赏。
增强学习的学习目标,就是Reward,即奖赏。增强学习就是基于奖赏假设。所有的学习目标都可以归结为得到累计的最大奖赏。