增强学习是一种试错(trial-and-error)的学习方式,从不断尝试的经验中发现一个好的policy,从而在这个过程中获取更多的reward。在学习过程中,会有一个在Exploration(探索)和Exploitation(利用)之间的权衡。
Exploration(探索)会放弃一些已知的reward信息,而去尝试一些新的选择——即在某种状态下,算法也许已经学习到选择什么action让reward比较大,但是并不能每次都做出同样的选择,也许另外一个没有尝试过的选择会让reward更大,即Exploration希望能够探索更多关于environment的信息。
Exploitation(利用)指根据已知的信息最大化reward。