强化学习 一、简介 强化学习又称增强学习,是指一类从与环境交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标。与深度学习类似,强化学习的关键问题也是贡献度分配问题,每一个动作不能直接得到监督信息,需要通过整个模型的最终监督信息(奖励)得到,并且有一定延时性。强化学习是机器学习的一个分支,和监督学习的区别在于,强化学习问题不需要给出正确策略作为监督信息,只需要给出策略的延迟回报,并通过调整策略取得最大化的期望回报。 二、典型例子 (一)多臂赌博机问题 给定 $K$ 个赌博机,拉动每个赌博机的拉杆,赌博机会按照一个事先设定的概率掉出一块钱或不掉钱。每个赌博机掉钱的概率不一样。