深度强化学习

文档摘要

深度强化学习强化学习（RL）被视为机器学习的基本范式之一，与监督学习和无监督学习并列。在监督学习中，我们依赖于已知结果的数据集。而在强化学习中，我们依靠的是通过行动来学习。例如，当我们第一次看到一个电脑游戏时，我们会开始玩，即使不知道规则，很快我们就能通过玩游戏和调整行为来提高技能。课前测验为了进行强化学习，我们需要：一个环境或模拟器，它定义了游戏的规则。我们应该能够在模拟器中运行实验并观察结果。一些奖励函数，它指示我们的实验有多成功。对于学习玩电脑游戏来说，奖励就是最终得分。根据奖励函数，我们应该能够调整自己的行为并提升技能，以便下次玩得更好。与其他类型的机器学习相比，强化学习的主要区别在于，我们通常直到游戏结束才知道自己是赢还是输。