10.3 部分可观测马尔可夫决策过程(POMDP) 10.3 部分可观测马尔可夫决策过程(POMDP):在不确定世界中做最优决策的数学框架 我们生活在一个信息不完整的世界。自动驾驶汽车无法“看到”每一个角落,医疗诊断系统不能直接观测病灶的微观演化,金融交易员面对的是被噪声掩盖的真实市场状态。在这些场景中,决策者所掌握的信息是残缺的、延迟的、甚至是误导性的——这正是部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)要解决的核心问题。如果说标准马尔可夫决策过程(MDP)是在一个“上帝视角”的透明环境中寻找最优策略,那么POMDP则是在迷雾中摸索前行,依靠历史与信念绘制地图。