请概括或总结一下动态规划的发展过程。

我个人认为动态编程可以分为三个阶段,以创始人贝尔曼为分界线。一个是前贝尔曼时代,一个是贝尔曼时代,第三个是后贝尔曼时代。

1.前贝尔曼时代

在20世纪40年代,许多经济学和统计学领域的学者发现,逆向归纳法可以解决一些有风险且没有定性分析的多阶段决策问题。冯·诺依曼和摩根斯坦在他们的博弈论研究中,通过逆向归纳找到了外延形式博弈的子博弈完美均衡。

统计决策理论的创始人亚伯拉罕·瓦尔德也将其理论应用于多阶段决策问题。之后,Arrow、Blackwell和Girshick研究了统计决策问题的一般形式,并用现代动态规划的方法阐明并解决了这一问题。

此外,Arrow、Harris和Marschak也用逆向归纳法研究了最优库存策略。

2.贝尔曼时代

几乎与此同时,也就是从20世纪40年代末开始,理查德·贝尔曼逐渐发现了多阶段决策问题背后的结构,并指出逆向归纳法是如何解决一大类多阶段决策问题的。从1949开始,贝尔曼在兰德公司开始了他对动态规划的研究。时尚界没有这个术语的时候,后来被贝尔曼命名。

贝尔曼的核心工作是给出动态规划的最优性原理。这里有重要的文献,就是1953,1954,在Bull上发表的几篇重要论文。阿米尔。数学。社会主义者和运筹学,包括动态规划理论,动态规划理论的一些应用-综述。其里程碑是普林斯顿大学出版社在1957年发表的《动态规划》,它标志着动态规划理论的正式建立。

此后,贝尔曼的研究一直活跃到20世纪60年代,期间他对动态规划应用范围的扩展做了一系列的研究工作,也有很多重要的论文,这里不一一列举。

3.后贝尔曼时代

在基本理论体系建立之后,动态规划进入了一个全面发展的时期,研究工作有很多方向。总结一下,一个是理论体系的泛化,一个是对原有理论的一些条件进行修改,包括最优性原理,以适应一些特殊的新问题。

现阶段的研究工作相当复杂,这里很难一一列举,简单给出几个分支。一是所谓维数灾难的研究,二是在大规模可分非线性整数规划中的应用,三是模糊动态规划,四是与偏微分方程等其他数学领域的交叉研究。

这种划分纯粹是出于历史的考虑,从学科内容上来说可能不合理。但我觉得对初级研究者来说,梳理一下基本脉络还是有帮助的。