• 精选
  • 会员

柯尔莫果洛夫熵

2019年6月8日  来源:返朴 作者: 提供人:jiashou88......

2. 柯尔莫果洛夫熵

不到十年,香农熵就在离散动力系统的练武场上大展身手。这主要归功于三十年代就建立了公理化概率论的俄罗斯数学巨人柯尔莫果洛夫(Andrey N. Kolmogorov, 1903-1987)和他在遍历理论领域的最佳弟子西奈依(Yakov G. Sinai)。五十年代中期,柯尔莫果洛夫在考虑遍历理论的“共轭不变量”这一基本问题时开创了“度量熵”的理论,而他的门徒西奈依的工作则使得它日臻完美。度量熵揭示了一般非线性函数迭代最终走向的动态性质,从而和稍迟一点发展的混沌理论融合了起来

信息熵是怎样炼成的 | 纪念信息论之父香农

柯尔莫果洛夫(Andrey N. Kolmogorov, 1903-1987)

柯尔莫果洛夫堪称俄罗斯民族二十世纪的庞加莱,在国际数学界备受尊崇。他的父亲于沙皇时期投身革命,被圣彼得堡当局驱逐,最后消失在内战之中。因母亲在生产过程中不幸去世,他随姨妈在富有的贵族外祖父的庄园中长大,并受到很好的早期教育。比冯 ? 诺依曼大八个月的柯尔莫果洛夫一样是一个历史爱好者。十七岁进入莫斯科大学后,他参加了俄罗斯著名历史教授的讨论班,并写出了他一生中的第一篇论文,研究内容不是数学,而是四个世纪前的俄国一个城市的发展史。他颇为得意地问教授,该文可否发表?出乎他意料的回答是:“肯定不行!你的论据只有一个,对历史学而言太少了,起码得有五个论据才行。”这位严谨的教授应该成为国内某些发表论文心切的人文科学工作者的大楷模。但也正是这位打击学生信心的历史教授在无意之中把柯尔莫果洛夫推向了另一个五六岁时就萌芽的至爱,并令他矢志不渝——因为在数学中定理只需一个证明就够了!

几乎在精心研究俄国历史的同时,年纪轻轻的柯尔莫果洛夫证明了集合论以及三角级数的几个结果。尤其是在1922年,他构造出一个几乎处处不收敛的三角级数,一下子成了令人瞩目的国际数学新星。在那一时刻,他立马决定“把一切献给数学”,他的决心就像兵工英雄吴运铎《把一切献给党》一样坚定。在半个世纪的数学生涯中,柯尔莫果洛夫大大推进了现代数学的许多分支领域的发展,如函数论、概率论、直觉主义数理逻辑、泛函分析、拓扑学、随机过程、经典力学、紊流、遍历理论、计算复杂性等等,被公认为二十世纪全人类最伟大的数学家之一。如果美国数学史家贝尔( Eric Temple Bell, 1883-1960)晚生五十年,也许他那本大作《数学大师:丛芝诺到庞加莱》(Men of Mathematics, 1937)会以柯尔莫果洛夫作为压轴戏,将他称为“最后的全能数学家”,而庞加莱则变成历史上“倒数第二个全能数学家”。

西方物理学界有伟大的导师费米带出了一大批杰出的学生,甚至有好几个得了诺贝尔奖,可是西方没有哪个数学家会像柯尔莫果洛夫那样培养或影响一个接一个的天才学生。上世纪六十年代初曾让美国数学新星、1966年菲尔兹奖获得者斯梅尔(Stephen Smale, 1930-)惊羡的“动力系统四大才子”中的阿诺德(Vladimir I. Arnold, 1937-2010)和西奈依便是他的弟子。除此之外,柯尔莫果洛夫成果最辉煌、名声最响亮的学生是没有上过高中和大学就直接成为其博士生的犹太人伊斯雷 ? 盖尔芳德(Israil Moiseevic Gelfand, 1913-2008)。在与其名Israil只有一个字母之差的犹太国度Israel(以色列) ,盖尔芳德和“物理女王”吴健雄(1912-1997)一同站在了第一届沃尔夫奖的领奖台上,甚至比他的老师还早了两年获此殊荣。按照华东师范大学数学系教授张奠宙 (1933-2019) 在其著作《二十世纪数学经纬》(2002)中所统计的,柯尔莫果洛夫直接指导过的学生有六十七人之多,可媲美孔子“贤弟子七十二”的记录,其中有十四人被选为苏联科学院院士或通讯院士(具体名册可见书本第368页),堪称中国孔圣人的强劲对手。

东方数学界里,在培养学生方面或许能和柯尔莫果洛夫有“最佳逼近”距离的是中国最伟大的数学家华罗庚(1910-1985)。他门下的数论学家陈景润(1933-1996)证明了离哥德巴赫猜想最近的“1+2”情形,这一传世工作让二十世纪六七十年代的世界数学界再次对中国刮目相看。华罗庚的其他杰出弟子,如解析数论的王元(1930-)、多复变函数论的陆启铿(1927-2015)和龚升(1930-2010)、抽象代数学的万哲先(1927-)等,都是在国际上颇有影响的纯粹数学家。

让我们再回到玩硬币的游戏,来经历一次柯尔莫果洛夫开发度量熵的思想之旅。但是,这一次我们不只注意抛一次硬币正面朝上或反面朝上的结果,而是一口气抛上好几次看看有多少种可能性发生。比如连续上抛两次,就有四种可能结果出现:正正、正反、反正、反反。因为第一次抛硬币结果对第二次结果毫无影响,它们是相互独立的,因而四种结果的每一次可能性均为四分之一。

国外硬币的正面通常是本国名人头像,如美国放的就是历史上最伟大的几个总统。

信息熵是怎样炼成的 | 纪念信息论之父香农

一分硬币(左)上面是亚伯拉罕 ? 林肯(Abraham Lincoln, 1809-1865),五分硬币(下)上面马斯 ? 杰弗逊(Thomas Jefferson, 1743-1826),一角硬币(上)上面是弗兰克 ? 罗斯福(Franklin Delano Roosevelt, 1882-1945),一元硬币(右)上面乔治 ? 华盛顿(George Washington, 1732-1799)。

为简化书写,我们用英文字母H(Head,头)代表正面朝上,T(Tail,尾)代表反面朝上,这样两次抛硬币的所有可能性可以简记成:HH, HT, TH, TT。更一般地,若连续地抛上n次硬币,则有2n个可能结果,每一个结果的概率均为

信息熵是怎样炼成的 | 纪念信息论之父香农

每一个结果都是一个基本事件,我们就有了一个包含2n个基本事件的样本空间

信息熵是怎样炼成的 | 纪念信息论之父香农

其香农熵的值为 n ln 2。

我们的直觉是,无论抛了多少次,对下一次的结果我们仍然心中无数。作为一个极端例子,假如抛了一百万次都是头像朝上,第一百万零一次呢?头像朝上还是尾巴朝上?阁下打赌的胜率如何?柯尔莫果洛夫对下面的问题大感兴趣:倘若已知连续抛了n次硬币的结果,接下来抛第n+1次的结果的不确定度到底是什么?

让我们再来一点数学思维吧。数学家爱数字胜于爱符号。正如美国物理学家费恩曼(Richard Feynman, 1918-1988)生前所经常回忆到的,他那善于培养孩子好奇心的父亲很早就告诉他:知道事物的名称并不重要,重要的是知道其内容。熵在英文里叫entropy,在德文或法文里都是entropie,在俄文里是eнтропия。即便认得一百种语言的名词“熵”,却对它的意义知之甚少或一无所知,甚至不以为然,这只有孔乙己才可能做得到,或培养出孔乙己的私塾先生喜欢这样做。可是目前我们学校的一些教育方式本质上就是在这么做。

信息熵是怎样炼成的 | 纪念信息论之父香农

我们用数字0代替H,数字1代替T。然后连续n次抛硬币的结果可用小数

信息熵是怎样炼成的 | 纪念信息论之父香农

来代表,其中小数点后面的每个数字非0即1。而这个数实际上可看成是0和1之间的一个数x的“二进制表示”。我们的双手有十个指头,日常生活中,我们最喜欢十进制了,它是如此的方便,不懂算术者也可扳扳指头计算。但是,如果一位学过计算机原理的人告诉我们11可以表示“周期三意味着混沌”中的那个数3,我们可能以为他是瞎说。不,他是对的,因为他用的是计算机中央处理器内运算所用的二进制!二进制最早在莱布尼兹(Gottfried Wilhelm Leibniz, 1646-1716)的著作中出现,他可称为人类历史上首位计算机科学家!十进制中,我们“逢十进一”,而在二进制中,就要“逢二进一”了。这样,在二进制中,自然数从小到大排列的前几个数是 1,10,11,100,101,它们分别是我们习以为常的十进制数 1,2,3,4,5。我们从小学的算术熟知,在十进制中小数0.31416可以被展开成“有限项级数”形式:

信息熵是怎样炼成的 | 纪念信息论之父香农

以此类推,在二进制中小数0.10011有展开式

信息熵是怎样炼成的 | 纪念信息论之父香农

这样,每一个二进制小数 x = 0.a1a2…an 都可以写成

信息熵是怎样炼成的 | 纪念信息论之父香农

现在我们把区间 [0,1] 一分为二:左边的半个区间 [0,1/2) 和右边的半个区间 [1/2,1]。注意,为了叙述严格起见,这两个子区间前一个是“左闭右开”的,后一个是“双边都闭”的,它们的交集为空集,亦即没有共同的元素。显而易见,若

信息熵是怎样炼成的 | 纪念信息论之父香农

则x属于 [0,1/2),若

信息熵是怎样炼成的 | 纪念信息论之父香农

1,则x位于 [1/2, 1] 之中。想想看

信息熵是怎样炼成的 | 纪念信息论之父香农

怎样确定x的位置?

我们可以借用把 [0,1] 区间映到自身上的一个逐段线性的“加倍函数”来解释连续抛硬币的数学游戏。这个函数的定义是:当x大于或等于0并且小于1/2时函数值为2乘上x,而当x大于或等于1/2并且小于或等于1时函数值为2乘上x再减去1。更简单地说,这个函数就是将自变量加倍,再丢掉结果的整数部分。它的简洁表达式就是 f(x) = 2x (mod 1),其函数图像是两条斜率是2、彼此平行的斜线段。它是保持长度的,意思是任何子区间和它在 f 下的逆像都有相等的长度。一个区间在函数下的逆像是函数定义域中所有那些数的全体,这些数的函数值都落在该区间内,它可以通过函数图像画水平、垂直线得到。这个加倍函数不是处处连续的,在区间的中点1/2处有个跃度为1的跳跃性间断,这从图像上一眼就知。用更专业的术语讲,它是一个“勒贝格可测函数”。加倍函数和逻辑斯蒂模型一样,都是混沌学家教书时宠爱的混沌例子。

信息熵是怎样炼成的 | 纪念信息论之父香农

f(x) = 2x (mod 1),x∈[0,1]

信息熵是怎样炼成的 | 纪念信息论之父香农

动力系统寻找的是过程的终极行为。当自然数n走向无穷大时,上述不确定度的极限值就被称为函数 f 关于划分 P 的熵。这个熵值依赖于函数定义域区间 [0,1] 的划分。该定义域可以被划分为任意有限多个彼此互不相交的子集之并,而不同的划分一般给出不同的熵值。定义域的所有划分所对应的熵的“最大值”(更严格地说,是对应于所有的有限划分的熵值之“最小上界”,因为无穷个数放在一起可能找不到最大数,比如所有比3小的正数没有最大值,但其最小上界为3)就叫做 f 的柯尔莫果洛夫熵又称为测度熵或度量熵,因为它用的是勒贝格所开创的一般测度论工具来度量保测函数迭代最终性态的混乱程度。

我们用来描绘硬币游戏的这个加倍函数的度量熵等于2的自然对数:ln 2 。请注意,这是一个正数。如今动力学家们都已知道,具有正熵的确是混沌动力系统的一个典型性质。同法可知,将自变量增加六倍后再丢掉结果整数部分的“六倍函数”(数学上这个函数可写成 6x(mod 1)的形式,图像是六根斜率为6的平行斜线,其不连续点为 1/6, 1/3, 1/2, 2/3, 5/6),它的测度熵则为 ln 6。六倍函数可以看成是掷六面骰子(有六种均等机会出现)结果之不确定度。“十倍函数” 10x(mod 1) 的熵是 ln 10,而“百倍函数” 100x(mod 1) 的熵则跳到 ln 100了,依次类推。倍数越提高,熵值越变大,不确定度就越可观,这就是为何在无线通讯中,工程师们常用高度混沌的“高倍函数”参与信号的传输。

信息熵是怎样炼成的 | 纪念信息论之父香农

二倍函数f(x) = 2x(mod 1)(左)与十倍函数f(x) = 10x(mod 1)(右)的图像对比。

柯尔莫果洛夫熵是遍历理论中的一个极其有用的共轭不变量,即彼此共轭的保测函数共享同一熵值。事实上,早在1943年,人们就已经知道以概率论先驱雅各布 ? 伯努利(Jacob Bernoulli, 1654-1705)名字命名的、定义在0、1两个符号构成的双向序列符号空间上的“(1/2,1/2)-双边移位”和定义在0、1、2三个符号构成的双向序列符号空间上的“(1/3,1/3,1/3)-双边移位”都具有数目和自然数一样多的“勒贝格谱点”,因而它们两兄弟是谱同构的。但数学家们一直弄不清楚它们是否也共轭,即:这两个符号空间之间是否存在一个保测同构,使得一个位移与它的复合运算和它与另一个位移的复合运算结果完全是一码事?1958年,正当遍历理论家们为这个基本的未决问题绞尽脑汁之时,柯尔莫果洛夫刚刚产下了的“熵”马上派上了大用场:他经过计算发现这两个伯努利双边移位具有不同的熵值,前一个为 ln 2,后一个则为 ln 3,故它们不可能是共轭等价的。

大数学家的手一旦扭转乾坤,共轭难题的一旦解决,熵马上成了动力系统行家们争相一抱的宠儿。很快,基于紧拓扑空间有限开覆盖概念、用于探索连续函数迭代渐近性态的“拓扑熵”在柯尔莫果洛夫熵的思想指引下由西方数学铺子的三大“铁匠” R. Adler, A. Konhein 和 M. McAndrew 锻造出炉,并和柯尔莫果洛夫基于测度概念的“度量熵”密切相关,成为研究拓扑动力系统混沌性质的好工具。只要把紧拓扑空间的有限开覆盖中的每个开子集看成所谓的波雷尔可测集,拓扑熵和柯尔莫果洛夫测度熵的数学推导过程颇为类似;文末参考文献[1]给出了一个初等的推导。举一个简单的例子,著名的混沌映射之一“帽子函数”有拓扑熵 ln 2,它也等于其柯尔莫果洛夫熵。

信息熵是怎样炼成的 | 纪念信息论之父香农

Hat function

信息熵 / 信息论 / 香农

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000