• 精选
  • 会员

坤鹏论:什么熵,什么信息熵,都不过是概率下的蛋

2020年5月22日  来源:坤鹏论 作者: 提供人:paoji68......

信息,就是出人意料,而出人意料其实讲的是概率。

——坤鹏论

坤鹏论:什么熵?什么信息熵?都不过是概率下的蛋

从今天开始,坤鹏论将进入到阶段性的思考整理。

脉络将是从信息熵,到熵,再到复杂性科学,一直回到这个系列的起点塔勒布的《反脆弱》。

一、这是一个概率的世界

随着不断地学习与思考,坤鹏论越来越感觉到,香农的信息熵与热力学的熵,基本就是一回事。

热力学的熵,还有后来由其派生出来的麦克斯韦妖,其最重要的贡献以及开创是:

由概率到统计,再到脱离成为普适的自然规律,信息熵亦然。

写到这里,坤鹏论突然有些顿悟——这所有的一切皆因为我们的世界、我们的宇宙完全是在概率统治之下。

那么,这个世界的最强法则应该是概率。

我们常说,除了死亡,一切皆有概率!

但是,如果不以肉体消灭为标准,而是从基因和遗传信息的角度看(想想之前坤鹏论举过的柳絮的例子),那真的是一切都有着概率。

既然如此,只要牢牢把握住概率这条真理,从它出发,坚定地前行,都能够获得不菲的成就。

那么——

不管是熵;

还是信息熵;

亦或者复杂性科学、复杂性系统;

其实都不过是概率下的蛋!

所以,不是它们牛,不是它们是自然规律。

而是它们摸到了支撑这个世界背后的真理——概率。

尽管都只能算是一方面,一点点。

并且,但凡能够理解概率,并应用到实践,都是很牛的事和很牛的人。

比如:保险、赌博、金融、投资等。

比如:巴菲特、索罗斯等投资大师,他们成功的关键就在于——风险的管理。

而概率就是风险的数学语言。

所有投资,不管是价值投资,还是投机。

只要是投入今天的钱购买未来,哪怕未来就是下一秒,都会有概率,都有风险。

所以,这种行为应该统一称为风险投资,或者概率投资。

而以概率为灵魂的学科则可以被视为人类探究概率的工具,比如:统计学。

统计力学也是,信息论也是。

没有概率,它们都不可能存在!

二、无序?不确定性?其实都是概率

正如上面所说,概率才是这个世界至高的规律。

所以,只有从概率的角度去理解熵、信息熵,才能算是本质级的理解。

下面,坤鹏论就以信息熵为例说明一下。

香农用熵度量的是不确定性。

而维纳则用熵度量无序程度。

如果站在概率的高度,就知道它们从根本上就是一回事。

一段文字的内在有序性越强,其可预测性也就越高。

换用香农的话来说,也就是后续字母所传递的信息量越少。

如果你对下一个字母是什么,信心十足,那么这个字母就是冗余的,它的出现没有贡献新的信息。

信息,就是出人意料!

而出人意料其实讲的是概率。

比如:在英语中,如果紧跟在字母t之后的是字母h,那么信息量就不大,因为字母h在此出现的概率相对较高。

而不管是维纳的无序度,还是香农的不确定性度,但它们都叫熵,这已经证明了,它们和热力学的混乱程度是一个意思。

我们再来重温理解一下,为什么熵越大混乱程度越大?

什么时候热力系统中没有熵呢?

就是只有一种微观态的时候。

这时的概率是1,其他微观态的概率为0,这就是完全的有序,没有混乱度。

那什么时候系统中熵最大?

自然是所有微观态的概率相等的时候。

这时,系统对于取什么微观态没有偏向性,所以混乱度最大。

接着,我们再理解,为什么熵越大,信息量越大?

因为熵越大,系统承载信息的能力越大。

道理很简单!

所有微观态等概率出现时,也就是系统中存在着所有微观态。

将微观态直接视为信息,想想看,明白了吗?

而一个熵为0的系统只能取一个微观态,自然承载不了任何信息。

因为,信息是消除不确定性的东西,一个微观态自然就没有不确定性,自然就能闭着眼选择,根本不用”还能说什么“,自然也就没有信息了,也就没了”还能说多少“——信息量。

然后,我们再理解,为什么信息熵中,语言越”混乱“,信息量越大?

这最好从语言的上下文关联度来分析。

英文单词中的字母相关度很高,比如:ing、tion,以及各种前缀后缀。

因为相关度大,所以就算从ing、tion中拿掉一个字母,也完全不会影响阅读。

显然说明了这些组合中单个字母提供的信息量很小。

而中文的上下文关联度低很多,所以,单个汉字信息量大。

由此,结论就是:

上下文关联度越高,也可以理解为符号系统越有序,不确定性程度越低;

上下文关联度越低,也可以理解为符号系统越无序,不确定性程度越高。

因此,将信息的不确定性用熵来命名再恰当不过,它和统计力学中的熵,就是同一个问题——概率。

还记得坤鹏论在复杂性科学中讲过的混沌边缘吗?

那是一种最好的系统状态。

琢磨一下,有没有发现语言其实也符合混沌边缘的道理。

简单联想一下就能明白。

假设一群人开会,人们越是意见不一致,越是混乱,人们越希望表现自己的意见,于是大量信息会不断产生。

而往往正是这样的会议才证明了公司的活力四射。

最可怕的会议是,只有有序,没有混乱。

也就是只有领导滔滔不绝,其他人全都默不作声。

所以,复杂性系统同样也是概率的问题。

这可能就是传说中的融会贯通,大道至简,殊途同归吧!

三、麦克斯韦妖

坤鹏论曾经讲过《人类就是麦克斯韦妖》。

在这个著名的思想实验中,麦克斯韦妖在密闭容器中所做的只是控制闸门。

它如何控制闸门?

分子过来时,它会根据它运动的速度和轨迹,判断是快分子,还是慢分子,从而选择是否开闸门。

而分子运动的速度和轨迹,就是信息。

也就是说,麦克斯韦妖根据获得的信息作出选择。

它每处理一个分子,都是做了一次信息与能量的转换。

提出这个观点的齐拉特的贡献非常伟大,因为自此之后,信息也是物理的了。

正如布里渊所论述的,麦克斯韦妖要看得清楚分子,不可能摸黑进行,必须要有灯光照在分子之上,光被分子散射,而被散射的光子被麦克斯韦妖的眼睛吸收,这样它才会看清。

这意味着,麦克斯韦妖不做功,要使系统熵减少,必须获得信息,这需要通过(眼睛)吸收外界能量实现。

因此,麦克斯韦妖这个思想实验的先决条件——密闭被打破了。

自此容器不再密闭,而是可以接收外部能量。

也只有这样,麦克斯韦妖才能干活。

我们可以这样设想修改版的麦克斯韦妖:

外部注入能量,使得麦克斯韦妖看得清分子,从而获得它们的运行速度和轨迹信息,根据信息,麦克斯韦妖做出是否开闸门的选择。

这是一个能量转换为信息,信息再转换为能量的过程。

有了上面这个基础,我们再来看香农的信息论和信息传输模型。

你会发现其实就是麦克斯韦妖实验的现实翻版。

容器:所有可能讯息组成的集合

分子:字符

麦克斯韦妖:信宿,接收者

外部能量:信源

麦克斯韦妖的功能是在获得分子运动的信息后,通过操作闸门做出选择,分离快分子和慢分子,从而减少系统的熵。

一个信息集合的接收者同样也是在接收到信源的讯息后,做出选择,减少信息集合的信息熵(不确定性)。

并且,不管是麦克斯韦妖还是接收者,他们都很单纯地做着是或否的二元选择题。

麦克斯韦妖只关心是快还是慢。

接收者只关心不确定性和确定性。

四、接收者=麦克斯韦妖

自从香农提出信息论后,他迅速成为了学术圈内的当红人物,享有偶像级的声望。

有时,他还会到大学和博物馆就“信息”进行通俗的演讲。

在这些演讲中,他曾引用过《新约·马太福音》第5章第37节的话:

“你们的话,是,就说是;不是,就说不是;若再多说,就是出于那恶者。”

这就牵扯出了信息熵另一个定义,它是通过只允许回答是或否的问题,来猜出一条未知信息时所需问问题的平均数目。

坤鹏论认为这个讲成实例,很容易让人理解信息熵是怎么一回事,那就不厌其烦地分享给大家,希望大家也不厌我烦地读一读。

假设你是麦克斯韦妖,如果分子是一快一慢成对过来,表面上看不出区别。

那么,你需要提几个问题可以知道它们的状态呢?

对的,只需要一个问题。

你可以问:“A是快(慢)分子吗?”;

或者问:”B是快(慢)分子吗?“

如果对面一下子来了A、B、C、D四个一模一样的分子,其中只有一个是快分子,你需要提几个问题来确定它?

有人可能会下意识地说,4个!

惯性思维害人呀。

明智的提问方法是二分法。

你可以先问:A和B中有一个是快分子,对吗?

分子回答说:是。

你可以接着问,快分子是不是A(或B)?

分子回答说:否。

那你就知道答案肯定是B。

整个过程,一共2个问题。

如果答案不是A,也不是B。

答案自然就在C和D中间,你只需要再问:快分子是不是C?

分子回答说:否。

你自然就知道正确答案是D了。

还是提两个问题搞定。

也就是,如果4选1,你平均需要提两个问题能够得到确定答案。

显然,你提问题的过程,就是在消除自己对分子的不确定性。

香农将对于分子的不确定性称为信息熵。

为了衡量信息熵,香农建立起了它与概率的数学关系,也就是从不确定性到确定性,需要提出问题的平均数量。

因此,上面的例子中,两个等概率的分子,提一个问题知道答案,信息熵就是1比特,四个等概率的分子,提两个问题知道答案,信息熵就是2比特。

坤鹏论以此为例,换个角度再讲一遍信息熵,其目的是,回到初心,回到热力学的熵,回到熵与信息发生关系的麦克斯韦妖,最终回到概率!

信息 / 信息熵 / 概率

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000