• 精选
  • 会员

词语与城市

2018年12月17日  来源:规模 作者:杰弗里·韦斯特 提供人:看见那......

7. 词语与城市

令人吃惊的是,与生物学不同,在我们的实证研究进行之前,很少有人关注城市、城市系统或公司的规模法则。原因可能是很少有人会想到这一复杂的、从历史上来说是偶然出现的人为体系能够表现出任何系统性定量规律。此外,与生物学或物理学相比,城市研究中也很少存在这种建模的传统和直面数据的理论。然而,有一点是例外,那就是著名的规模法则——齐普夫定律,它依据城市的人口规模对其进行排列并得出了规律。图7–13体现了这一点。

这是一个很有趣的观察结论:最简单地说,齐普夫定律认为,一座城市的等级数字与其人口规模成反比。因此,在城市体系中,规模最大的城市的规模应该是排名第二位的城市的两倍,是排名第三位的城市的三倍,是排名第四位的城市的四倍,以此类推。举例来说,在2010年的人口普查中,美国最大的城市是纽约,人口总量为8 491 079。根据齐普夫定律,第二大城市洛杉矶的人口规模应该为纽约的一半,即4 245 539人;第三大城市芝加哥的人口应该是纽约的1/3,即2 830 359人;第四大城市休斯敦的人口应该是纽约的1/4,即2122 769人。而实际数字为:洛杉矶3 928 864人,芝加哥2 722 389人,休斯敦2239 558人。根据齐普夫定律进行的预测,误差不超过7%。

齐普夫定律得名于哈佛大学语言学家乔治·金斯利·齐普夫(GeorgeKingsley Zipf)。他出版于1949年的著作《人类行为与最小努力原则》( Human Behavior and the Principle ofLeast Effort )令这一定律广为人知。[17]齐普夫于1935年首次阐释了这一定律,但他当时说的并不是城市,而是语言中词汇的使用频率。该定律最初是这样说的,莎士比亚的戏剧、《圣经》,甚至本书的书面文字中,所有词汇出现的频率与其在频率分布表中的排名是成反比的。因此,最常出现的词汇的出现频次是第二常出现词汇的两倍,是第三常出现词汇的三倍,以此类推,正如图7–14所呈现的那样。例如,针对英语文本的分析显示,最常出现的词汇是“the”,占所有使用的词汇数量的7%;排名第二位的词汇是“of”,占比为“the”的一半,即3.5%;排名第三的则是“and”,占比约为2.3%。

更加神奇的是,这一定律在大量例子中都适用,包括轮船、树木、沙粒、陨石、油田、互联网流量的文件大小等。图7–15表明公司规模的分布也遵循这一定律。鉴于其令人吃惊的普遍性及其所带来的意义,齐普夫定律对于许多研究人员和作家而言都具有一种奇特的神秘感,他们被这一定律令人惊讶的简单性深深吸引。齐普夫及其定律追随者都曾思考过这一定律的由来,但截至目前仍未达成共识。

图7–13 城市的等级规模分布图

图7–14 英语词汇的出现频率分布图

图7–15 公司的等级规模分布图

图7–13是美国城市的等级规模分布图,纵轴对应的是城市排名,横轴对应的是人口规模。需要注意的是,规模频率最高的对象存在很大偏差(语言中是“the”,城市中是纽约)。图7–14展示了英语语言中词汇频率分布的齐普夫定律,纵轴对应的是词汇的出现频率,横轴对应的则是它们的排名。图7–15是美国公司的等级规模分布图,如图7–14一样,纵轴对应的是频率,横轴对应的是规模排名。

在经济学中,齐普夫定律其实在齐普夫提出之前便已经存在,颇具影响力的意大利经济学家维尔弗雷多·帕累托(Vilfredo Pareto)发现了这一规律,他把这一定律阐释为全体居民收入频率分布,而不是排名。这一同样适用于收入、财富、公司规模等诸多经济学指标的频率分布遵循简单的幂律,指数约为–2。如果表述为排名,该指数便与齐普夫定律表述的内容一致。它对显而易见的经济学现象进行了定量分析,即富有人群或大型机构只占极少数,而穷人和小规模机构则占大多数。帕累托法则通常也被称作“二八法则”,人口中最富有的20%人群控制着80%的整体收入,全球各国基本上都是如此。同样,一家公司80%的利润来自20%的客户,80%的投诉也来自20%的客户。这一不对称性也是齐普夫定律的特点,大型机构数量很少,小规模机构则有许多。例如,你只需要了解一本字典20%的内容便可以了解80%的文字;80%的人口居住在占比为20%的超大城市中。处于二者之间的所有一切都符合这一反比定律。

尽管其具有普遍性,但齐普夫定律和帕累托法则经常会出现大的偏差。如果就此得出结论,认为存在某些决定这些频率分布的清晰特点的特定普遍原理,而没有把它们放入许多其他动态过程的更宏大的背景下考虑,那就太幼稚了。例如,只知道城市系统中的城市规模符合齐普夫定律,很难形成一门条理化的、综合的城市科学。至少还需要有关整个城市活动的所有其他规模法则,我已经提到过这些法则,其内容涵盖能量的流动、资源的流动和信息的流动,而不仅仅是了解规模频率分布。尽管这些分布很吸引人,我仍然把它们看成另一个现象级的规模法则,没有特别的根本重要性。

尽管如此,事实上,如此众多且不同的现象都存在齐普夫式的分布,这意味着它们表现出了某些系统性的共性,而这些共性独立于个体特性以及个体的具体动力学。这让我们想起了钟形曲线分布的普遍性,这种曲线通常被用来描述围绕某些平均值的数据波动。从技术上来说,这被称作高斯分布或正态分布,每当一系列的事件或实体被随机分布,变得互不相关、相互独立,便会在数学上形成高斯分布或正态分布。举例来说,美国男性的平均身高约为5英尺10英寸(1.77米),他们身高的频率分布就在这一平均值附近,符合经典的高斯钟形曲线的分布特点。它会告诉我们某些人达到特定身高的概率。高斯统计学适用于所有科学、技术、经济学和金融,可以用来分配不同事件发生的统计概率,比如对天气进行预报或者从人口调查中得出结论。然而,通常会被遗忘的是,对于这些概率的预期是基于个体事件相互独立而做出的,它们彼此之间也被视作互不相关,无论是用今天的气温来对比历史记录,还是用一个人的身高来对比其他人的身高。

高斯钟形曲线如此普遍、如此被人当作理所当然,以至人们不加思考便认为所有事物都是如此分布的。因此,齐普夫定律和帕累托法则等幂律分布难见天日。人们会很自然地认为,城市、收入以及词语都是按照经典的钟形曲线随机分布的。如果事实如此,大城市、大公司、富人、常用词汇的数量就会比现实少得多,因为它们都遵循尾巴更长的幂律分布,这意味着,如果它们都遵从高斯统计,小概率事件的数量就会远远多于预计。我们通常说,幂律有“胖尾”,以此来形容这一区别。很明显,一本书中的词汇是存在相互关系的,并不是随机的,因为它们必须组成有意义的句子,就像城市一样,它们也是统一的城市系统的一部分。因此,这些分布并非高斯式分布也就不那么令人感到惊讶了。

我们遇到的大多数有趣现象都可以归入这一行列,包括地震、金融市场冲击、森林火灾等灾难的发生等。它们都具有“胖尾”分布特点,与经典的高斯钟形曲线分布相比,小概率事件会更多,如规模巨大的地震、市场重大冲击、猛烈的森林火灾等。此外,由于这些都是自相似的过程,所以在所有数量级上都存在同样的动力学。因此,在市场遭遇重大冲击时,使得金融市场出现小幅调整的同类机制也在发生作用。这与高斯统计的随机性质形成了鲜明对比,不同数量级的事件被认为是相互孤立的、毫无关联的。讽刺的是,经济学家和金融分析师通常在其分析中采用高斯统计的方法,忽略了“胖尾”和相关性的优势。听者小心!

鉴于与小概率事件之间的联系,以分形行为为基础的幂律分布和模型在新兴的风险管理领域更流行也就不足为奇了。无论是金融市场、工业项目失利、法律责任、信贷贷款,还是事故、地震、火灾、恐怖主义等,用来衡量风险的通用指标是综合风险指数,风险事件的影响力会因为其发生频率上升而成倍增长。这种影响通常会用预估伤害的美元成本来表达,而发生概率则在某种程度上遵从幂律。随着社会变得越来越复杂、越来越不喜欢风险,发展风险科学正在变得越发重要。因此,理解“胖尾”和小概率事件是学术界和企业界共同感兴趣的领域。

城市科学

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000