• 精选
  • 会员

2. 评估样本的大小及重要性

2020年9月10日  来源:实力、运气与成功 作者:(美)莫布森 提供人:jiaoqiao57......

2. 评估样本的大小及重要性

1971年,阿莫斯·特沃斯基和丹尼尔·卡尼曼写了一篇名为《相信少数法则》的文章。这篇文章很有影响力。他们两位在文章中提出,如果样本小的话,人们的“直觉就比较强烈”,而这种直觉“从根本上来说,都是错误的”。从“门外汉到知识渊博、训练有素的科学家”都容易犯这个错误——依赖小样本的信息。[3]简单来说,由于我们往往把一个由少数群体组成的小样本中反映的属性看做全部群体的属性。

正如我们在第三章中所看到的,在考虑结果时,必须关注样本的大小,因为小样本中的结果可能与大样本反映的情况有很大的出入。同时,如果不关注样本大小,人们也会形成错误的看法。就拿体育运动来说吧。在名为《制敌策略》这本书中,汤姆·泰格、米切尔·利奇曼以及安德鲁·多尔芬探讨了棒球比赛中投球手与击球手之间相互关系的情况。[4]一个给定的击球手可能和某一位投球手交锋20次,一直保持良好的击球效果——出色的安打率、不错的多垒安全打能力,及极少的三击不中出局情况。同样,投球手也可能让这个击球手措手不及、狼狈不堪——要么让他三击不中出局,要么让他一直无法上垒。解说员喜欢引用数据来向大家说明在击球手和投球手的交锋中,其中一方完全摸清了另外一方的脾性,并且可以因此攻其不备、出奇制胜。而相应的,球队的经理们则凭借这些统计数据来决定是否让某位棒球选手上场打球。

现在,我们应该明白自己不应该过分看重上述那种小样本反映的情况,因为在解释极端表现时,与其说投球手和击球手中的某一位选手身上具备非比寻常的天赋,倒不如说这些极端表现是正常的波动。针对这一情况,泰格、利奇曼及多尔芬整理了在过去几个赛季里击球手和投球手各自最出彩的场上表现情况,并把这些表现情况与接下来一个赛季里击球手和投球手交锋时双方的表现进行了对照分析。换句话说,研究者们希望知道什么会促进我们做出更好的预测:是小样本(反映的结果不平衡,要么是投球手表现突出,要么就是击球手的表现一团糟),还是大样本(反映一个选手相对于其他对手的整体表现)?他们在研究中发现,整体而言,与一名球员以往的出色表现相比,该球员的综合表现可以作为在击球手与投球手交锋中,评判哪方会占上风的一个更可靠的依据。[5]

在报告统计数据时,一定要列出具体的样本大小。在评估统计数据的价值时,也一定不要忘记关注样本的大小。正如第三章中显示的那样,如果我们所参与的活动处在运气—实力连续体上偏向运气的那一端,我们就需要一个大样本;如果我们所参与的活动处在偏向实力的那一端,小一点的样本就足够了。下面让我们借用棒球比赛中的另外一个例子来进行讲解。统计学家曾提出过这么一个问题:在什么时候,击球的统计数据或投球的统计数据会“保持稳定性”。他们把稳定性界定为预测未来变化的1/2(r=0.50)所需要的样本数量。因此,在出现稳定性这个临界点的时候,良好的判断力可以不偏不倚地去权衡给定选手的统计数据和总平均值。换言之,在稳定性这个临界点,我们所持有的样本量允许我们去预测不同的数据。[6]

三振率是高是低,基本由球员的实力水平决定。在打数为100,赛季进行到1/5时,三振率就会呈现恒定不变的状态。比赛中的安打率是测试每个打数击出安打的比率,比率的高低受运气好坏的影响,因此,在打数为110——赛季进行到1/2时,才会出现稳定性这个临界点。绝大多数关于击球的统计数据都介于这两个极端数据之间。需要说的是,你需要的样本大小并不都是同样大小的,而我们时常忘记这一点。

紧接着,我们需要问的一个问题是:从样本中得出的统计数据到底能告诉我们哪些信息?生活中,关于样本分析,我们时常会犯一些错误。日常生活中,我们面临的其中一个问题是仅仅通过对一些获胜团队(一些公司或者投资者)的抽样调查来探寻它们成功背后的原因。比如,在商业场合,我们可能会把那些采用冒险策略却成功的所有公司放到一起来进行样本分析,但却没有把那些采用同一个策略却失败的公司考虑在内。只包括成功案例的样本会让你对该策略本质的认识产生偏颇或失真。

我们存在的另外一个问题是分不清统计显著性(statistical significance)及经济重要性(economic significance)的区别。在日常生活中,一些有统计显著性的研究结果常常没有任何的实用价值。说到两者的区别,不得不提一下“significant”这个单词的语义。对我们绝大多数人来说,说起这个单词,就想到关键性及分量这类的含义。而对于一个统计学家来说,这个单词却有着不同的意思。在一篇题为《回归标准误差》的文章中,戴尔得丽·麦克洛斯基和斯蒂芬·策里克两人就统计学中使用significant这个单词作为行话可能会引发误会这一议题进行了探讨。[7]

在20世纪80年代及90年代之间,麦克洛斯基和策里克这两位经济学家对发表在《美国经济评论》这本知名期刊上的300多篇用到统计测试的文章进行了分析。他们在研究中发现,在这些文章中,大约有3/4的文章未能搞清楚统计显著性及经济重要性的区别。比如,假定我们发现父子收入的相关系数为0.2,随后一个最新的研究成果表明父子收入的相关系数实际上为0.20000000001。在这种情况下,我们就可以说,这个最新研究成果具备统计显著性,却没有任何的经济重要性。那些具备统计显著性的研究成果更容易发表在世界一流的核心期刊上,也更容易引起大众媒体的关注,但是这些研究成果却可能没有任何的经济重要性。它们也不会对我们提高自身的判断力提供任何的帮助。正如麦克洛斯基和策里克这两人呼吁的那样:“请告诉我,你计算出的这个系数的魅力在哪里;不要把这个系数的魅力与统计显著性混为一谈。”[8]

纳西姆·塔勒布把第四象限称为黑天鹅的地盘。在这个象限里,会出现复杂回报和极端结果的情况。典型的模式是一连串的小额收益之后,突然遭受巨额亏损。例如,在交易中,或许某种策略可能让你一直获得稳定的收益,这种连贯性甚至可能促使交易者为提高自己的收益而不惜贷款。这种持续的投资收益也会让交易者以为自己的投资策略万无一失——然后,犹如晴天霹雳一般,自己的收益全部石沉大海、血本无归。第四象限里的小样本很少能够告诉你那些潜在的极端结果。

预测 / 推断

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000