读者并不是分析文本的大数据机器。我们在阅读的过程中还会进行思考。我们已经具备了一定的背景知识,了解了一些事情,如一些物种如何繁衍、疾病的微生物理论,小说《米德尔马契》(Middlemarch)(10)中脱离传统顺序的叙述手法的作用。文本统计具有重要的意义,例如将文本分类便于作者识别或比较,将文章划分等级或预测一本书是否能畅销。28有些统计,例如某位总统在演讲中使用人称代词的频率,虽然引人深思,但同样又是欠考虑的。29这些统计用于回答有关语言的一些有趣的问题,而这类问题只有在这些统计方法存在的前提下才能成立。人们仍然需要思考这类问题,确定一种能够提供相关信息并且解释相应数据的统计分析。然而,由于人们发现了以前未被察觉的文本特征,人们提出的问题也会受到相应的影响。
文本和口语统计并不是每个问题的答案,但是想要学习阅读并且熟练阅读的话,这些数据则是非常重要的。我们能看到文本的拼写,但是读者从多个层面收集文本统计特征的数据:字母、字母组合、音节、词素、单词、单词顺序、短语,等等。每个层面都包括一系列特定的元素,这些元素组合在一起形成另一层面更大的元素系列。对每一层面知识的了解是随机的:我们知道什么有可能或没有可能发生,但是极少能准确地知道发生了什么。wor_横线处不仅可以是一个字母,也可以是几个字母。其中,字母k比e或m更有可能出现在这个位置上。take your的后面可以加许多单词,但是time出现的可能性要大于chair或pineapple(take your time意为“不着急,从容不迫”)。读到the keys to the cabinet(柜子的这些钥匙)这个短语,我们知道后面有可能出现动词的复数形式,但是我们不知道会出现哪个动词,以及该动词出现的时间,例如,有可能是are here(在这里),in the kitchen(在厨房里),were here(曾在这里),等等。如果做一些改变,将keys改为单数,即the key to the cabinets(柜子的这把钥匙),搭配的动词就得变为单数形式。
更深层次的问题是,所有这些可能的信息如何才能成为有用的信息。想要理解一个句子,人们需要将每个层面不明确的地方分析清楚,尽管有时分析得并不完整。人们需要确定正确的字母和字母顺序,而不是有可能出现的字母,分析单词和词序也遵循同一原理。如果我们不确定一个层面的因素,又如何能确定另一个层面的因素呢?我们再看一下前面提到的验证码安全系统的例子。如果第一个单词是unto,我们能想到单词中第二个模糊的字母是n。只有当人们识别出包括n在内的字母后,人们才可以将该单词识别为unto。如果人们对单词和字母都不确定,怎么能通过单词识别出字母,或者通过字母识别出单词呢?哪个是先被识别的呢,字母还是单词?
大脑对于该谜团的处理可以通过两个熟悉的益智游戏来解释:数独和纵横字谜。30其中的机制在游戏中更容易识别出来,因为它们更接近人的意识表层,而在阅读中,它们是在人们无意识的情况下发挥作用的,而且复杂得多。
数独是一种满足限制条件的例子,正式的说法是,它是人们通常所说的排除过程。该游戏的规则规定了谜底必须同时满足几个条件,即子表格以及行和列的数字搭配。这些限制条件相互制约:满足一个限制条件的谜底又受到了其他限制条件的影响。这种字谜游戏无法通过单独解决子问题来完成,应该先从一个子问题开始(也许是更小的子表格),然后解决其他的子问题(行和列的限制条件),因为一个问题的谜底必须与其他问题相兼容。人们若想要成功做出数独题,就不得不在各种子问题中不断地来回操作,某部分的进展会影响其他部分的进展。数独游戏是通过同时满足所有限制条件来完成的。
就像做数独题一样,读者并不是完成了一个层面后,再向下一个更高层面进阶,他们需要在各个层面来回思考,这种处理方法是交互式的。正如在游戏中,这种解决方式之所以有效,是因为各个层面并不是独立的:一种因素(如字母)是另一种因素(单词)的要素,而后者又组成了另一个因素(短语),诸如此类。这种嵌套使得每个层面的信息都缩小了其他层面的不确定性。在验证码安全系统的例子里,猜出字母的信息可以缩小单词可能性的范围,而单词又限制了字母组合的可能性。人们在各个层面之间反复思考,最终识别出该单词和组合成单词的字母。31
纵横字谜也是满足限制条件的一种游戏,但它不像数独那样有多重嵌套谜面,它呈现了这类游戏的另一个特点,即各种可能性以非线性方式组合。例如,横向的线索表明了几个可能的答案,但是你不太能确定这些答案的准确性。对于纵向相交叉的单词来说,你的不确定性也是相同的,你想出了另一组有可能的单词,但每一个单词正确的可能性也较低。然而,将它们放在一起考虑,你会发现只有两个单词,一个横向一个纵向,彼此协调一致,因为这两个单词在交叉时,重叠的方格中是同一个字母。因为答案不是独立存在的,它们拥有相同的交叉的字母,两个低概率事件的组合极大地增加了两个单词是正确答案的可能性。
让我们将这种游戏与更为常见的情况,即两个独立事件的可能性组合在一起,做一下对比。例如,身高2.1米的人出现的概率非常低,与出生在新泽西州蒙特克莱尔(Montclair)的概率一样低。因为这两个事件之间没有关联,将它们组合在一起则形成了更低概率的事件:来自蒙特克莱尔的身高2.1米的人。这根本不像我们讨论语言时所使用的统计法。
为了解释这一机制,我再举最后一个游戏为例:该游戏叫作“我正在想一个东西”。第一个线索:
这个线索的限制性并不强,因为许多东西都是黄色的。如果第一个线索换成:
情况依然如此,因为有许多黄色的东西、许多圆的东西、许多水果,所以究竟哪一个是我正在想的东西,猜中的概率非常低。
尽管每一条线索本身并没有很强的限制性,但是若将所有线索组合在一起,答案很有可能就是——柠檬(正确)!
这个例子与阅读过程一样,因为各种特点相互依赖,所以各个低概率线索的组合就产生了一个高概率的答案。水果是一种有颜色和形状的物体。该答案也有可能是错误的,我也许想的是番石榴,但是通常情况下,一个答案比另一个答案更有可能,因此它便成为正确答案。32这些是真实的例子,而不是非线性思考的比喻性例子。这些答案,例如识别出某个字母或单词、字谜游戏的谜底、我正在想的东西、对一个句子的解读,均来自概率限制的非线性组合。将我们熟知的事物以这种方式组合起来的能力是人类智慧显著的特点之一。阅读时,这个过程在很大的范围内发生,并且是在人们毫无意识的情况下自然发生的。
这些机制十分强大,以至于有时一篇比那段剑桥文字更极端的文章,人们也能读懂。为了证实这一点,请将你的视线从这本书移开一段时间,花2分55秒的时间观看电视游戏节目《幸运之轮》(Wheel of Fortune),节目中的参赛者试图通过每次猜一个字母的形式,而最终识别出一个短语。33
看完了?
获胜者仅用几个线索便猜中了一句熟悉的话语“I’ve got a good feeling about this”(我对此有很好的感觉):
· 该字谜的种类(短语)。
· 单词的数量和长度。
· 第一个单词中的撇号。
· 没有字母R的存在(前一个参赛者错误的猜测)。
· 字母L存在于一个特定的位置(获胜的参赛者的猜测)。
在这些线索中,没有一个线索本身含有信息量,但是它们组合在一起就成为一个答案,曾经练习过这个比赛的参赛者便可以迅速锁定正确答案。这并不是魔法或运气,而是当书面语言的特征与强大的思维计算相结合时会发生的事情。