儿童说出第一句话是他们语言发展过程中的一个特殊阶段,这是人们喜闻乐见的进步。家长等待孩子们说出第一句话和第一个词组,并将其视为孩子们步入语言学习正轨的标志,因此对于家长来说,口头交流能力的出现是一件奇妙且令人欣慰的事。尽管已有大量关于英语和其他语言的词汇习得研究,但直到最近,研究者、教育家和决策者才开始意识到儿童语言之间的差异有多大。差异的各种来源、这种差异对于阅读和在学校取得的成绩的影响以及如何调节这些影响是目前人们极为关注的焦点。
为什么词汇量对于阅读者来说如此重要?K–3水平的儿童在阅读一本书时,会遇到较少的已认识的单词。对于一年级的学生来说,如果他能够读懂几百个单词,他就可以成为阅读高级材料的群体中的一员。这些词汇量足以使他读懂有236个单词的《戴帽子的猫》(The Cat in the Hat)这本书。如果他想读懂更高级的文本,他就需要掌握更多的单词,但是限制阅读的首要因素是书面文字的知识而非词汇。
从其他方面来看,词汇也是非常重要的。通过思考来了解一个单词究竟意味着什么,这种重要性显而易见。从人的直觉上来说,有关单词词汇的知识是已知的形式(口语或书面语)与含义之间的联系。这种对认识单词的狭义的理解成为测试词汇发展的基础。16例如,儿童听到单词cup(杯子),需要在4张物体图片中指出与杯子含义相符的物体图片。能够正确地指出杯子图片的儿童,说明他已经认识这个单词。但是儿童在将单词与图片建立起联系的信息上却存在很大差异,研究者查尔斯·佩尔费蒂(Charles Perfetti)将这种状况称为“词汇才能”。17单词是连接多种信息的中心点:单词的语音、发音和拼写;单词的多重含义(例如饮品器具、度量单位、奖品);单词所指代的实体(例如各种杯子)以及这些实体的感官和知觉特征、它们的功能、使用方式;一些事实,例如它们的产地、购买地点、保存地点和妈妈最喜欢哪一个;它们的语法功能(例如cup一词既是名词也是动词),以及该单词如何与其他单词组合在一起形成类似于sippy cup(鸭嘴杯)和cuplike(杯状的)这样的表达。与某个单词相关联的信息量反映了儿童对于许多事物的了解程度,而不仅仅只是形式与含义之间简单的联系。
单词的含义也与人们期待可能出现的单词有关。通常情况下,杯子是承受动作的物体而非发出动作的主体(例如“我拿着这个杯子,这个杯子掉了”),而龙卷风则正相反,它更多地作为发出动作的主体。听到或者读到“杯子掉了”这句话会让人们产生期待,究竟谁掉了杯子,什么使杯子掉落,杯子是怎样掉落的以及杯子为什么会掉落。尽管从表面来看,龙卷风袭击也会让人们产生期待,但这种期待是龙卷风影响了哪些人,而不是谁导致了龙卷风。对于cup这类单词来说,它的名词意义和动词意义都有各自的分类特征。该词的动词意义表示“(像杯子一样)托住”,可以与hands(手)、chin(下巴)或face(脸)这类名词搭配连用。也可以与杯子能够容纳的事物的名词连用,例如咖啡或面粉。我们所掌握的大部分语法知识都以这种形式与单词相关联。18当然,这些知识是随机的,“the cup held”(杯子里面装着)这句话引起人们的期待,使人们思考后面可能会接的单词,而非确切的某个单词。杯子里可能装着咖啡或茶。19杯子也有可能被人拿在手里,或者因为杯子是毛皮做的而被保存在博物馆里。
因此,我们所掌握的单词知识并不像字典词条,除非你的字典被赋予体验单词和跟踪统计的功能,能够统计出单词出现的频率和单词会出现在什么样的语言和非语言的语境中。这种更广义的词汇通过增加中心词和构建词汇与多种知识之间的联系得以发展。当我们学习一个新单词或者学习一个已知单词的新意思时,这一过程会贯穿人的一生。
词汇阐释了一个普遍存在的关于语言和阅读的困惑:需要学习的内容太多,而学习的时间太少。儿童利用几年的时间学习了第一种语言。5~6岁的英语学习者的词汇量在2500~5000个词之间。在入学的最初几年里,他们的词汇量每年增加3000个(大约每天8个单词)。20这是如何实现的呢?尽管人们一直争论语法知识是不是与生俱来的,但词汇一定是后天习得的,因为语言形成单词的方式是不同的,同时使用单词来辨别概念的方式也是不同的。家长和其他看护者确实会教一些明确的单词(例如动物和字母的名称),特别是在儿童刚开始学习词汇的阶段。这种教育起到了重要的作用,但是,他们并没有教儿童数千个单词。让人们困惑的是,儿童是如何在这么短的时间里学了这么多的单词呢?
这一问题具有重要的意义,因为在入学时,每个个体都展现出了词汇量和词汇水平的差异。21小学的常规语言学科课程里包括增加学生词汇量的单元,并且研究者已经制定了有效的教学程序。22这其中的关键是常规课程涉及的词汇量过多。教师在一学年中没有足够的时间来教学生数千个单词,或者仅通过这些方法来减少学生的词汇量差异。
就像学习正字法结构和字母类别一样,学习词汇也是一个大数据问题,解决该问题需要少量的及时指导和大量的统计学习。优点是统计学习也包含了扩大词汇量的机制,这种机制无须明确的指导或特意的练习。这种机制基于这样一个事实:意思相似的单词往往也会出现在相似的语言环境里。设想一下出现在lion(狮子)一词前后的单词。这些单词也有可能会出现在tiger(老虎)一词的前后。这两个词分别指代两种有相似特点的大型猫科动物,往往能与相同的词共同搭配使用。例如,大多数能够修饰一方的形容词也能够用来修饰另一方。有相似意思的动词也如此,例如toss(投掷)、throw(扔)和fling(抛)。在人生阶段的头几年里,孩子们便接触了数百万个单词,它们均出现在相关的真实背景下以交流为目的的言语中。对lion和tiger这类单词信息的积累,使得听众(或者以后的读者)在不被告知的情况下,也能在类似的上下文中推断出如lynx(山猫)这类生词的意思。
1957年,英国语言学家约翰·弗思(John Firth)描述了这一过程所隐含的主要观点。他创造了这句格言:“你将从某个单词周围的一些词中猜测出该单词的意思。”23人们可以猜出某个生词的大致意思,因为该单词与相似的单词出现在相同的语境里。因此,猜中lynx这一词的意思就不需要太多额外的特殊信息了。多年以来,人们无法确定这一过程是否有很好的效果,因为在大量的语言样本中分析统计模式几乎是不可能的。另外,美国语言学家诺姆·乔姆斯基(Noam Chomsky)强调了语言的生成,认为人们可以生成并理解新的词组,即使这些新组合与之前的表达几乎没有任何相似之处。语言如此灵活和自由,以至于组合统计也许并没有什么意义。24
1997年,在大数据时代刚刚开启时,托马斯·兰多尔(Thomas Landauer)和苏珊·杜迈斯(Susan Dumais)开展了一项具有划时代意义的研究,该研究重新激起了人们对这一主题的兴趣。25当时,人们已经可以对文本和言语进行相关的统计分析。这种分析展示出,人们使用类似于三元模型(三个单词的序列)这类相对简单的统计方法,就能对单词有更多的了解。例如lion这样普遍的单词,它的前后都可以接大量不同的单词。然而,这是另一种长尾的情况。相对较少的一部分单词重复地接在lion一词的前面和后面,例如,cowardly(胆小的)一词频繁地接在lion一词之前,而king(国王)一词则频繁地接在lion一词之后。这种高频模式让人们能够判断新单词的意思。兰多尔和杜迈斯认为,由于单词组合具有很强的统计规律,儿童又接触了大量的话语样本,当单词最终出现时,儿童已经具备了识别它们的能力,正如前面所举的lion、tiger和lynx的例子。
该理论具有突破性,因为它解释了儿童是如何在仅有间歇的指导或纠正的情况下,迅速地掌握了大量的语言知识的,例如词汇知识。儿童会在大约36个月的时间里学会0~1000个单词。正如我们所看到的那样,每个儿童在学习的速度上存在差异。学习的曲线呈指数型而非线型:儿童在学习最初的大约50个单词时,速度很缓慢,但之后学习速度便迅速提升。根据统计学习理论,当儿童积累了足够的语言和经验数据,可以自己推测出越来越多的单词的意思后,他们的学习速度便会迅速提升。26对于单词学习的这种说法也解释了快速映射的现象。27儿童学习新词的速度极快,有时仅在一篇有意义的上下文中接触一次就可以学会。一种解释是,儿童先天就知道单词潜在描述的所有概念。28统计学习理论认为,儿童会不断地收集关于语言结构和语言结构使用场合的数据,这为儿童迅速增加词汇量提供了便利。
统计学习貌似为“需要学习的内容太多,而学习的时间太少”这一难题提供了一个可能的答案。统计学习并不会受到明确指导的限制,因为它在语言使用的过程中自动发挥作用。然而,正如许多研究所阐明的那样,统计学习也解释了读者为什么会从词汇指导中获益,即使所能教授的只是一小部分单词。正如兰多尔和杜迈斯的理论所阐述的,单词指导的影响已经超过了单词本身,因为它使得学习者与其他许多单词相关的统计网络得以更新。对各种学习过程表现的计算分析表明,许多隐含的学习活动与少量适时的、明确的学习课程相结合,会产生非常有效的效果。29