现代汉语类词缀

【内容提要】本文旨在从句法音系接面的角度、根据大规模语料库的统计材料论证类词缀是现代汉语的一个独立的、重要的单位类别。作者发现,与词根相比,类词缀与词缀、助字一样具有单向高搭配性、结构类型个别化和类化作用的特点,意义也较词根明显泛化。与词缀、助字相比,类词缀主要与双音词和多音节类词相配,而词缀只能与单音字和部分双音词相配,助字则是自由地与包括自由短语在内的所有单位层级相配。另外,类词缀新生类推潜能极强,可根据接收向周遍性组配规则大量新创语义透明的类词字组,与词缀明显不同。

【摘要题】汉语言文字学

【关键词】类词缀/单向高搭配性/单位层级/新生类推潜能/接收向/生成向周遍性组配

【正文】

1引言

词根和词缀是词法中的一对儿重要术语。一般的定义是(如高校选用的各种《语言学概论》、《现代汉语》教科书),词中表达概念义(或称“实在意义”、“词汇义”、“基本义”)的部分是词根,意义虚化、在词中起改变概念义的附加作用和/或语法作用的部分是词缀。并且,词根语素可以是自由的、不定位的,而词缀只能是黏着的、定位的。

不少论著还谈到,除词缀外汉语还有大量的“类词缀”(或称“准词缀”,下面除转引外一律称“类词缀”)。常提到的类词缀有“-化、-家、-型、-式、超-、准-、类-、反-”等。(详参吕叔湘1979、陈光磊1994、马庆株1995等)类词缀比词缀还多,被认为是汉语的一个特点。

什么是“类词缀”呢,一般的说法是,它的意义不像真词缀那么虚化也不像词根那么实,虚实介乎词缀和词根之间。但意义的虚实不好把握,因此马庆株(1995)提出如下标准:1)真词缀的意义是虚化了的(词典单列词条),准词缀的意义是实在的或抽象的(词典不单列词条且不是第一第二义项);2)真词缀是成虚词语素或绝对不成词语素,准词缀是相对不成词语素(在基本义项上可成词);3)真后缀基本都轻音化了,准后缀通常不轻声。这三条标准中,前两条的可操作性依赖于词典是否单列词条,而是否单列词条还需要另有语言内的标准,也还有个操作标准问题。

也有学者不主张设立“类词缀”这一类,比如熙(1982)明确指出“-性、-式、自-”等是词根语素,理由是它们是不定位的。但如果像马庆株(1995)那样区分词的基本义项和非基本义项,将“-性、-式、自-”的类词缀义看作非基本义项,则在该义项上它们是定位的。

我们认为,“-性、-式、-化、自-”等是当代汉语中自由地创造新词语的活跃成分,的确有不同于一般词根、也不同于词缀的独特功能。特别是对于汉语信息处理和汉语作为第二语言的教学来说,它们更有必要作为独特的类单独处理。目前对于类词缀的认识尚无法满足语言应用中已经提出的新问题。

本文试图在充分利用统计等研究手段、充分考虑单位的韵律特性的基础上,首先通过与词根的对比说明类词缀与词缀、助词的共性,再进一步分析类词缀不同于词缀、助字的独特性质,以期为“类词缀”的设立提供更为充分的理由。最后,再简要说明类词缀在信息处理和第二语言教学中如何处理的设想。

2词缀、类词缀、助字的共同点——与词根之比较

2.1词缀、类词缀、助字共同点总表

词缀、类词缀、助字三者的共同之处,也即它们与词根的基本区别是“虚”。具体特点可总结如下:词缀类词缀助字词根

ⅰ.单向高搭配性+++-

ⅱ.结构类型个别化+++(-)

ⅲ.类化作用+++(-)

ⅳ.定位+++-

ⅴ.意义泛化+(+)+-

表1

以上5条标准中,ⅰ、ⅱ是我们新提出的,下面将作为重点来阐述。ⅲ、ⅳ、ⅴ是不少语法书中已提到过的,讨论就相对简单一些,重在补充新的可操作性标准。

2.2单向高搭配性

单向高搭配性是指,在保持结构整体性质不变的前提下,结构的一个位置上的成分可替换的同类成分不多,而另一个位置上可以有很多可替换的成分。

词缀、类词缀和助字都具有单向多搭配性的特点,下面分别以“-子”、“-式”、“-的”作为典型给出具体实例:

-子:矮子、庵子、案子、鞍子、袄子、鏊子……(8亿语料中检索出“-子”缀两字组共702例,上面仅列出首字拼音a起头的6例。)

子[,虚义]-:0例

子[,实义]-:子鳖、子城、子畜、子弹、子代、子堤……(《信息处理用现代汉语分词词表》一共收有实义“子-”的两字词39例)

-式:西式、美式、藏式、明式、版式、盒式……(8亿语料中检索到3466例“-式”字组。)

式[,实义]-:式样、式子(《信息处理用现代汉语分词词表》收有2例。)

-的:我的、他的、大的、黑的、跑的、中国的、社会主义的、花园式的……(确切数量难以统计)

的[,虚义]-:0例

上面的统计材料表明,作为词缀、类词缀、虚词的典型代表的“子”、“式”、“的”都体现出单向高搭配性的特点:位于后字位置时可搭配率极高,而位于前字位置的可搭配率则分别为低、极低、零。

词根没有单向多搭配性的特点,也即词根在两字的前字或后字位置上的可搭配性基本平衡。王洪君(2005)整理了《信息处理用现代汉语分词词表》中动物义场常用单字的所有两字组合,下面是“马”、“骡”、“驴”在两字组中的搭配情况:

马-:马鞍、马背、马草、马场、马肚、马队、马房、马粪、马夫……(共100例)

-马:川马、儿马、军马、骒马、口马、龙马、木马、肉马、石马、天马……(共95例)“马”在前后两个位置的搭配性都相当高,双向基本平衡。

骡-:骡背、骡肉、骡子、骡马(共4例)-骡:驴骡、马骡、石骡、辕骡(共4例)“骡”在前后两个位置的搭配性都极低,双向也平衡。

驴-:驴背、驴鞭、驴车、驴粪、驴驹、驴骡、驴马、驴群、驴肉、驴屎、驴蹄、驴腿、驴脸、驴子(共14例)

-驴:脚驴、毛驴、藏西藏驴、草驴、公驴、叫驴、黑驴、母驴、牝驴、骚驴、小驴、野驴、秃驴、蠢驴(共14例)“驴”在我们的统计中属于低搭配与中搭配的交界处。可以看到,它的搭配也是双向平衡的。

以上只是三个例子,其实我们统计过许多单字,在词根义项上体现出搭配性的双向平衡性而在词缀、类词缀、助词的义项上体现出单向高搭配性,是普遍的规律。

有一类王洪君(1994)称之为“类名定中”的结构,似与类词缀有纠葛,它的后字也有很高的搭配性。例如“鲤鱼、鲫鱼、甲鱼、平鱼……”,它们的后字都是表大类名的“鱼”,前一成分则表示鱼的具体小类。但要注意的是,类名结构后字的高搭配性往往是双向而不是单向的:“鱼肚、鱼鳔、鱼翅、鱼鳞、鱼皮、鱼头、鱼尾……”,“鱼”在前字位置上同样有很高的出现频率。另外,类名后字的意义泛化情况也与类词缀不同,我们将在下文讨论。

2.3结构类型的个别化

词根与词根的组合,不论是词法性质的还是句法性质的,都可以归纳为定中、联合、述宾、状中、述补、主谓等有限的几种类型,(王洪君1998)可统称为“基本复合结构类型”,简称“复合结构”。

词缀、类词缀、助字参与构造的结构则个体性很强,结构意义或功能基本由这些虚化成分决定。具体来说,三者的结构个别化有程度的差别。词缀、助字参与的字组完全不能归入上述基本复合结构类型,只能以个体命名为“-儿”缀词、“的”字结构等。类词缀的结构个别化进程稍差,有的还勉强可以归入某种复合结构,有的则完全不可以。

先看定中结构。定中结构的特点是结构整体表示中心语的一个下位次类。尽管有些构词结构附加了特殊的意义,其中的字义也或有引申或转移,但从更抽象的意义组合模式上看,它们仍不超出定中结构的意义整合模式。如“白菜”是“菜”的次类,“河马”、“海马”是“像马的动物”的一个次类。

名词性词缀、助字虽然与定中的中心语一样可以决定整体结构的性质,但所组成的结构不具备“整体表示中心语的下位次类”的特点。比如,“刀子”、“刀儿”不等于一种“子”或一种“儿”,我们不能问“这是个什么‘子’呀?”或“这是什么‘儿’呀?”这样的问题。同样,“数学的”也不等于一种“的”,问“这是一种什么‘的’呀?”更是无稽之谈。

类词缀的情况有所不同。它组成的结构在一定程度上仍可看成复合结构。比如“数学家”可以看做一类“家”,我们可以问:“他是个什么‘家’呀?”但“一定程度上可以”,也就是说已经有了很大的困难。定中结构的基本鉴别式是“数量AB→数量B”(如“一条鲤鱼→一条鱼、一朵红花→一朵花、一双拖鞋→一双鞋”),而“-家”和其他类词缀字组基本都不适用这一鉴别式,如:

一位数学家→[*]一位家、一个炊事员→[*]一个员、一名拖拉机手→[*]一个手

类词缀字组的复合结构类型已经十分模糊,它们常常不适用复合结构的基本鉴别式,个别的连基本意义模式都不适用了。下面再比较其他几种类型:

1)超短、超硬、超自然、超阶级——超车、超龄、超期、超支

2)丑化、绿化、个性化、多元化——火化、变化、消化、融化

每组左边的结构是类词缀字组,右边的则是词根复合字组。

1)组左边的类词缀结构一般被认为是述宾式,但它与右边的词根的述宾式复合结构有明显差异。典型述宾式的功能特点是V+O→Vi,即述宾式的整体功能相当于不及物动词;其语义组合模型是“动作+特定物→与特定物相关的自足活动”;其鉴别式是可中插/或后加“了”,构成“V了O(了)”格式,其基本的整体功能是加时体成分后做谓语。(王洪君1998)即使是有附加义或字义有引申的述宾式双音词,也都符合上述规则。比如“谢幕”、“打拳”的抽象语义分别是“与幕相关的致谢活动”和“与拳有关的广义活动”,它们的入句功能都如同Vi,它们都可以变换为“谢了幕了”、“打了拳了”。

1)组右边的“超车”等字组符合上述特点,如它们都可以中插或后加“了”:“超了车了”、“超了龄了”。加时体成分后可入句做谓语,不能再带其他宾语(相当于Vi)。

而左边含有类词缀的字组则不具有这些特点,如“[*]超了短”、“[*]超了自然”。它们的基本功能是在名词性成分之前做定语,起修饰作用,例如:“超短(裙)、超硬(材料)、超自然(能力)、超阶级(立场)”等。它们的基本意义是区别名物,而不是表活动;总之,是区别性的而不是不及物动词性的。

再来看2)组。“化”本为动词,它用于构词有两种组合方式,一是与另一动词组成并列式,如“变化”、“消化”、“融化”,二是与前边的名性成分组成状中式,如“火化”。这两种方式都列在了2)的右边。

2)组左边的类词缀字组,从形式上看,与状中式的“火化”类一样是“N+化”。但是名性状语在状中式中的典型意义是表示方式,如“火化”义为“用火化”,“手举”义为“用手举”。很明显,2)组左边各例无一能进入这一结构语义模式(“丑化→[*]用丑化”)。其他类型状中的鉴别式,比如说能否插入“地”、“然”,能否用“怎样V”提问等等,也都不适用“-化”结构。所以,很难把“-化”字组归入状中。与并列式的“V+化”也明显无法类同。

总之,类词缀字组的结构类型个别性较强,很难归入复合结构的基本类型。与其勉强归入某个复合结构类,还不如像词缀、助字那样每条都独立一类处理为好。

2.4类化作用

类化作用是词缀、类词缀、助字与词根共同的重要区别,前人已有过讨论。(马庆株1995、朱亚军2001,转引自朴爱阳2002)类化作用指的是词缀、类词缀和助字有决定整个组合的语法功能的类范畴,词根则没有这样的功能。例如,由后缀“-子”构成的字组都是名词,“-然”则都是形容词;由类词缀“-手”和“-感”构成的字组都是名性的,“-式”则都是区别性的;带助字“的[,3]”的结构都是名性的,带“了[,1]”的都是动性的。

在名性类化作用方面,词缀、类词缀与名性词根的差异还不那么明显。比如,“箱”、“刷”分别为名词性和动词性的,加词缀后的“箱子”“刷子”都为名词性;“拖拉机”、“狙击”分别为名词性和动词性的,加类词缀后的“拖拉机手”“狙击手”也都为名词性。但是,后置的名性词根也有同样的功能,如“菜”、“水果”为名性的,“砍、切割、切菜”为动性的,而后加了名词性词根“刀”的“菜刀、水果刀、砍刀、切割刀、切菜刀”都是名词性的。

但细分析起来,名性词缀、类词缀与词根还是有细微的差别,这就是名性词根与动性定语的配合还有音节方面的限制。与名性词根相配的动性定语一般是双音的:1)单音动词做定语很不自由,如“砍刀”,但“?切刀”、“[*]削刀”、“[*]割刀”);2)三音节VP基本不做定语,如“削铅笔刀”一般说成“转笔刀”。名性词缀不受1)的限制,类词缀则1)、2)都不受限制。(如“滚雪球式、拉大锯式、赶大集式、侃大山式、查家宅式[追问]、缠头巾式[小帽]”)

区别词性类词缀与词根的差别最大。比如,“式”、“型”是名性的,而“-式”、“-型”组成的结构都是饰词性的;“超”、“反”是动性的,而“超-”、“反-”组成的结构也都是饰词性的。

由于助词有决定整体结构功能的类化作用,所以近期的生成语法中,已经把它们处理为结构的中心成分。这一处理的确能够使“中心语支配原则”成为语言中一以贯之的重要原则。同理,词缀和类词缀也有决定词或类词整体功能的特点。从这一重要原则也可以看出,类词缀在语言体系中与词根不同而与词缀、助词相同的特点。

2.5定位性

所谓定位性是指词缀、类词缀、助词都出现在组合的固定位置上。前缀和类前缀只出现在组合的最前,后缀和类后缀只出现在组合的最后,汉语的助字一般处于组合的后面。而词根在组合中的位置是不固定的,它可前可后,例如“花”在“鲜花”、“茉莉花”和“花朵”、“花卉”中位置不同,“人”在“人民”、“人类”和“男人”、“成人”中位置不同。

这是类词缀很显见的特点,这里不再多说了。需要说明的一点是,有的缀字的出现位置似乎可前可后,如“有”可以在前(如“有色、有机、有线、有轨、有理、有期”),也可以在后(如“写有、刻有、画有、装有、种有、记载有、安装有、保存有、出版有”)。但我们认为其中的“有”是不同的两个成分,前者是区别词性的前缀,而后者是动词性的类后缀,含有这两种附缀的字组的语法作用是不一样的。

2.6意义泛化

意义泛化指的是它们都不具有实实在在的词汇意义。词缀、类词缀原本都有词汇意义,但在以特定身份参与构造大批相似的组合时,原有的词汇意义变得抽象、概括。

类词缀的抽象、概括跟定中式类名结构中类名的概括抽象层级已经有了明显的不同:

1)类名的抽象度比定语所表示的小类名仅高一级,是相邻的上位,如“鲤、鲫、鲩”都是“鱼”的一种。而且较高搭配的类名基本上都属于认知上的“基本概念”层级。也就是说,日常生活中经常可以以“鱼”来指称各种各样的“鱼”,买了一条鲤鱼或鲩鱼都可以说“买了一条鱼”,晚宴上的一条鲤鱼、或者鲩鱼只吃了一半都可以说“鱼只吃了一半”。而类词缀的抽象度却高于“基本概念”层级,晚宴上请的语言学家只来了一半绝不可以说“家只来了一半”。

2)类名也可以大量地出现在组合的另一位置而表示抽象度相同的意义。比如“鲤鱼”的“鱼”与“鱼头”的“鱼”的抽象层级相同,而“人类、人民”的“人”与“经纪人、中介人”的“人”的抽象层级不同。

这种语义抽象度的不同可以用形式标准来验证,这就是我们在上文“结构类型的个别化”中已经阐述过的复合结构的基本鉴别式来检验。比如是否适用“数量AB→数量B”(“一条鲤鱼→一条鱼”,但“一位数学家→[*]一位家),可以说明类词缀”-家“的意义已经抽象到了相当泛化的程度,而类名后字“-鱼”的意义还在基本概念的层级,两者的性质有不同。也即意义方面的泛化会反映到形式方面,结构类型个别化就是其形式方面的体现。

类词缀意义泛化的程度较词缀和助词低,这一差别将在下一章讨论。

3类词缀与词缀、助字的差异

类词缀与词缀、助词同为语言中的虚化成分,但类词缀既有与词缀、助词相同的一面,也有与它们不同的一面。找出它在语言系统中不同于词缀和助字的独特性质,才能确立它是独特的单位类别。

3.1类词缀、词缀、助词差异点总表

我们把类词缀、词缀、助字三者的不同归纳为如下几点:词缀类词缀虚词

ⅰ.所黏附层级单字/双音词单字/词/类词单字/词/类词/短语

ⅱ.意义泛化度高次高高

ⅲ.组合能力强强超强

ⅳ.新生类推潜能弱强→无限无限

ⅴ.结构的规则性-(+)+

表2

表2中的第ⅰ点前人没有提到过,下面将重点阐述。ⅱ、ⅲ、ⅳ、ⅴ点已有学者不同程度地论述过,本文将利用语料库检索到的材料给予更详细、更全面地说明。另外,明确地区别“组合能力”和“新生类推潜能”这两个概念也是本文的特点。

3.2所黏附的层级

词缀、类词缀、助词本身都是虚化成分,它们必须定位黏附于某个实义性的单位。而这三者的一个重要差异,就是它们所黏附的单位层级不同。

3.2.1汉语的单位层级——通贯语音-语法的定义

一般认为汉语语法的单位层级是(由小至大):语素-词-短语-小句-句子。由于不像英语那样迂音做形式标记,汉语的“词”很难找到可操作的形式上的标准。因而汉语的词在与语素、与短语这上下两个方向上都难以从语法或语义上找到一刀两断的分界标准。无论是扩展插入法(陆志韦1957)、语义推断法(如“白菜”≠“白”+“菜”,所以是词),还是“平行周遍原则”(陈保亚2000,如“鸡蛋”的前一位置上所有的卵生动物名都可以周遍地替换而整体结构义不改变,所以“鸡蛋”是词组)都不能完全解决问题。(详参富丽2001)

近几年来从韵律和语法接面的角度讨论语言单位层级的思路很值得注意,它突破了只用语法或语音形式来定义单位层级的旧有思路,坚持了形式上的可操作标准,得出的结果与初步调查的社会心理一致。下面着重介绍这一思路。

冯胜利(1997)首先提出,“韵律词”是汉语的基本单位。韵律词用“音步”来定义,两音节的为标准音步,2+1式的三音节定中为超音步,四音节的成语为2+2式复合音步,这些都是韵律词。而“种大蒜、大房间”等1+2式述宾或定中结构为韵律短语。

从属于语音层面的韵律的角度(或更具体地说,是节奏、节律)观察词与非词,超越了国内一直以来对于词和短语的区分标准。在这里,语法、语义方面的因素变得不是那么重要了。对于一个组合,无论它的中间能否插入其他成分,无论它的整体义是否等于部分义加结构义,也无论它的某个位置是否能平行周遍地替换成员,只要满足两个音节一音步的条件就是韵律词,像“白菜”、“茶杯”、“鸡蛋”、“木桶”等据此都归为标准韵律词。

还请注意,根据冯胜利(1997)的定义,双音单音步的字组,即使是含两个词根(如“蔬菜、白菜、鸡蛋、砍刀、大蒜”),也不再是复合词,而是标准词了。标准词的再复合,如“公共汽车”才是复合词。端木三(2000)也是这样处理的。

王洪君(2000,2001,2002)系列论文也是从韵律的角度讨论汉语单位层级问题,区分出韵律词(简称“词”)、类词短语(简称“类词”)、自由短语(简称“短语”)这三级单位。我们仍然坚持这三级单位的区分,并将这四条韵律标准再简化为下表中的两条:韵律标准词类词短语

ⅰ.稳定的单音步,即更大组合中音步从不分裂+--

ⅱ.更大组合中内部成分间停延总是小于外部停延++-

表3

根据上表所列标准而得到的分类,与语法语义的某种分类有很好的对应,如表4所示:词类词也称黏合短语、句法复合词(自由)短语

韵内停延总小于外停延;稳内停延总是小于外停延;可能多内停延可以大于或总是大于

律定的单音步音步。外部停延;可能多音步。

性黏合结构。音义对应单纯黏合结构。按规则临时组配的单非黏合结构。按规则临时组

质化的最小单元。元,不涉及指示、情态、数量、时体配的单元,涉及指示/情态/

等句法范畴数量/时体等句法范畴

结黏合两字,2+1式粘合定1+2式粘合定中,2+2黏合状组合定中、状中,特殊动词的

构中、动结、动趋。中,多字黏合定中、4字成语。述宾、主谓,等立结构。

实雨伞、手举、骤降、看清、冷纸雨伞、并肩前进、中华人民共和这书、俩壶、敢去、是他、买雨

例热、再也、雨伞厂国、一衣带水、马达加斯加伞、刚走、(买了)苹果

表4

该方案特别值得注意的是:

1)韵律标准考虑的是一个字组在不同的更大组合中的所有而非某一语段中的韵律表现。标准ⅰ考虑的是字组在各种更大的组合中是否都在一个音步中。比如,“种大蒜”在“他喜欢|种大蒜”中是一个音步,但在“不种|大蒜”中却分在两个音步。“种大蒜”不是“稳定单音步”,就不归为韵律词。而“雨伞厂”在更大组合中总在一个音步中,如“找|雨伞厂”、“雨伞厂|好”,“雨伞厂”是“稳定的单音步”,就归为韵律词。

2)标准ⅱ考虑的是某字组在更大组合中内停延与外停延的相对大小。比如,“中华|人民|共和国”内部可有两个小的停延,但无论是在“热爱||中华|人民|共和国”还是在“中华|人民|共和国||主席”中,其内部停延总是比外部的停延小。内停延总是相对地小,说明它是一个内部黏合的类词。而“一辆|凤凰牌|自行车”如果放在“我丢了|一辆||凤凰牌|自行车”的更大组合中,表数量的“一辆”节奏上就会与“凤凰牌自行车”分开,而与“我丢了”结合。内停延可以大于外停延,说明该字组内部成分比较松散。

与冯胜利(1997)不同,标准ⅰ明确地把“这书、俩壶、能去、想去、爱你、不去、也去、刚走”等带有句法层次范畴的两字组排除出了韵律词,这与语法学界的一些研究成果有很好的契合。如,熙(1982)已指出,指示、领属、数量定语跟“的”字结构定语一样与中心语关系较松(组合结构),其他不加“的”的定语与中心语关系较紧(黏合结构),句法作用相当于单个词。生成学派近年来的研究指出,指示、领属、数量成分是比NP还高一层级的DP短语的限定语,负责表达与说话人和语境的关联,而其他不带“的”的定中式黏合结构(如“中华人民共和国”、“小纸雨伞”等),生成派处理为“句法词”。

我们的韵律单位与以上语法理论契合应该不是偶然的,考虑了所有分布的稳定性韵律特征才是语言深层的本质性的特征,才可能与语法语义的单位层级有很好的关联。

根据我们的标准而划定的“词”,与汉语拼音方案规定的词儿连写规则基本一致,也与王立(2003)针对“什么是公众语感的词”而进行社会语言学调查的结果相一致,这应该是确实存在通贯语音语法层面单位层级的证据。

3.2.2类词缀所黏附的单位层级

从“字-词-类词-短语”的单位层级来考虑词缀、类词缀、助字组配成分的区别,我们发现,体词性(名性或区别性)类词缀有自己既不同于词缀、也不同于助词的鲜明特点。如表5所示:词缀类词缀助字

典型例-子-式-的

单字案/子、刷/子京/式、立/式我/的、买/的

词喇/子牌楼/式、扩散/式牌楼/的、购买/的

类词[*]玻璃转门/子清代牌楼/式、双向扩散/式清代牌楼/的、集体购买/的

[*]桌与椅/子“罗密欧与朱丽叶”式罗密欧与朱丽叶/的

凝固短语[*]桌对桌/子“男人对男人”式男人对男人/的

[*]人坐椅/子“西方英雄救中国美人”式西方英雄救中国美人/的

[*]这暗门/子[*]这种牌楼/式

[*]二混和二流/子[*]中国和蒙古/式这种牌楼/的中国和蒙古/的

自由短语[*]一个好的案/子[*]一个好的国家/式一个好的国家/的

[*]刮了胡/子[*]去了头/式去了头/的

表5

先以“-子”和“-式”为例看词缀与类词缀在组配单位层级的区别。

《信息处理用分词词表》收录的以“-子”收尾的、名词性条目共1310条。其中的多音节条目也不少,但“-子”大多并不加在多音节上。如“大/帽子”、“二道/贩子”中的“-子”是加在单音词根“帽”和“贩”上。由于“帽子、贩子”在词表中已经单独收录了,条目“大帽子、二道贩子”实际上并未增加“-子”的组配数目。经过字组内部的结构分析再经去重,与“-子”直接搭配的词干就更少了。这些词干的音节数分布如下:

“-子”:单音702例>双音60~240例>三音1例(?)>四音以上0例

双音后附“-子”的数量有较大的变动范围,是因为这部分条目的构词层次有三种可能的情况:1)只能分析为“-子”加在双音词根上的2+1式60例,如“半语/子、耳刮/子、哈喇/子、后生/子、麻雷/子、么蛾/子、澡堂/子”等。2)只能分析为“-子”与单音字之后再前加单音字的1+2式280余例,如“八/辈子、表/蒙子、大/帽子、电/梳子、老/儿子、熊/瞎子”等。3)既可以分析为1+2式也可以分析为2+1式的180例。如“暗/门/子、笔/杆/子、车/牌/子、菜/团/子”等。这样,如果从严掌握,双音词根配“-子”最少只有60例,如从宽掌握则可多至240例。“-子”直接配三音成分的可能只有1例,是方言词“一塌刮子”,我们不太清楚它的内部结构,但至少它不是普通话,可忽略不计。总之,词缀“-子”配单音成分的占了绝对多数,配双音成分的骤减至配单音的1/3到1/11,配三音以上成分的是0。

与“-子”不同,“-式”与单音节的搭配反倒有较大的限制。先看数据。8亿语料中共检索到已经结构分析和去重处理的“-式”3466例,其组配成分的音节数目如下:

“-式”:单音节152例<双音2160例>三音451例<四音以上703例

数据显示,类词缀跟单音节搭配的最少,与双音搭配的最多,两者数量之比为7/100。而与三音及四音以上的成分搭配的已超过总数的1/3,并远远超过与单音节搭配的数量。

“-式”可以相当自由地与3音节字组搭配,包括属于韵律词的2+1式定中,也包括属于类词的1+2式定中和属于凝固短语的1+2式述宾主谓等。如:防震棚式、保险柜式、大转盘式、大团圆式、“满堂灌”式、“一带二”式、“搭积木式”。与“-子”不同,这些“-式”都是加在3音节整体的后面,无一可再分析为单音节或双音节加“-式”,如“[*]防震/棚式、[*]倒/宝塔式、[*]大/团圆式”。

“-式”与四音节以上字组搭配的实例更多。其中不乏成语,但更多的是一般性类词短语。如“产品性能[,定中]式广告、长袍马褂[,并列]式学位服、鞭打奴隶[,述宾]式的批判、产权分割[,倒置述宾]式交易、“炉边谈话[,状中]式”会议、牧师布道[,主谓]式高亢的嗓音、买断贩卖[,复谓]式”等等。它们的构造类型十分全面,定中、状中、并列、复谓、述宾、主谓等等都有,但大多是由两个基本词组成的典型类词,共计677例。只有13例是由三个基本词组成的6音节以上的字组,如“多点汽油喷射式发动机、安妮女王复兴式风格、‘浓眉大眼红脸蛋式’婚纱照”等等。虽然它们内部有三个或更多的基本词,但没有助词且结构为偏正或并列,因此仍然是类词字组性质。

再看“-式”与“-的”在组配成分上的差别。

四音节以上的“-式”还有13例从表面看是自由短语结构(占703例四音节以上“-式”的1.8%,所有3466例“-式”的0.38%)。它们或带有短语标记或是由三个以上基本词构成的“主动宾”式按内部结构的不同分类例子如下:

1)“罗密欧与朱丽叶”式爱情、“骑红马,扛大刀”式;2)“大马拉小车”式运行、“西方英雄救中国美人”式;3)“泥做的骨肉”式、“发射后不管”式导弹;4)“我从此就是你的人了”式的爱情表白

我们把这些特例分为几种情况与自由短语对比。ⅰ)并列结构。作为自由短语的并列结构,其主要特点之一是可以并列简缩,如“我的和你的”可简缩为“我和你的”。而1)中的实例虽然有并列连词或顿号出现,但与自由短语的并列紧缩有明显不同:“罗密欧与朱丽叶式”并不是“罗密欧式爱情与朱丽叶式爱情”这一自由短语的并列紧缩,而是“罗密欧与朱丽叶”结合起来代表一种特定的爱情关系,先已形成了不可分割的凝固语。同理,“骑红马、扛大刀”一起先合成了一个农民革命者的形象,而不是分别两类形象的并列简缩。ⅱ)含有三个以上基本词的“主动宾”或复谓结构。这些结构虽然与句结构类似,但未出现指示词、时体助词,具有不跟具体说话语境相联的超时空性,这是构成成语、惯用语的一般条件。这些例子也的确是表示已经在大众心目中构成了固定样式或方式的单一形象的。ⅲ)含有自由短语的标记“-的”、“-后”。“泥做的骨肉”是贾宝玉的名言,是“污浊男人”形象的代表,已成凝固语。“发射后不管”没有主宾语和时体助词出现,与“饭前洗手”等标示语一样属于半自由半凝固结构。ⅳ)最为极端,既有时体助词“了”出现,又主谓宾俱全,是典型的句结构。但“我从此就是你的人了”是套话式引证语,引号不能省略,可以看成一种特殊的凝固语。

可见,“式”的前接成分大部分是典型的词或类词,也有极少的凝固性习用语(带引号标记)出现,但绝不出现真正意义上的自由短语。

综上,在体词性的范围内,词缀的核心搭配范围在单音字,延展到了一部分双音词;类词缀与单音字的搭配已不太自由,其核心搭配已转移到了双音词,并延展到了多音节词和类词;助词则可与长短不限的自由短语搭配。可以说,词缀只是基本词的标记,类词缀兼是基本词和类词的标记,助词是自由短语的标记,它们各有分工。

3.3意义泛化度

类词缀在意义上尚未完全虚化,一般来说,它们在类缀字组中仍部分保留了原有的词汇意义,我们总是能在词典中发现跟类词缀关系密切的义项,但是类词缀的意义并不能从该义项中得到完全的解释。如“家”由“家庭的住所”、“家庭”引申为“经营某种行业的人家”(“农家、船家、渔家”)、“具有某种身份的人”(“东家、行家”),再引申为“掌握某种专门学识或从事某种专门活动的人”(“科学家、艺术家”),意义引申的线索很清楚。但随着社会的发展,“专门的学识”或“专门的活动”门类越来越多,更新越来越快,“-家”的配合能力也就越来越强,“在某种学科或活动门类中”和“地位高”的附加义也就越来越强,“人家”的意义则完全失去了。

3.4组合能力

这里首先区分两个概念:一是参与构造已有词语的能力,我们称之为“组合能力”,放在本节讨论;另一个是构造从未出现过的新词、新语的能力,也即构造新词的潜能,我们称为“新生类推潜能”,放在下节讨论。许多论著仅笼统地讨论“构词能力”、“生成能力”或“能产性”,这样会遗漏许多重要的现象。

组合能力可以用某个共时语料库的统计得出。

词缀、类词缀和助字的组合能力都很强,但有量的差别。比如在8亿语料中有“-子”缀词760—1000余例,“-式”类缀词或类词3466例,“-的”短语接近2,000,000(二百万)。①

可以看出,“-子”和“-式”虽然有频率上的差异,但都可以归入“高频”范畴;而“-的”却与它们有较明显的差异,属于“超高频”的范畴。这是助词不同于词缀或类词缀的根本特点。

3.5新生类推潜能

新生类推潜能指根据现时需要随时创造新词语的能力。

新生类推潜能与组合能力不是一个概念。词缀、类词缀、助字的组合能力都属于“强”的级别,只是程度上有不同。而它们的新生类推潜能却有本质性的区别。

词缀的新生类推潜能极弱,甚至弱于一般词根。比如,以最严格的标准,“-子”缀词也有760余例,不可谓不多;但近年来大量出现了各种新生名物,如“微波炉、香波、鼠标、光盘、手机、邮编、网页、U盘、闪存”等等,许多构词能力不如“-子”的单字都参与了新词的构造,但却不见“-子”的身影。也就是说,“-子”在现代汉语中已丧失了类推构造新词的潜能,“-子”缀词已经是历史造词的遗留,属凝固词语。可以预见,今后它的搭配频率将会逐渐减少而不是增多。因而,只要我们使用的语料库足够大且足够平衡(比如说2亿字),就几乎可以涵盖词缀的所有搭配,即使增加新的语料,也很少会有新的用例出现。

类词缀的新生类推潜能却很强,以致统计出的搭配频率总赶不上变化。比如,已有的“-家”的数量并不一定比“-子”多,我们从8亿语料库随机抽取1000例含“家”字组后人工鉴别只得到“-家”类缀组合68例,通过其他参考资料和内省又得到38例。但这106例绝不是“-家”类缀可能组配的全部。最近我们用“百度网”搜索,又发现有“性学家、周易预测学家、信息产业学家、军事历史学家、农经学家、茶学家、激光物理学家”;在报纸的一版上又发现有“电波传播学家、核农学家、大地构造学家、土壤化学家、职业神经病学家”等我们以前未见过的新组合。以上偶尔拾得的就又有12例。可以想见,每出现一门新学科或新分支学科,某一领域突然热了起来,就会出现一种新的“-家”,它今后的搭配频率只会增加而不是减少。因而,只要扩大新的语料,类词缀的搭配频率就可能有较大的变化。

通过对语料库的检索我们意识到,类词缀的能产性比我们设想的还要强许多,很多类词缀都有所有词典(包括新词新语词典)均未收录的、我们从来没有听说过、用内省法也无法得到的用例。仅以“-式”为例。我们对8亿语料库检索到含“式”语段共303104例,经人工鉴别和去重得到“-式”缀字组3466例。这些用例许多都是根据需要、根据说话人个人对样式、方式的分类临时创造的。比如对结婚方式的分类有“家庭结婚式、教会结婚式、佛前结婚式、神前结婚式”,对管理方式分类有“超前预防式、大棒压制式、放任自流式、金屋藏娇式、全权委托式”的分类。还有许多用例,孤立看时甚至要怀疑其合法性,但在前后文中却是很自然的用例。比如“全面透过式(取景屏)、西服背心式(防刺服)、‘浓眉大眼红脸蛋’式(婚纱照)、老伯式(眼镜)、旅游式(三包)、抛弃式(隐形眼镜)、拖鞋式(凉鞋)、香肠式(奶酪)”等等。由于4音节以上类词性质的VP和NP的数量实际上是无限的,所以理论上说,这些类词缀的搭配潜能也是无限的。

据张家太(1988)考察,20世纪80年代产生的新词中,有相当大的一部分是由类词缀构成的,如“优化、企业化、一次性、可读性、一把手、外语热、留学热、气功热、开放型、外向型、知名度、回头率”等等。最近几年产生的新词也有很多跟类词缀有关,例如“无公害、无抗、纯天然、网员、股评家、量贩式、美白型、信息化、房地产热、非典”等。

新生类推潜能强是类词缀不同于词缀的重要特点,是类词缀需要单立一类的重要原因。

助字的新生类推潜能最强。任何新的思想,都可以用助字短语的形式表达出来。虽然体词性类后缀的搭配潜能已经是无限多,但体词性助词搭配潜能的集合显然要大大多于类后缀。比如,凡“-式”的后面都可以再加“-的”,而“-的”还可以加在自由短语的后面,还可以层层套用,“-式”则不可以。关于这一点似无不同意见,不赘述。

3.6组配的规则性

组配的规则性是指搭配的成分及搭配后的整体意义是否可以用语法或语义的类来控制。规则可分为两类:生成向周遍性的和接收向周遍性的。②

生成向周遍性的规则是指某一语义类的全部成分均可周遍地与另一类(或一个成分)搭配,搭配后的整体义也都可以用成分义和结构义的相加来预测,“第-”是这一类的典型代表。

接收性周遍的规则是指某一语义类的不少成分(不是所有同类成分)可以与另一类或另一个成分搭配,但只要能搭配,搭配后的整体义总是可以用成分义和类后缀义的相加来预测。

词缀基本上不是生成向规则的,它们大多无法用语法或语义的类来控制。如“-子”、“-儿”、“-头”是名词性词缀,但它们并不是可以加在所有的名词或单音名的后面。语义的类也很难控制。比如一般的说法是“小的事物可以与‘儿’搭配”,但缝衣服的针很小,却不能加“-儿”,打毛衣的“针”反而要加“-儿”;缝衣服的线很细不加“-儿”,抽象的“线索”义的“线”却可以加“-儿”,等等。词缀从接收向来看也很难说是规则的,因为加词缀后的整体义也很难从类的搭配来预测,如“眼”加“儿”义为“窟窿”,“门”加“儿”可以表抽象比喻义的“门路”,但“灯”加“儿”并不表抽象比喻义等等。因此,由词缀构成的词大多需要在词典中一一收录,语言学习也需要一一学习。

少数词缀与少数语义类可以周遍地配合,如“老/小+单音节姓氏”,和“第+数词结构”。这样的情况在词缀中并不多见。而且,如果另外分出“类词缀”这一类,“第-”恐怕要改归为类词缀才更加合适,因为它可以自由地与类词性质的表数字组搭配。

与词缀不同,大多数类词缀的组配成分不少可用生成向的规则控制。例如“-式”具有跟所有表国家、民族的名词性成分相配的潜能(如“中式、中国式、日式、日本式、美式、美国式、藏式、蒙式、蒙古式、满式……”),类前缀“副”可以与所有官名相配(“副经理、副总经理、副部长/局长/司长/科长/股长/班长/组长、副主任……”)。有些组配之前也许从来没有被使用过,但今后有出现的潜能。比如我们的语料中没有出现过“通州式”,但如果今后几年它的发展速度极快,并被立为典型而广泛宣传,则“通州式发展速度”就一定会出现。

从生成向看不能用周遍性规则控制的类词缀组配,从接收向看基本上是周遍性可理解的。例如类前缀“总”并不能与所有表示官职的名词性成分组配(“总经理、总工程师、总参谋长、总司令”,但“[*]总主任、[*]总部长”);类后缀“家”也不可以与所有表示乐器的名词性成分组配(“小提琴家、钢琴家”,但“[*]黑管家、[*]大号家、[*]笛子家”),但凡能搭配者,其整体意义就可以从成分义和类词缀义的相加来推知,也即它们的语义是透明的。

当然,所谓“语义透明”也是有层次的。“专名+式”语义透明的层次比较浅,比如从“伊斯兰教式[建筑]”的组配中,人们都能得知的只是伊斯兰教有一种特定样式的建筑,至于该样式到底有什么特点,则依赖于个人的百科知识。一般来说数字式武器型号可以提供的词汇语义内容最少,而四音节以上NP或VP提供的语义内容最多。

考察发现,几乎每个类词缀都有一条或几条生成周遍性的规则,而接收向的周遍规则性对于类词缀来说则几乎是无一例外适用的。这是类词缀与词缀最大的不同。

4类词缀与词典收词和第二语言教学

由于类词缀字组语义上的透明性,母语者并不需要通过查字典来得知其语义,所以以母语者为对象的语文词典几乎不收录它们是合理的。但计算机和第二语言学习者并不具备母语者这种潜在的语言知识,因此需要对类词缀字组做相应的处理。怎么处理呢?以下几点应注意:

1)与词缀不同,类词缀目前正处于能产活跃期,其新生类推潜能是无限的。因此任何一部词典,即使是大型词典也不可能穷尽地收录类词缀所搭配的所有字组。

2)与词缀字组不同,不少类词缀字组(特别是其中多音节的)的复现率极低,它们是根据需要而临时创造的。如“‘浓眉大眼红脸蛋’式[婚纱照]”在8亿语料中仅出现一次,再增加语料也未必会再次出现。也即,许多类词缀字组收录在词典中是很不经济的。

3)与助词不同,类词缀字组的内部不涉及句法语义范畴,也即类词缀字组的句法作用只相当于一个词。如果类词缀字组能与句法分开处理,无论是对于信息处理还是外国人学习汉语都是十分有必要的。正确地划定类词缀字组的界线,自动处理这一部分的语义信息,是进行句法分析之前的前期工作。

类词缀字组的整体功能由类词缀决定。一旦确立了类词缀的性质,就可以相应地确立类词缀字组的语法类别,类词缀可成为计算机标注词性或第二语言学习者理解句子结构的一个指示灯,可以用它来确定整个字组的语法性质,切分出句子结构的一些较大的单元。

也就是说,虽然词典无法也无须收录所有的类词缀字组,但信息处理和第二语言习得却又都需要在运用句法之前判定类词缀字组的边界和整体语义。

4)与词缀、词根不同,类词缀字组有相当部分是生成向周遍可控的,几乎全部都是接收向周遍可控的。因此,它们可以不收录词表而又能够达到自动划界和理解。

其策略应该是:把类词缀单独列表,并给出每个类词缀有哪些生成向周遍的搭配规则,有哪些接收向周遍的搭配规则。

计算机只需要接收方向的组配规则。有了这些规则,知道了某个类词缀可以与哪些格式或哪些语义类的成分搭配,就可以在相当程度上自动处理文本中类词缀字组的外边界(还会遇到歧义切分问题)和整体语义。

第二语言习得者不但需要接收方向的组配规则,还需要生成方向的规则,以避免生成不正确字组(如“[*]笛子家”)。

此外,单音节与类词缀搭配的字组有些特殊。除一些封闭性义场(如地名或民族的简称、姓氏、英文字母)外,它们中有不少语义不透明、同类类推能产能力差、产生时代早(如“作家、画家”,“版式、复式”)。这些组配的后字虽然与类词缀同形且有语源上的联系,但其实该组配产生之时后字尚未虚化为类后缀,是按普通复合词创造的,之后又以复合词的身份增加了附加义。它们与类缀字组差别较大,而与一般复合词性质相同,最好收录词典。

目前,信息学界对类词缀问题已有不少关注和研究成果,如台湾中央研究院资讯科学研究所中文词知词库小组(1996)、吴赣(1998)、富丽(2001)等。当然,要使计算机能够达到对类词缀字组的自动处理,还需要更多、更细致的研究。

对外汉语教学方面对类词缀的重视明显不够。比如,一位教员告诉笔者,一个留学生曾经抱怨,课本上出现的“无权”一词,自己从未学过,为什么未收入生词表。可以想见,确定一些常用的类词缀,给留学生讲解类词缀接收向的意义推导规则、生成向的音节搭配规则和哪些语义类可以周遍生成的限制,定会提高留学生理解和运用汉语的能力。

总之,从应用方面词根、词缀、助词与类词缀应该采用的不同处理策略,也可以看出在汉语中应该把类词缀作为单独一类的必要性。

注释:

①此数为估算数值:根据北工大两亿语料“的”的字频减去所有含实义“的”的问和成语的频率再乘4倍而估得8亿语料中助词“-的”频率为1,868,440。

②陈保亚教授指导的李洪彦同学2004年本科论文首次提出这两个概念,只是“接收向”称为“理解向”。

【参考文献】

[1]北京大学中文系现代汉语教研室1993《现代汉语》,北京:商务印书馆。

[2]卞成琳2000《汉语工程词论》,济南:山东大学出版社。

[3]陈保亚1999《20世纪中国语言学方法论》,济南:山东教育出版社。

[4]陈光磊2001《汉语词法论》,上海:学林出版社。

[5]端木三1999重音理论和汉语的词长选择,《中国语文》第4期,246—254页。

[6]端木三2000汉语的节奏,《当代语言学》第4期,203—209页。

[7]冯胜利1997《汉语的韵律、词法与句法》,北京:北京大学出版社。

[8]冯胜利1998论汉语的“自然音步”,《中国语文》第1期,40—47页。

[9]冯胜利2003韵律制约的书面语与听说为主的教学法,《世界汉语教学》第1期,87—97页。

[10]富丽2001《现代汉语类词缀研究——兼论附缀字组的成词性及词库收词问题》,北京大学中文系硕士论文。

[11]葛本仪2001《现代汉语词汇学》,济南:山东人民出版社。

[12]胡明扬2000《语言学概论》,北京:语文出版社。

[13]胡裕树1981《现代汉语》(增订本),上海:上海教育出版社。

[14]黄伯荣廖序东1990《现代汉语》(增订版)上册,北京:高等教育出版社。

[15]黄居仁1997《资讯处理用中文分词规范》设计理念及规范内容,《语言文字应用》第1期,92—100页。

[16]梁源2000二字结构凝固度分级考察,《语言文字应用》第2期,21—32页。

[17]刘叔新1990《汉语描写词汇学》,北京:商务印书馆。

[18]刘源谭强沈旭昆1994《信息处理用现代汉语分词规范及自动分词方法》,北京:清华大学出版社,南宁:广西科学技术出版社,联合出版。

[19]陆志韦1957《汉语的构词法》,北京:科学出版社。

[20]吕叔湘1979《汉语语法分析问题》,北京:商务印书馆。

[21]马庆株1995现代汉语词缀的性质、范围和分类,《中国语言学报》第6期,101—137页,北京:商务印书馆。

[22]朴爱阳2002《现代汉语派生词研究》,南开大学博士论文。

[23]沈孟璎1987略论新词语的特征,载沈孟璎《新词·新语·新义》,福州:福建教育出版社。

[24]沈阳1997现代汉语复合词的动态类型——谈语言教学中的一种词汇/语法单位范畴,《语言教学与研究》第2期,24—40页。

[25]孙茂松李行健王洪君富丽2001《信息处理用现代汉语分词词表》,教育部九五社科重点项目结项报告(未刊)。

[26]台湾中央研究院资讯科学研究所中文词知词库小组1996《“搜”文解字——中文词界研究与资讯用分词标准》,技术报告96—01(未刊)。

[27]王洪君1994从字和字组看词和短语——也谈汉语中词的划分标准,《中国语文》第2期,102—112页。

[28]王洪君1998从与自由短语的类比看“打拳”、“养病”的内部结构,《语文研究》第4期,1—11页。

[29]王洪君2000汉语的韵律词和韵律短语,《中国语文》第6期,525—536页。

[30]王洪君2001音节单双、音域展敛(重音)与语法结构类型和成分次序,《当代语言学》第4期,241—252页。

[31]王洪君2002普通话中节律边界与节律模式、语法、语用的关联,《语言学论丛》第26辑,279—300页,北京:商务印书馆。

[32]王洪君2005动物、身体两义场单字组构两字的结构模式,《语言研究》第1期,1—11页。

[33]王立2003《汉语词的社会语言学研究》,北京:商务印书馆。

[34]吴赣1998《现代汉语文章中后缀词语的动态归并》,北京工业大学人工智能研究所硕士论文。

[35]叶蜚声徐通锵1981《语言学纲要》,北京:北京大学出版社。

[36]俞士汶1999《现代汉语语料库加工——词语切分与词性标注规范与手册》,北京大学计算语言学研究所(未刊)。

[37]张家太1988汉语新词语琐议,《沈阳师范学院学报(社科版)》第2期。

[38]赵元任1979《汉语口语语法》(中译本),吕叔湘译,北京:商务印书馆。

[39]熙1980《现代汉语语法研究》,商务印书馆。

[40]熙1982《语法讲义》,北京:商务印书馆。

[41]朱亚军2001现代汉语词缀的性质及其分类研究,《汉语学习》第2期,24—28页。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 yyfangchan@163.com (举报时请带上具体的网址) 举报,一经查实,本站将立刻删除