语言应用

行业语言文化当前位置:首页 > 语言应用 > 行业语言文化 >

《北京晚报》高频词与语言的社会制约因素

来源:北京语言文字工作协会  |  发布时间:2017-01-06 16:12:27  |  浏览次数:


      本文和《<北京晚报>高频用字与社会语言生活》是姊妹篇,运用的语料是完全一样的。需要特别说明的是,本次统计区分词性,即一个词在语料中出现了两种及以上词性时,词种数按照词性来计数。例如“报告”,在语料中既作名词,又作动词,那就应该将“报告”算作两个词种,分别统计词频。周有光曾将90%的覆盖率作为高频的界限,参照此,本次统计中将词覆盖率达到90%的所有词称为高频词。

      一、高频词的统计与分析
      1.基本情况
表1:2011-2014年度高频词词种数比较
年度 高频词种数 比例
2011年 10342 27.92%
2012年 10707 19.09%
2013年 10147 19.8%
2014年 8745 30.17%
全部语料 11683 14.76%
      从表1,可以看出2011-2013年度的高频词种数量差不多都在10000词左右,2014年只有不到9000个高频词种,这是因为2014年只统计了前三个月,总词种数还不到30000个词。总的来说,《北京晚报》这几年的高频词数量比较稳定。

      2.高频词用字统计

      在11683个高频词中,排除掉阿拉伯数字,共使用汉字21863字次,计2764个字种,占全部字种数的49.12%。平均每个词由1.87个汉字构成,每个汉字平均使用7.91次。
表2:高频词用字分布
构词数 ≥100 99-80 79-50 20-49 19-10 9-3 2 1 字种数
字数 6 3 40 230 375 961 418 731 2764
比例 0.22% 0.11% 1.45% 8.32% 13.57% 34.77% 15.12% 26.45% 100%
      表2是2764个字种在高频词中的构词情况,构成100及以上个高频词的字种有6个,分别为“年、人、大、不、一、子”,在下面会有对它们具体的分析。构词数在2个以内的字种高达41.57%,其中只构成1个词的字种有731个,占字种数的26.45%,而这些字种在字区分布上主要处于低频区或靠近低频区的中频区,如“艾”(2096)、“掰”(2612)、“盏”(3031)、“钊”(3224)等,由此,我们可以推断出构词能力弱是字种使用频率低的一个重要原因。表9列出了在高频词中构词能力最强的前10个字种及其分布情况。
表3:构词能力最强的前10个字种
序号
(用字总表)
字种 构词数 分布情况
前410(50%) 411-4543(50-80%) 4544-11683(80%-90%)
13 187 5 67 115
6 170 6 62 102
10 145 3 53 89
5 136 5 31 100
2 125 10 46 69
33 110 2 31 77
16 92 2 40 50
19 88 5 39 44
15 87 6 42 39
30 79 3 33 43
       从表3,可以发现在《北京晚报》用字总表中,这10个字种的频率排在前20位的共有8个,其中排在前10的就有4个。只有“子”和“出”是排在第30位和第33位。虽然“子”和“出”的字频并不是最靠前的,但是这两个字的构词能力都很强。首先说“子”,“子”在古代汉语中指儿女,发展到现代汉语中,“子”有多个词义,而且“子”经常附加在名词、动词和形容词后,使之具有名词性,如房子、院子、样子、椅子,这类名词在日常生活中经常使用,因此“子”在高频词中属于构词能力最强的前10位也很正常。“出”在现代汉语中有13个义项,就词义而言,比另外9个都要多。除了具体的实义外,“出”还经常放在动词后,表示趋向或效果,如“展出”、“播出”、“派出”等,大大增强了它的构词能力。另外,“年”是高频词中构词能力最强的字种,这主要是由《北京晚报》的报刊性质决定的,因为新闻追求真实性、时效性、准确性,所以内容中涉及到很多时间词,“年”排在第一位就不难理解了。
        就分布情况而言,这10个字种集中分布在累积覆盖率的80%-90%之间,比例均在50%以上,最高的“不”字在这一段的比例甚至达到了73.5%。其次是在50%至80%之间,分布最少的是在核心词区,即累积覆盖率大于等于0%,小于50%。这10个字种总共构成了47个核心词,占全部核心词的11.46%,其中“一”一个字种就构成了10个核心词,占核心词的2.44%。

      3.高频词词长分析

      高频词词长最短为1字词,最长为8字词,6字词在高频词中并没有出现。词长为7字和8字的高频词各有1个,分别为“中华人民共和国”和“中央人民广播电台”,均属于专有名词。词长在两个字的高频词最多,有7900个,占所有高频词的67.62%,其次是1字词、3字词,词长在4个字及以下的高频词累积比例高达99.27%,符合现代汉语用词特点。另外,词长为5个字的高频词共83个,除了“笔记本电脑”“人民大会堂”“中国共产党”“高尔夫球场”“奥斯瓦尔德”“泰坦尼克号”“皮斯托瑞斯”“中央电视台”这9个专有名词外,其余74个全是“1996年”“2014年”这种模式的时间表达式。高频词不同词长词种数的具体比例详见表4。
表4:高频词不同词长的词种数
词长 词种数 比例 累积比例
1 2614 22.37% 22.37%
2 7900 67.62% 89.99%
3 875 7.49% 97.48%
4 209 1.79% 99.27%
5 83 0.71% 99.98%
7 1 0.01% 99.99%
8 1 0.01% 100.00%
总计 11683 100.00% 100.00%
      在高频词中的430个核心词里,长度最短为1字,最长为3字。其中1字词有223个,2字词有205个,3字词只有2个,分别为“为什么”和“越来越”两个短语。而在前2000个高频词中,1字词739个,2字词1203个,3字词48个,4字词2个,5字词虽然有8个,但均为时间表达式。由此也可以看出,使用频率越高、词长越短的大致规律。

      4.高频词词性分析

      表5列出了高频词不同词性的词种分布情况,高频词中名词仍然占了绝大比例,接近高频词词种数的一半。动词、形容词分别以25.38%、7.58%的比例紧随其后。副词、介词、连词、助词、语气词等虚词和实词中偏功能性的叹词、拟声词的比例总和为7.15%左右,还不如形容词一种词类所占的比例。由此可见,高频词中具有实在的词汇意义的实词占了绝大多数,而意义比较虚泛,且偏功能性、语法性的其他词比例甚少。而高频词中熟语的使用也很少,只有57个,占了不到0.5%的比例,这大概是受熟语词长的影响。
表5:高频词不同词性词种数
类别 词种数 比例
语素 645 5.52%
名词 5661 48.46%
动词 2965 25.38%
形容词 885 7.58%
数词 243 2.08%
量词 209 1.79%
代词 167 1.43%
叹词 3 0.03%
拟声词 3 0.03%
副词 603 5.16%
介词 70 0.60%
连词 106 0.91%
助词 29 0.25%
语气词 20 0.17%
量词词组 17 0.15%
熟语 57 0.49%
总计 11683 100.00%

 

二、年度高频词与社会生活热点

       高频词具有稳定性,因此历年来的高频词统计中,相同的词种占了绝大部分,且多为基本词汇,独用词种数较少。
      1.基本情况
      从表6,我们可以看出2011-2014年的高频词独用词种数比例不一,其中2011年最高,接近20%。2013年最低,不到13%。独用词中名词,尤其是专有名词居多。
表6:2011-2014年度高频词词种数比较
年度 独用词种数 比例
2011年 1997 19.31%
2012年 1769 16.52%
2013年 1313 12.94%
2014年 1222 13.97%
       独用词种数的出现往往取决于当年大众的关注焦点,也就是社会生活的热点。因此我们通过比较历年来的独用词种数,不仅可以了解当年的用词情况,还能知晓当年的“大事记”。由于数量众多,这里以高频词独用词中使用频率的前120位为范围,从中挑选出特色词,并以此为基础,挖掘出语言生活中的社会现象。详情如表7所示。
表7:2011-2014年度高频词独用词中的特色词
年度 前120个高频独用词中具有年度特色的词举例
2011 郑渊洁、辛亥革命、溥仪、袁世凯、油价、辛亥、紫禁城、冯玉祥、王妃、梁山、 1911年、汪精卫、哈利、卢作孚、清政府、革命党、好汉、同盟会、水浒传、武昌起义
2012 火星、法医、雷雨、火柴、赛事、陈祖德、林兆华、小剧场、莫言、焦菊隐、围棋、京味、雷锋、索马里、突击队、胶囊、末日、龙年、摩加迪沙、瑞典、火炬、海啸、婚姻法、明胶、开幕式
2013 段振豪、外援、张国荣、贝克汉姆、足协、卡马乔、达喀尔、助学金、恒大、肯尼迪、恐怖主义、伊拉克、斯诺登、奥斯瓦尔德、郑晓龙、冤假错案
2014 几内亚、医疗队、付丽、张昆鹏、童星、姚贝娜、速递、邓波儿、家风、北约、英拉、反贪、轨道、交通、医护、值班、华约、净化器、大操大办
 
        2.辛亥革命纪念活动与2011年度高频词
        2011年正好是辛亥革命的100周年。10月9日,北京人民大会堂举行了纪念辛亥革命100周年大会,全国媒体都聚焦于辛亥革命及其纪念活动,所以《北京晚报》在2011出现了“辛亥革命、溥仪、袁世凯、辛亥、紫禁城、冯玉祥、1911年、汪精卫、卢作孚、清政府、革命党、同盟会”等词。2011年4月19日,英国威廉王子和凯特王妃的世纪婚礼同样举世瞩目,故2011独现词中出现了“王妃”。“油价”反映了2011年不稳定的原油价格。另外,“梁山、好汉、水浒传”和“哈利”则分别反映了2011年的电视剧《新水浒传》和哈利波特系列电影终结篇《哈利·波特与死亡圣器(下)》的火热程度。这些无一不是当年国际国内的热点事件。
       3.北京人艺院庆活动、莫言获奖等与2012年度高频词
       2012年是北京人民艺术剧院(简称“北京人艺”)成立的60周年,北京人艺是国家级的艺术殿堂,从2012年年初就启动了北京人艺建院六十周年的系列庆祝活动,《北京晚报》里出现了“雷雨、林兆华、小剧场、焦菊隐、京味”等词,它们或是北京人艺上演的剧目,或是北京人艺的导演,或是北京人艺的特色,都与北京人艺密切相关。2012年10月11日,瑞典文学院授予了莫言诺贝尔文学奖,这是迄今为止第一个真正意义上属于中国的诺贝尔奖,引发了全国轰动,“莫言”也成为了《北京晚报》2012年的高频词。2012年也是雷锋逝世的50周年,全国上下纷纷开展了“学雷锋”活动,“雷锋”在2012年成为高频词正是反映了这一现象。“赛事、火炬、开幕式”等词的出现则是与2012年伦敦举办的第30届奥运会有关。“索马里、摩加迪沙”反映了2012年2月8日发生在索马里首都摩加迪沙的汽车炸弹袭击事件。“胶囊、明胶”则是与引发了热议的“毒胶囊”事件和“老酸奶、果冻添加工业明胶”事件有关。另外,“婚姻法”反映了2012年热点社会事件之一,即新《婚姻法》的颁布。而“火星、末日、火柴、瑞典”则涉及到2012年的“末日”传言,这一传言宣称地球将在2012年12月21日发生重大灾难,或出现“连续的三天黑夜”等异象,因此“移居到火星”、“世界末日”、“疯抢火柴、蜡烛”“瑞典火柴销售额大幅增长”等相关新闻便接踵而至。
       4.足坛要闻、助学金政策等与2013年度主题词
      “外援、贝克汉姆、卡马乔、足协、恒大”等的出现反映了2013年足坛的重大新闻,比如2013年5月16日,贝克汉姆正式宣布将退出职业足坛,引起全世界关注。6月,国足主教练卡马乔与中国足协解约;8月,北京律师熊智向中国国家税务总局提交实名举报,举报卡马乔团队偷逃税款,要求严惩足协;11月,广州恒大足球俱乐部获得了亚冠联赛的冠军,取得了历史最好成绩。2013年也是美国总统肯尼迪遇刺身亡的50周年,“肯尼迪、恐怖主义、奥斯瓦尔德”的出现就是基于这一事件。2013年司法机关平反了5起,涉及14名当事人的冤假错案,并启动防冤案机制,响应了十八大以来习近平总书记在法治建设工作中强调“要努力让人民群众在每一个司法案件中都感受到公平正义”的号召,“冤假错案”成为2013年的高频词便是由于这个原因。另外,“助学金”则反映了2013年财政部、教育部将研究生普通奖学金调整为研究生“国家助学金”,并规定博士生的标准为每生每年不低于1万元,硕士生的标准为每生每年不低于6000元的教育政策。
        5.社会热点事件与2014年度主题词
2014年只统计了3个月的语料,所以独用词也较少。“付丽、张昆鹏、速递”和“医护、值班”分别反映了中通速递员张昆鹏入室谋财害命和2014年2月25日南京医护人员被打这两个恶性社会事件。“反贪、大操大办”则是由于习近平总书记颁布的关于《加强党员领导干部廉洁自律严禁大操大办宴席的规定》。2014年,姚贝娜登上中央电视台马年春晚,并在零点钟声敲响前献唱压轴歌曲《天耀中华》,成为人们关注的焦点,“姚贝娜”成为2014的高频词也与此相关。2014年2月10日,美国曾经的著名童星邓波儿去世,引发了人们对她的怀念和追忆,“童星、邓波儿”则是这一事件的关键词。
 
       前面已经提到,2011-2014年高频词中的独现词以专有名词居多,而这些专有名词往往反映了当年社会的热点、焦点人物或事件。这些焦点、热点来自社会生活的方方面面,既囊括国际焦点,又含有国内热点;既涵盖政治、经济热点,又网罗社会、生活事件;既涉及体育、娱乐焦点,又包括文化、教育热点。言而总之,语言生活不仅来自于社会生活,也全面反映了社会生活。
 
 
 
 
 
 
 
 
 
 
 
 
 
附录:《北京晚报》词的总体使用情况
一、基本情况
1.词的年度使用情况
(1)分词单位总数:由分词软件对语料切分得到的字符串的总数为4209587次。其中标点符号出现649969次,其他分词单位出现3559618次。
(2)总词次:在排除纯阿拉伯数字后,得到总词次共计3530389次。
(3)词种数:79158个。
(4)2011-2014年度词使用情况:和汉字的使用情况相似,由于2011、2014年的语料较2012、2013年少,因此2011、2014年得出的总词次和词种数明显要少于另外两年。而2012、2013年的词种数都稳定在50000词以上,其中2012年的词种数比2013年多了4833个。具体数据见表1。
表1:2011-2014年度词语使用情况

年度 总词次 词种数  
 
2011年 473368 37038  
2012年 1476810 56080  
2013年 1248944 51247  
2014年 331267 28985  
总计 3530389 79158  

 

2.词种覆盖率
表2分别统计了不同覆盖率的词种数。
表2:不同覆盖率的词种数

覆盖率(%) 词种数 比例(%)
10 3 0.00%
20 20 0.03%
30 65 0.08%
40 173 0.22%
50 430 0.54%
60 962 1.22%
70 2054 2.59%
80 4543 5.74%
90 11683 14.76%
91 13081 16.52%
92 14734 18.61%
93 16708 21.11%
94 19102 24.13%
95 22077 27.89%
96 25859 32.67%
97 30898 39.03%
98 38161 48.21%
99 50330 63.58%
100 79158 100%
由表可知,“的”“是”“在”是频率最高的前3个词,它们占词种数的比例几乎为0,却覆盖了全部语料的10%。仅430个词种,就已经覆盖了语料的一半左右。而不到15%的词种,累积覆盖率已经高达90%。覆盖率在99%-100%这一段的词种数有28828个,占词种数的36.42%,却只覆盖了语料的1%。由此可见,读者只要掌握一万多个词,就可以顺畅地阅读《北京晚报》了。
除此之外,我们也可以看到,词种数的第一次大幅增长出现在80%以后,共增加了7140个词种,提升约9.02个百分点。接下来90%~98%这段,词种数稳步增长,增长幅度在2%~9%之间。最后98%~100%这段,词种数迅速增长了41001个,增长幅度超过51个百分点。意味着,超过一半的词种数只占了全部语料的2%。由此得出,频率越高的词种,效用也越大。
根据累积词频,可以将词种分到四个不同的词区。累积频率不超过50%的词处于极高频词区,这一词区的词虽然数量少,但使用频率却极高,可以说是《北京晚报》里的核心词。累积频率大于50%,但却不超过90%的词是高频词。为了方便称呼,可以把极高频词区和高频词区里的词都统称为高频词。累积频率在90%-99%的词是中频词,使用频率在高频词和低频词之间,累积频率越靠近99%,使用频率越低。最后99%-100%这一段的词是低频词,数量占了极大部分,但使用频率却最低。词区的具体分布情况见表3。
表3:2011—2014年度词区分布

字区 词种数量 比例
核心词区
(0-50%)
全部语料 430 0.54%
2011年 407 1.10%
2012年 433 0.77%
2013年 419 0.82%
2014年 407 1.40%
高频词区(50%-90%) 全部语料 11253 14.22%
2011年 9935 26.82%
2012年 10274 18.32%
2013年 9728 18.98%
2014年 8338 28.77%
中频词区(90%-99%) 全部语料 39077 48.82%
2011年 21963 59.30%
2012年 30604 54.57%
2013年 28610 55.83%
2014年 16927 58.40%
低频词区
(99%-100%)
全部语料 29828 36.42%
2011年 4734 12.78%
2012年 14769 26.34%
2013年 12490 24.37%
2014年 3313 11.43%
从上表,我们可以看出高频词(包括核心词区和高频词区)中占总词种数的14.76%,却覆盖了全部语料的90%,其中的核心词区以0.54的比例覆盖了一半的语料,其使用频率之高显而易见。中频词区占的比例达到了48.82%,接近词种总数的一半,低频区也高达36.42%。由此可见,《北京晚报》的词种集中在中频词区和低频词区,高频词数量少,低频词占了绝大多数。如果排除2011和2014年,单看2012和2013年,高频词稳定在10000-11000个左右,比例在19%-20%之间,其他几个词区总体来说也比较稳定。
3.不同频次范围的词种情况
从表4中,我们可以看出在全部语料中只使用过一次的词语就占了28.25%。频次不超过5的词种数占全部词种的60%左右。频次不超过20的词种数占81.96%。频次在100以下的词种就已经达到94.67%。频次不超过1000的词种高达99.48%,接近100%了。频次在1000以上的词种不到1%。低频词的词种数有很多,极高频词只有极少一部分,不到500个。
表4:不同频次范围的词种数

频次 词种数 比例(%) 累计(%)
1 22356 28.25% 28.25%
2 9987 12.62% 40.86%
3 6341 8.01% 48.87%
4 4707 5.95% 54.82%
5 3483 4.40% 59.22%
6-10 10030 12.67% 71.89%
11-20 7990 10.09% 81.96%
21-100 10047 12.69% 94.67%
101-1000 3803 4.80% 99.48%
1001以上 414 0.52% 100.00%
 
 
 
(李秋逸,教育部语言文字应用研究所)
 

网站首页  |  关于协会  |  新闻动态  |  会员风采  |  语文建设  |  语言应用  |  语言博览  |  友情链接  |  联系我们

Copyright © 2016  北京语言文字工作协会  版权所有
地址:北京市东城区和平里七区16号楼院610室  电话:010-84504550
京ICP备16040353号-1 京公网安备11010102004415