行业语言文化当前位置:首页 > 语言应用 > 行业语言文化 >
《北京晚报》高频词与语言的社会制约因素
来源:北京语言文字工作协会 | 发布时间:2017-01-06 16:12:27 | 浏览次数:
本文和《<北京晚报>高频用字与社会语言生活》是姊妹篇,运用的语料是完全一样的。需要特别说明的是,本次统计区分词性,即一个词在语料中出现了两种及以上词性时,词种数按照词性来计数。例如“报告”,在语料中既作名词,又作动词,那就应该将“报告”算作两个词种,分别统计词频。周有光曾将90%的覆盖率作为高频的界限,参照此,本次统计中将词覆盖率达到90%的所有词称为高频词。
一、高频词的统计与分析
1.基本情况
表1:2011-2014年度高频词词种数比较
年度 | 高频词种数 | 比例 |
2011年 | 10342 | 27.92% |
2012年 | 10707 | 19.09% |
2013年 | 10147 | 19.8% |
2014年 | 8745 | 30.17% |
全部语料 | 11683 | 14.76% |
2.高频词用字统计
在11683个高频词中,排除掉阿拉伯数字,共使用汉字21863字次,计2764个字种,占全部字种数的49.12%。平均每个词由1.87个汉字构成,每个汉字平均使用7.91次。表2:高频词用字分布
构词数 | ≥100 | 99-80 | 79-50 | 20-49 | 19-10 | 9-3 | 2 | 1 | 字种数 |
字数 | 6 | 3 | 40 | 230 | 375 | 961 | 418 | 731 | 2764 |
比例 | 0.22% | 0.11% | 1.45% | 8.32% | 13.57% | 34.77% | 15.12% | 26.45% | 100% |
表3:构词能力最强的前10个字种
序号 (用字总表) |
字种 | 构词数 | 分布情况 | ||
前410(50%) | 411-4543(50-80%) | 4544-11683(80%-90%) | |||
13 | 年 | 187 | 5 | 67 | 115 |
6 | 人 | 170 | 6 | 62 | 102 |
10 | 大 | 145 | 3 | 53 | 89 |
5 | 不 | 136 | 5 | 31 | 100 |
2 | 一 | 125 | 10 | 46 | 69 |
33 | 子 | 110 | 2 | 31 | 77 |
16 | 上 | 92 | 2 | 40 | 50 |
19 | 生 | 88 | 5 | 39 | 44 |
15 | 学 | 87 | 6 | 42 | 39 |
30 | 出 | 79 | 3 | 33 | 43 |
就分布情况而言,这10个字种集中分布在累积覆盖率的80%-90%之间,比例均在50%以上,最高的“不”字在这一段的比例甚至达到了73.5%。其次是在50%至80%之间,分布最少的是在核心词区,即累积覆盖率大于等于0%,小于50%。这10个字种总共构成了47个核心词,占全部核心词的11.46%,其中“一”一个字种就构成了10个核心词,占核心词的2.44%。
3.高频词词长分析
高频词词长最短为1字词,最长为8字词,6字词在高频词中并没有出现。词长为7字和8字的高频词各有1个,分别为“中华人民共和国”和“中央人民广播电台”,均属于专有名词。词长在两个字的高频词最多,有7900个,占所有高频词的67.62%,其次是1字词、3字词,词长在4个字及以下的高频词累积比例高达99.27%,符合现代汉语用词特点。另外,词长为5个字的高频词共83个,除了“笔记本电脑”“人民大会堂”“中国共产党”“高尔夫球场”“奥斯瓦尔德”“泰坦尼克号”“皮斯托瑞斯”“中央电视台”这9个专有名词外,其余74个全是“1996年”“2014年”这种模式的时间表达式。高频词不同词长词种数的具体比例详见表4。表4:高频词不同词长的词种数
词长 | 词种数 | 比例 | 累积比例 |
1 | 2614 | 22.37% | 22.37% |
2 | 7900 | 67.62% | 89.99% |
3 | 875 | 7.49% | 97.48% |
4 | 209 | 1.79% | 99.27% |
5 | 83 | 0.71% | 99.98% |
7 | 1 | 0.01% | 99.99% |
8 | 1 | 0.01% | 100.00% |
总计 | 11683 | 100.00% | 100.00% |
4.高频词词性分析
表5列出了高频词不同词性的词种分布情况,高频词中名词仍然占了绝大比例,接近高频词词种数的一半。动词、形容词分别以25.38%、7.58%的比例紧随其后。副词、介词、连词、助词、语气词等虚词和实词中偏功能性的叹词、拟声词的比例总和为7.15%左右,还不如形容词一种词类所占的比例。由此可见,高频词中具有实在的词汇意义的实词占了绝大多数,而意义比较虚泛,且偏功能性、语法性的其他词比例甚少。而高频词中熟语的使用也很少,只有57个,占了不到0.5%的比例,这大概是受熟语词长的影响。表5:高频词不同词性词种数
类别 | 词种数 | 比例 |
语素 | 645 | 5.52% |
名词 | 5661 | 48.46% |
动词 | 2965 | 25.38% |
形容词 | 885 | 7.58% |
数词 | 243 | 2.08% |
量词 | 209 | 1.79% |
代词 | 167 | 1.43% |
叹词 | 3 | 0.03% |
拟声词 | 3 | 0.03% |
副词 | 603 | 5.16% |
介词 | 70 | 0.60% |
连词 | 106 | 0.91% |
助词 | 29 | 0.25% |
语气词 | 20 | 0.17% |
量词词组 | 17 | 0.15% |
熟语 | 57 | 0.49% |
总计 | 11683 | 100.00% |
二、年度高频词与社会生活热点
高频词具有稳定性,因此历年来的高频词统计中,相同的词种占了绝大部分,且多为基本词汇,独用词种数较少。1.基本情况
从表6,我们可以看出2011-2014年的高频词独用词种数比例不一,其中2011年最高,接近20%。2013年最低,不到13%。独用词中名词,尤其是专有名词居多。
表6:2011-2014年度高频词词种数比较
年度 | 独用词种数 | 比例 |
2011年 | 1997 | 19.31% |
2012年 | 1769 | 16.52% |
2013年 | 1313 | 12.94% |
2014年 | 1222 | 13.97% |
表7:2011-2014年度高频词独用词中的特色词
年度 | 前120个高频独用词中具有年度特色的词举例 |
2011 | 郑渊洁、辛亥革命、溥仪、袁世凯、油价、辛亥、紫禁城、冯玉祥、王妃、梁山、 1911年、汪精卫、哈利、卢作孚、清政府、革命党、好汉、同盟会、水浒传、武昌起义 |
2012 | 火星、法医、雷雨、火柴、赛事、陈祖德、林兆华、小剧场、莫言、焦菊隐、围棋、京味、雷锋、索马里、突击队、胶囊、末日、龙年、摩加迪沙、瑞典、火炬、海啸、婚姻法、明胶、开幕式 |
2013 | 段振豪、外援、张国荣、贝克汉姆、足协、卡马乔、达喀尔、助学金、恒大、肯尼迪、恐怖主义、伊拉克、斯诺登、奥斯瓦尔德、郑晓龙、冤假错案 |
2014 | 几内亚、医疗队、付丽、张昆鹏、童星、姚贝娜、速递、邓波儿、家风、北约、英拉、反贪、轨道、交通、医护、值班、华约、净化器、大操大办 |
2011年正好是辛亥革命的100周年。10月9日,北京人民大会堂举行了纪念辛亥革命100周年大会,全国媒体都聚焦于辛亥革命及其纪念活动,所以《北京晚报》在2011出现了“辛亥革命、溥仪、袁世凯、辛亥、紫禁城、冯玉祥、1911年、汪精卫、卢作孚、清政府、革命党、同盟会”等词。2011年4月19日,英国威廉王子和凯特王妃的世纪婚礼同样举世瞩目,故2011独现词中出现了“王妃”。“油价”反映了2011年不稳定的原油价格。另外,“梁山、好汉、水浒传”和“哈利”则分别反映了2011年的电视剧《新水浒传》和哈利波特系列电影终结篇《哈利·波特与死亡圣器(下)》的火热程度。这些无一不是当年国际国内的热点事件。
3.北京人艺院庆活动、莫言获奖等与2012年度高频词
2012年是北京人民艺术剧院(简称“北京人艺”)成立的60周年,北京人艺是国家级的艺术殿堂,从2012年年初就启动了北京人艺建院六十周年的系列庆祝活动,《北京晚报》里出现了“雷雨、林兆华、小剧场、焦菊隐、京味”等词,它们或是北京人艺上演的剧目,或是北京人艺的导演,或是北京人艺的特色,都与北京人艺密切相关。2012年10月11日,瑞典文学院授予了莫言诺贝尔文学奖,这是迄今为止第一个真正意义上属于中国的诺贝尔奖,引发了全国轰动,“莫言”也成为了《北京晚报》2012年的高频词。2012年也是雷锋逝世的50周年,全国上下纷纷开展了“学雷锋”活动,“雷锋”在2012年成为高频词正是反映了这一现象。“赛事、火炬、开幕式”等词的出现则是与2012年伦敦举办的第30届奥运会有关。“索马里、摩加迪沙”反映了2012年2月8日发生在索马里首都摩加迪沙的汽车炸弹袭击事件。“胶囊、明胶”则是与引发了热议的“毒胶囊”事件和“老酸奶、果冻添加工业明胶”事件有关。另外,“婚姻法”反映了2012年热点社会事件之一,即新《婚姻法》的颁布。而“火星、末日、火柴、瑞典”则涉及到2012年的“末日”传言,这一传言宣称地球将在2012年12月21日发生重大灾难,或出现“连续的三天黑夜”等异象,因此“移居到火星”、“世界末日”、“疯抢火柴、蜡烛”“瑞典火柴销售额大幅增长”等相关新闻便接踵而至。
4.足坛要闻、助学金政策等与2013年度主题词
“外援、贝克汉姆、卡马乔、足协、恒大”等的出现反映了2013年足坛的重大新闻,比如2013年5月16日,贝克汉姆正式宣布将退出职业足坛,引起全世界关注。6月,国足主教练卡马乔与中国足协解约;8月,北京律师熊智向中国国家税务总局提交实名举报,举报卡马乔团队偷逃税款,要求严惩足协;11月,广州恒大足球俱乐部获得了亚冠联赛的冠军,取得了历史最好成绩。2013年也是美国总统肯尼迪遇刺身亡的50周年,“肯尼迪、恐怖主义、奥斯瓦尔德”的出现就是基于这一事件。2013年司法机关平反了5起,涉及14名当事人的冤假错案,并启动防冤案机制,响应了十八大以来习近平总书记在法治建设工作中强调“要努力让人民群众在每一个司法案件中都感受到公平正义”的号召,“冤假错案”成为2013年的高频词便是由于这个原因。另外,“助学金”则反映了2013年财政部、教育部将研究生普通奖学金调整为研究生“国家助学金”,并规定博士生的标准为每生每年不低于1万元,硕士生的标准为每生每年不低于6000元的教育政策。
5.社会热点事件与2014年度主题词
2014年只统计了3个月的语料,所以独用词也较少。“付丽、张昆鹏、速递”和“医护、值班”分别反映了中通速递员张昆鹏入室谋财害命和2014年2月25日南京医护人员被打这两个恶性社会事件。“反贪、大操大办”则是由于习近平总书记颁布的关于《加强党员领导干部廉洁自律严禁大操大办宴席的规定》。2014年,姚贝娜登上中央电视台马年春晚,并在零点钟声敲响前献唱压轴歌曲《天耀中华》,成为人们关注的焦点,“姚贝娜”成为2014的高频词也与此相关。2014年2月10日,美国曾经的著名童星邓波儿去世,引发了人们对她的怀念和追忆,“童星、邓波儿”则是这一事件的关键词。
前面已经提到,2011-2014年高频词中的独现词以专有名词居多,而这些专有名词往往反映了当年社会的热点、焦点人物或事件。这些焦点、热点来自社会生活的方方面面,既囊括国际焦点,又含有国内热点;既涵盖政治、经济热点,又网罗社会、生活事件;既涉及体育、娱乐焦点,又包括文化、教育热点。言而总之,语言生活不仅来自于社会生活,也全面反映了社会生活。
附录:《北京晚报》词的总体使用情况
一、基本情况
1.词的年度使用情况
(1)分词单位总数:由分词软件对语料切分得到的字符串的总数为4209587次。其中标点符号出现649969次,其他分词单位出现3559618次。
(2)总词次:在排除纯阿拉伯数字后,得到总词次共计3530389次。
(3)词种数:79158个。
(4)2011-2014年度词使用情况:和汉字的使用情况相似,由于2011、2014年的语料较2012、2013年少,因此2011、2014年得出的总词次和词种数明显要少于另外两年。而2012、2013年的词种数都稳定在50000词以上,其中2012年的词种数比2013年多了4833个。具体数据见表1。
表1:2011-2014年度词语使用情况
年度 | 总词次 | 词种数 | |
2011年 | 473368 | 37038 | |
2012年 | 1476810 | 56080 | |
2013年 | 1248944 | 51247 | |
2014年 | 331267 | 28985 | |
总计 | 3530389 | 79158 |
2.词种覆盖率
表2分别统计了不同覆盖率的词种数。
表2:不同覆盖率的词种数
覆盖率(%) | 词种数 | 比例(%) |
10 | 3 | 0.00% |
20 | 20 | 0.03% |
30 | 65 | 0.08% |
40 | 173 | 0.22% |
50 | 430 | 0.54% |
60 | 962 | 1.22% |
70 | 2054 | 2.59% |
80 | 4543 | 5.74% |
90 | 11683 | 14.76% |
91 | 13081 | 16.52% |
92 | 14734 | 18.61% |
93 | 16708 | 21.11% |
94 | 19102 | 24.13% |
95 | 22077 | 27.89% |
96 | 25859 | 32.67% |
97 | 30898 | 39.03% |
98 | 38161 | 48.21% |
99 | 50330 | 63.58% |
100 | 79158 | 100% |
除此之外,我们也可以看到,词种数的第一次大幅增长出现在80%以后,共增加了7140个词种,提升约9.02个百分点。接下来90%~98%这段,词种数稳步增长,增长幅度在2%~9%之间。最后98%~100%这段,词种数迅速增长了41001个,增长幅度超过51个百分点。意味着,超过一半的词种数只占了全部语料的2%。由此得出,频率越高的词种,效用也越大。
根据累积词频,可以将词种分到四个不同的词区。累积频率不超过50%的词处于极高频词区,这一词区的词虽然数量少,但使用频率却极高,可以说是《北京晚报》里的核心词。累积频率大于50%,但却不超过90%的词是高频词。为了方便称呼,可以把极高频词区和高频词区里的词都统称为高频词。累积频率在90%-99%的词是中频词,使用频率在高频词和低频词之间,累积频率越靠近99%,使用频率越低。最后99%-100%这一段的词是低频词,数量占了极大部分,但使用频率却最低。词区的具体分布情况见表3。
表3:2011—2014年度词区分布
字区 | 词种数量 | 比例 | |
核心词区 (0-50%) |
全部语料 | 430 | 0.54% |
2011年 | 407 | 1.10% | |
2012年 | 433 | 0.77% | |
2013年 | 419 | 0.82% | |
2014年 | 407 | 1.40% | |
高频词区(50%-90%) | 全部语料 | 11253 | 14.22% |
2011年 | 9935 | 26.82% | |
2012年 | 10274 | 18.32% | |
2013年 | 9728 | 18.98% | |
2014年 | 8338 | 28.77% | |
中频词区(90%-99%) | 全部语料 | 39077 | 48.82% |
2011年 | 21963 | 59.30% | |
2012年 | 30604 | 54.57% | |
2013年 | 28610 | 55.83% | |
2014年 | 16927 | 58.40% | |
低频词区 (99%-100%) |
全部语料 | 29828 | 36.42% |
2011年 | 4734 | 12.78% | |
2012年 | 14769 | 26.34% | |
2013年 | 12490 | 24.37% | |
2014年 | 3313 | 11.43% |
3.不同频次范围的词种情况
从表4中,我们可以看出在全部语料中只使用过一次的词语就占了28.25%。频次不超过5的词种数占全部词种的60%左右。频次不超过20的词种数占81.96%。频次在100以下的词种就已经达到94.67%。频次不超过1000的词种高达99.48%,接近100%了。频次在1000以上的词种不到1%。低频词的词种数有很多,极高频词只有极少一部分,不到500个。
表4:不同频次范围的词种数
频次 | 词种数 | 比例(%) | 累计(%) |
1 | 22356 | 28.25% | 28.25% |
2 | 9987 | 12.62% | 40.86% |
3 | 6341 | 8.01% | 48.87% |
4 | 4707 | 5.95% | 54.82% |
5 | 3483 | 4.40% | 59.22% |
6-10 | 10030 | 12.67% | 71.89% |
11-20 | 7990 | 10.09% | 81.96% |
21-100 | 10047 | 12.69% | 94.67% |
101-1000 | 3803 | 4.80% | 99.48% |
1001以上 | 414 | 0.52% | 100.00% |
(李秋逸,教育部语言文字应用研究所)