各种文体中出现频率最高的四字词

注:本文转载自matrix67.com

今天,我拿到了梦寐以求的大规模中文语料库,总大小超过 1 G ,覆盖了各个时代各种文体的中文资料。有了这个语料库后,我便能完成很多早就想做的事情,比方说,统计各种文体中出现频率最高的四字词。给定一段文本后,基本的统计过程如下:

1. 统计所有连续四字的出现频数;

2. 按频数对所有四字用例从高到低排序;

3. 删掉所有包含非汉字字符(比如数字、标点)的四字用例;

4. 删掉所有明显不成词或者不成词组的四字用例(这一步有人为因素,因此下面的数据并不是 100% 客观的);

5. 列出频数最高的 10 个四字词。

所选用的统计对象基本上都是数十万字的篇幅,所有步骤都是用 Mathematica 实现的。下面是结果:

《物种起源》

自然选择、生活条件、一个物种、博物学者、这种情形、我们可以、如果我们、发生变异、这个问题、同一物种

《梦的解析》

我们可以、歇斯底里、梦的内容、可以看出、精神分析、梦的形成、梦的解析、俄狄浦斯、愿望达成、典型的梦

《自私的基因》

雄性个体、雌性个体、生存机器、利他行为、自然选择、这种情况、亲缘关系、我们可以、复制基因、一个个体

《时间简史》

爱因斯坦、量子力学、统一理论、事件视界、人们可以、不确定性、弗利德曼、早期宇宙、科学定律、时间箭头

《资本论》

剩余价值、资本主义、生产资料、使用价值、劳动时间、劳动过程、另一方面、生活资料、生产过程、剩余劳动

《全球通史》

欧亚大陆、伊斯兰教、世界大战、民族主义、印第安人、土耳其人、葡萄牙人、阿拉伯人、澳大利亚、罗马帝国

《邓小/平文选(一)》

这个问题、社会主义、资产阶级、统一战线、代表大会、共/产党员、少数民族、党的领导、群众运动、人民群众

《谁动了我的奶酪》

这个故事、新的奶酪、在迷宫中、觉得自己、没有奶酪、我的奶酪、害怕改变、在墙上写、我们公司、找到奶酪

《西游记(上)》

行者笑道、齐天大圣、有诗为证、毕竟不知、摇身一变、行者闻言、观音菩萨、按落云头、三藏闻言、厉声高叫

《1984》

从来没有、什么东西、没有什么、思想警察、什么地方、双重思想、他们两人、杜松子酒、泰晤士报、没有办法

《股市宝典》

证券分析、日成交量、证券市场、技术分析、十日成交、五日成交、股票市场、上市公司、趋近交叉、波浪理论

《实用软件工程》

软件开发、软件工程、数据流图、测试用例、程序设计、维护工作、需求分析、程序结构、开发工作、规格说明

《李敖有话说》

言论/自由、看到没有、为什么呢、告诉大家、什么原因、给大家看、换句话说、为什么不、可以看到、我们可以

《易中天品三国》

这个时候、三国演义、这样一个、是什么呢、这个事情、我们知道、这个地方、投降曹操、为什么要、三顾茅庐

《故事会》2005年

怎么回事、就在这时、不好意思、哈哈大笑、中年男子、什么时候、不一会儿、这天晚上、莫名其妙、大吃一惊

1982年北京话口语调查记录

那时候儿、这个这个、那个那个、解放以后、没有什么、就是那个、儿媳妇儿、也不知道、就是这个、我那会儿

《人民日报》2000年4月份新闻版

社会主义、领导干部、思想政治、一个中国、巴勒斯坦、中国政府、中国人民、改革开放、全国人大、两国人民

 

收藏 评论

相关文章

可能感兴趣的话题



直接登录
跳到底部
返回顶部