yixuan没有过多的时间从《全宋词》文本中做人工统计,于是想出一个土办法。宋词的句子都很短,最常见的词语一般是两三个字,比如“犹解嫁东风”这句话,可能的2字组合是“犹解”“解嫁”“嫁东”“东风”,3字组合是“犹解嫁”“解嫁东”“嫁东风”。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。根据这个思路,yixuan用R语言编出一个程序,统计出《全宋词》中出现频率最高的100个词语。
在“yixuan”贴出的高频词中,排在前面的分别是:
1、(无效字符)(1485)
2、东风(1382)
3、何处(1230)
4、人间(1202)
5、风流(857)
6、归去(812)
7、春风(802)
8、西风(779)
9、归来(771)
10、江南(765)
而里面会有很多无意义字的组合,不过这类词语本身的出现就是一个偶然,所以可以预期的是它们整体的频数会很低,使用频率极少。

