宋词密码的统计方法

yixuan没有过多的时间从《全宋词》文本中做人工统计,于是想出一个土办法。宋词的句子都很短,最常见的词语一般是两三个字,比如“犹解嫁东风”这句话,可能的2字组合是“犹解”“解嫁”“嫁东”“东风”,3字组合是“犹解嫁”“解嫁东”“嫁东风”。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。根据这个思路,yixuan用R语言编出一个程序,统计出《全宋词》中出现频率最高的100个词语。

在“yixuan”贴出的高频词中,排在前面的分别是:

1、(无效字符)(1485)

2、东风(1382)

3、何处(1230)

4、人间(1202)

5、风流(857)

6、归去(812)

7、春风(802)

8、西风(779)

9、归来(771)

10、江南(765)

而里面会有很多无意义字的组合,不过这类词语本身的出现就是一个偶然,所以可以预期的是它们整体的频数会很低,使用频率极少。

宋词密码的统计方法