d*******o 发帖数: 493 | 1 【 以下文字转载自 Headline 讨论区 】
发信人: inews (inews), 信区: Headline
标 题: 网友算出99个宋词常用语 密码在手三秒作诗赋词
发信站: BBS 未名空间站 (Thu Dec 1 19:38:01 2011, 美东)
据《扬子晚报》报道,你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为有一位理科生“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!
频率分析算出宋词高频词
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是个理科生。
随后,“yixuan”贴出了他算出来的高频词,排在前面的分别是:1.14852.东风(1382)3.何处(1230)4.人间(1202)5、风流(857)6、归去(812)7.春风(802)8.西风(779)9.归来(771)10.江南(765)……至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”这个结果一出来,一位网友就一语道破了“玄机”,“原来,最流行的宋词就是‘东风何处在人间’啊!”
生日数字也能改编成诗词
还有更绝的呢!署名为“达芬奇的鸡蛋”的果壳网友不知怎么地,就想到了拿大家都会背一点的圆周率进行创作,两个数字一断,对照高频词表,一首“华丽丽”的词就出来了!还附上了说明,特别像模像样。
看完这首诗,网友们一边膜拜,一边自己的创作灵感也被打开了。“丘寒”留言道:“试着用某个号码创作了一首:天上相思,芳草年年,昨夜江南,回首一笑多情。”“零Ronnie”很有创作激情:“我的生日:年年江上,江南春风;我的手机号:明月芳草去年,江南阑干归去……还真挺上口的!我也能做诗人了哈哈!”
理科宅男欢呼消灭文科生
可是这么一来,文科生又不淡定了,一群文科生跳起来反击。“雯名霞迩”大叫:“统统拖出去,斩了!这让学中文的人情何以堪啊!”“Rockfish”代表理科生还击:“理科宅男们消灭文科生的日子到来了!拿起你的计算器,消灭文艺青年吧!”“可可”童鞋呼唤:“就让科技小清新来得更猛烈些吧!”
还有一群网友七嘴八舌讨论着。“沌世界”淡定地说:“不知宋词的粉丝看了是不是有一种偶像破灭的感觉。”“家杰仕”童鞋也总结道:“文艺男女已经阻止不了技术宅作诗了!”
网友制作的宋词高频词汇和数字代码
1 空 21 一笑 41 深处 61 一片 81 不是
2 东风 22 黄昏 42 时节 62 桃李 82 时候
3 何处 23 当年 43 平生 63 人生 83 肠断
4 人间 24 天涯 44 凄凉 64 十分 84 富贵
5 风流 25 相逢 45 春色 65 心事 85 蓬莱
6 归去 26 芳草 46 匆匆 66 黄花 86 昨夜
7 春风 27 尊前 47 功名 67 一声 87 行人
8 西风 28 一枝 48 一点 68 佳人 88 今夜
9 归来 29 风雨 49 无限 69 长安 89 谁知
10 江南 30 流水 50 今日 70 东君 90 不似
11 相思 31 依旧 51 天上 71 断肠 91 江上
12 梅花 32 风吹 52 杨柳 72 而今 92 悠悠
13 千里 33 风月 53 西湖 73 鸳鸯 93 几度
14 回首 34 多情 54 桃花 74 为谁 94 青山
15 明月 35 故人 55 扁舟 75 十年 95 何时
16 多少 36 当时 56 消息 76 去年 96 天气
17 如今 37 无人 57 憔悴 77 少年 97 惟有
18 阑干 38 斜阳 58 何事 78 海棠 98 一曲
19 年年 39 不知 59 芙蓉 79 寂寞 99 月明
20 万里 40 不见 60 神仙 80 无情 100 往事
网友习作
《清平乐·圆周率》π=3.1415926……
(1415)回首明月,(一看就是抒情诗)
(9265)悠悠心事空,(果然,貌似失恋了)
(358979)故人谁知寂寞。(触景生情)
(323846)风吹斜阳匆匆,(回忆那天下午的艳遇)
(264338)芳草平生斜阳,(平生见过最美的太阳和芳草,都是因为那里有你的身影)
(327950)风吹寂寞今日。(到现在就剩我自己)
(288419)一枝富贵年年,(好花美丽年年开,好景宜人不常在)
(716939)断肠长安不知。(我的思念远方的你可知道)
(注:诗词后为网友配的说明)
《如梦令·根号二》=1.41421356……
(414213)深处时节千里,
(562373)消息当年鸳鸯。
(0950)归来今日,
(488016)一点无情多少。
(8888)今夜,今夜
(724209)而今时节归来。 |
d*******o 发帖数: 493 | |
l*********s 发帖数: 5409 | |
a*****3 发帖数: 601 | 4 我拿本版名媛嫁人的日子试一试哈:
万里相思空明月
和夜里发呆真是绝配啊! |
b*****n 发帖数: 685 | 5 简单的text mining而已,外行才觉得惊诧 |
B****n 发帖数: 11290 | 6 其實統計很多時候用的方法很簡單直觀 重要的是得到了什麼結論 以及回答了什麼樣的
問題
【在 b*****n 的大作中提到】 : 简单的text mining而已,外行才觉得惊诧
|
z**********i 发帖数: 12276 | 7 恩,不错.
【在 a*****3 的大作中提到】 : 我拿本版名媛嫁人的日子试一试哈: : 万里相思空明月 : 和夜里发呆真是绝配啊!
|
v*********0 发帖数: 941 | |
z******n 发帖数: 397 | 9 能想到并且做出来才NX,马后炮大家都懂得啦,况且这就是玩儿
【在 b*****n 的大作中提到】 : 简单的text mining而已,外行才觉得惊诧
|
d******e 发帖数: 7844 | 10 那个bullren就是个棒槌。连个半正定都不明白的人。
★ 发自iPhone App: ChineseWeb - 中文网站浏览器
【在 v*********0 的大作中提到】 : Interesting
|
d******e 发帖数: 7844 | 11 你来做一个好了,你给个唐诗的生成算法,何如?
★ 发自iPhone App: ChineseWeb - 中文网站浏览器
【在 b*****n 的大作中提到】 : 简单的text mining而已,外行才觉得惊诧
|