主管/主办:国务院新闻办公室 国家互联网信息办公室

当前位置: 首页>云资讯

不得不服!大数据告诉你唐代诗人有多么会跑

发布时间: 2017-05-08 12:13:36 来源: 浙江新闻 作者: 戴维

唐诗中使用最多的字眼

在大数据时代,怎样读唐诗宋词才最酷?最近有一份“唐宋文学编年地图”在网上流传,并有手机版和PC版。厉害了!在这份文学地图上,南到越南清化,北达蒙古乌兰巴托,全都有我们唐宋诗人的足迹!我在地图上点击“乌兰巴托”,跳出的信息告诉我:“初唐四杰”之一的卢照邻在公元662年到过此地,还写了4首诗呢。再点击“越南清化”,可以知晓,在公元705年,49岁的唐代诗人沈佺期来过,也留下一首诗。最西点是李白的出生地吉尔吉斯斯坦的托克马克(碎叶城)。东到舟山,南宋诗人舒岳祥1259-1260年来过。

无独有偶,受“唐宋文学编年地图”的启发,有个喜欢古诗词的程序员也专门为偶像——北宋大文学家苏轼——做了一份动态的生平地图,地图上的箭头从苏轼出生地四川眉山起始,在大半个中国版图上往来穿梭,最南一直到海南岛,密密麻麻的行迹,也可见苏轼的一生是多么颠沛流离!

想知道被刷屏的这两份文学地图的创设者都是谁吗?

南宋梁楷《李白行吟图》

主持“唐宋文学地图”的教授

让你可以跟着李白一起旅行

“唐宋文学地图”的缔造者,是中南民族大学文学与新闻传播学院的王兆鹏教授,他可能也是最具有互联网精神的文学教授了。这份“唐宋文学地图”只是他主持的国家社科基金重大项目《唐宋文学编年系地信息平台》的小荷一角。“我希望做一个中国文学编年地图,包括现当代部分。但这个工程量太大,就从唐宋开始做。”王兆鹏教授告诉记者。

今年3月,王兆鹏把团队的研究成果“唐宋文学编年地图”交给诗词门户网站“搜韵”发布,4月又增加到150位唐宋诗人,其中唐代44位,宋代106位,其中还有包拯和秦桧。

这份地图有好几种玩法,比如纵览某个诗人的一生,哪一年到过哪些地方,到哪个地方写了什么作品,和谁做了什么事情,行踪路线图就是一份会行走的传记。“从时间的角度,任何一年你点进去,可以知道有哪些诗人出生,哪些诗人去世,有多少诗人在哪里活动。也可以从空间的角度,你选择杭州,可以看到杭州有哪些人在这里写过哪些诗。”

有了这份地图,21世纪的读者可以跟着唐宋时期的著名诗人虚拟旅行。比如唐代最有名的诗人李白,地图的始发点是吉尔吉斯斯坦的托克马克,也就是唐代的碎叶城,行迹的最南端是湖南永州。

李白和杭州有没有交集呢?在地图上点击杭州,答案很快就出来了。公元739年,李白在38岁时第一次来杭州,和杭州刺史李良同游,还写了两首诗,其中有“诗成傲云月,佳趣满吴洲”的句子。过了17年,李白55岁第二次来杭州,主要是为朋友裴大泽送行。李白在杭州从夏天一直待到秋天,起码写了六首诗,其中有“好风吹落日,流水引长吟”,原来矮大紧老师高晓松的《好风长吟》是从这儿来的。

做这么一份庞大的地图,当然不是为了玩耍。王兆鹏教授说,所有上传的数据,他都要审查一遍。今后除了增大数据库的诗人阵容,已经做好的古代地图也会上传。这意味着,到时候你想了解唐代,可以点唐代的地图,也可以切换成现在的地图,古今两个时空可以互换,界面可以调整。这其中的校对量不是一般的大,王教授主持的团队有将近一百人,成员大多是古典文学科班出身的年轻教师,分布在不同城市,所以他们基本上是微信群里开会。如果你在唐宋文学方面有深厚的造诣,也可以申请加入哦。

热爱苏东坡的85后程序员

告诉你哪两个诗人最要好

制作“苏东坡文学地图”的是一名85后程序员“前进四”。看这网名就知道,是一位“三体”迷,“前进四”正是小说中设定的宇宙战舰的最高航行速度。他平时写程序累了就会翻一翻唐诗宋词,而且是苏东坡的脑残粉,“十年前读林语堂的《苏东坡传》就喜欢上了。苏东坡不仅文学成就高,性格也非常好,那种旷达的人生态度在古代文人中是少有的”。

“前进日志”是他今年1月才开的公众号,内容大多是“几何视角下的线性代数”这类题目,平均一周一篇。今年春节在家看《中国诗词大会》时,他有了分析唐诗的念头,“这也算一种职业病吧。我的本职工作就是做数据分析”。没想到3月12日《计算机告诉你,唐朝诗人的关系到底是什么样的?》一下子成了爆款,让他收获了首个10万+的点击率。

他对四万多首唐诗进行了大数据分析,你猜全唐诗中排名第一的好基友是谁?

不是李白和杜甫,也不是白居易和元稹,而是陆龟蒙和皮日休!这两位互相提到对方的次数都在百次以上,你写一首送我,我再回一首赠你,跟现在微博大V之间的互动差不多。中国文学史上的第一本唱和诗集:《松陵集》,就是他俩写的。为了不辜负他们之间的友谊,文学史通常将两者合称为“皮陆”。

并列第二的是白居易和刘禹锡、白居易和元稹。白居易和刘禹锡同年(772年)出生,从政道路都是各种被贬谪。但两人都很长寿,刘禹锡71岁时去世,白居易则活了75岁。白居易在得知刘禹锡去世的消息时,写下了千古名句:

四海齐名白与刘,百年交分两绸缪。

同贫同病退闲日,一死一生临老头。

从排名前三十的引用关系来看,白居易绝对是唐朝诗人朋友圈中的明星,是大V中的大V。而唐朝诗人另一个大型朋友圈,是杜甫-李白朋友圈。杜甫写了12首与李白有关的诗,李白则只有3首与杜甫有关的诗。唉,李白这种朋友,确实差劲了一点啊……

这样读唐诗好玩吧?前进四还写过一篇《当我们在读唐诗时,我们在读什么?》,内容也极其有趣,唐诗中出现最多的字是哪个?是“不”字。诗人们最喜欢哪个季节、哪种颜色?春天和秋天呈现出压倒性的场面,最喜欢的颜色居然是白色。最喜欢的植物是松树和竹子。还有唐朝诗人最喜欢哪种动物、哪种场景……你如果有兴趣,可以去公众号“前进日志”上搜一搜。

说起走红原因,“前进四”谦虚地说,他采取的数据分析手段在学术界并不新鲜,“我之前就读到过相关的论文,只不过没有流传开来。我的写作方法和学术论文不一样,少谈技术细节,多调侃分析结果,所以传播得也就更广一点。”

还有很多学文科的朋友向他咨询:是否有专业的分析唐诗的软件?“很遗憾,还真的没有。我用python(一种计算机语言)自己写了程序。这些程序原理并不复杂,一般的程序员都可以完成。我已经把程序开源了,希望有更多的程序员来使用,一起分析古典文献。”前进四回答。

大有来头的系统

哈佛大学的CBDB数据库

无论王教授,还是前进四,在大数据分析中都用到了哈佛大学的CBDB数据库。这个数据库是什么来头呢?我搜了下资料,CBDB数据库是由哈佛大学费正清研究中心、北京大学中国古代史研究中心、台湾“中研院”史语所合作开发。它以单一人物的生平记录为核心,并通过字号、亲属关系、生卒年份等项目,展开个人与其他人物的关系网络,形成所谓的“关系型”资料库。

这个系统是独一无二的。而它的奠基人是哈佛大学的郝若贝(Hartwell)教授,他已于1996年逝世。郝若贝教授在临终前将他收集制作的古代中国地理数据全部赠予了哈佛大学,到现在为止,已经有了唐、宋、元、明详细到各个县的数据。

像前进四在“苏东坡流浪地图”中用的北宋的数据,就来自郝若贝教授建立的CBDB数据库,再具体点,是1080年那一年的北宋领土疆界。“正好,苏东坡的生卒年是1037-1101年,1080年苏东坡43岁,正值壮年。宋朝的行政区划和现在很像,也是三级制。区别只是在于名字而已:现在的省在宋朝称为路;现在的市在宋朝称为府/州;现在的县在宋朝还是称为县。”

“不过苏东坡那篇是我看到搜韵的诗歌地图之后才动笔的。我很佩服王教授他们的工作,这是我很久以前就想做,但是又没做的事。古典诗词浩如烟海,要按照时间地点来分类,工作量实在是太大了。”前进四最后说,“对了,您能介绍我和王教授认识吗?”

王兆鹏教授也知道前进四写的爆款文章,“这个文章我看过。当时有本书《唐人交往考》,还有本大辞典,如果他把这些变成数据后,用朋友圈的形式呈现,蛮有意思。”

 

关键词: 地图 李白 诗人 苏东坡 文学 唐诗
责任编辑: 丹丹

相关阅读

编辑推荐


  • 节后返程高峰 大数据解读京沪外来人口构成

  • 大数据带您“数”数新春新气象

  • “互联网+”影响下的拜年方式转变

  • 鸡年成旅游最热年 互联网公司借力出海淘金