當前位置:成語大全網 - 古籍修復 - 當唐詩宋詞遇上大數據

當唐詩宋詞遇上大數據

文/戴玥

從數據的角度解讀唐詩宋詞,居然能得出超乎想象的結論。這是我所在的浙江大學計算機學院CAD&CG(計算機輔助設計與圖形學)國家重點實驗室與新華網合作推出的兩款數據新聞作品“我有柔情似水,亦有豪情萬丈——唐代女詩人群像”和“宋詞繾綣,何處畫人間”所研究的內容。

什麽是數據新聞?數據新聞又稱數據驅動新聞,是指基於數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式。如果把未經處理的數據比作新鮮的食材,那麽數據新聞就是將壹道精心烹飪的菜肴呈現在讀者面前。“壹千個讀者心中有壹千個哈姆雷特”,每個人都能從中品出不同的滋味。

為了更加深入地了解“菜肴”的烹制方法,我在浙江大學紫金港校區采訪了兩個作品的總負責人陳為教授與項目的具體負責人張瑋老師。與兩位老師的談話,使得看似神秘的“烹制方法”逐漸清晰起來。

科學而嚴謹的“仕女圖”:唐代女詩人群像

唐詩項目“我有柔情似水,亦有豪情萬丈——唐代女詩人群像”分析了約5.5萬首唐詩,采用多樣化的圖表對唐代女詩人的創作情況進行了可視化呈現。

第壹幅圖表是關於唐代詩人創作數量的壹覽圖,分別對存世1首、2首、3~5首、5~10首、10~50首及50首以上作品的詩人數量以點陣圖的方式進行了表述,每壹個點都代表著壹位詩人,鼠標懸浮在點上便顯示出詩人的姓名與作品數,詩人的性別則用灰色與朱紅色區分。在不同階段,用畫像著重標出了著名的代表詩人,如在“3~5首”的階段裏,存世3首作品的張若虛是其中的代表,而在“50首以上”的階段中,存世3009首的白居易又是其中的翹楚。面對單純的數字,我們或許不能敏銳地感知背後的意義,而在點陣圖中,較之於許許多多僅留下孤篇的詩人,我們便可以感受到有3009首作品傳世的香山居士在當時及後世擁有多麽驚人的影響力。三千余篇詩作歷經壹千多年時間長河的波濤洶湧仍然傳遞到了我們手中,這又是怎樣壹份文化與 歷史 的厚重。

第二幅圖表是“唐代女詩人全景圖”,將唐朝劃分為初唐、盛唐、中唐、晚唐四個階段。此處同樣采用了點陣的表現方式,但用朱砂色的花朵代替了“點”,不同形狀的花朵代表著女性詩人的不同身份,她們有的是宮廷詩人,如上官婉兒,有的是士大夫妻女,有的則是民間女子或歌妓,而作品存留數量最多同時也最著名的幾人,如薛濤、李冶、魚玄機等人,則以盛開的荷花標記。人們常以花朵喻美人,而這些朱紅的花朵也仿佛承繼了這些女子的驚才絕艷,在紙卷上美好而熱烈地盛開。

在我們的印象裏,盛唐才是詩人輩出的時代,其時有李杜等冠絕古今的大詩人出現,想必此時的女性詩人數量應該最多。但這張全景圖卻給出了不壹樣的答案——盛唐時的女性詩人僅僅比初唐與中唐稍多,反而是晚唐時期女性詩人數量為最,幾是中唐與盛唐時期的兩倍。發現這個與認知大相徑庭的事實後,我開始嘗試為此找到壹種解釋。聯系此前所學,我想或許是因為晚唐時 社會 狀況江河日下,詩風亦偏於陰柔細膩,恰與女性的特質相符,使得女性詩人數量劇增。而我們所認為是詩歌盛世的盛唐時期,詩風大氣而雄壯,這大概與女性氣質不符吧。

第三幅圖表是“詩人詩作字頻詞頻圖”,字詞的大小與深淺顯示著它們被使用的頻率。女性詩人作品中最高頻詞“相思”便可說明女詩人的壹貫風格,與我們尋常的認知沒有太大出入,女詩人常常在詩中抒發“相思”與“寂寞”之情。同男性詩人壹樣,“風”與“人”都是最高頻的字,而較之於男性,女性詩人又更喜歡運用“花”“月”“春”等柔美的意象,而通過這些意象,女性獨特的內心體驗可見壹斑。

最後是“唐代女詩人社交圖”,圖中選取了最具代表的幾位女性詩人,將她們的社交關系以圓與線的方式表現出來,線的粗細則代表社交關系的深淺。通過這張圖可以發現,薛濤與李冶兩位著名的女詩人都與劉禹錫有過詩作唱和。或許我們未能知曉同時位列唐朝四大女詩人的這兩位才女是否有過交集,但此刻她們卻歷經遙遠的時空被線聯系在壹起。

之後另有薛濤與李冶單獨的社交關系圖。在李冶的社交圖中,詩人與陸羽、皎然之間形成了壹個三角,可見這也是壹個詩人之間的“小圈子”,三人都對茶學、佛學等有很大的興趣,並且也曾互有酬和。而“女校書”薛濤的社交圖中類似的圈子更多也更大,最大的有元稹、白居易、劉禹錫、嚴綬等人,他們大多互相認識或者熟識,仿佛是古代版的“朋友圈***同好友”,隱匿在典籍中的錯綜復雜的關系網絡具象為簡單明了的社交圖,似乎古人被時間重重遮掩的面貌也在霎時間清晰起來。

新聞的網頁背景模擬了泛黃古卷,配上古雅的圖案設計與字體設計,構成了壹幅交織著理性與嚴謹的“仕女圖”,雖未有畫像出現,但透過數據架成的時光之橋,我們仿佛能透過千年的塵埃而窺見美人含羞的影子。

對於數據新聞作品的外觀設計,項目的具體負責人張偉老師表示,他們對每壹個圖表都做了兩套以上的方案,經過不斷的篩選與考量之後才有我們所見的這壹套外觀。網頁設計也如古時畫工制畫壹般,如切如磋,如琢如磨,方能以美的姿態喚起觀者精神的***鳴。

宋朝詞人的情緒表達

宋詞項目“宋詞繾綣,何處畫人間”以《全宋詞》為樣本,從近21000首詞作、1330位詞人的龐大數據中呈現了豐富的圖表。有別於唐詩作品的精致與古典氣息,宋詞作品的外觀則帶有朦朧的寫意風格,圖表亦多處采用了水墨元素,將精確的數據渲染出詩意之美。

整篇作品分為三個版塊,“萬水千山走遍”“草木皆有情,詞即人生”“春風化雨,歷久彌新”。在第壹個板塊“萬水千山走遍”中,首先映入眼簾的就是壹幅宋朝的疆域圖,其中以灰點代表著詞人們曾到達過的地方,灰點越大代表到達越多人次。灰點密集地覆蓋了宋朝的大半版圖,除了青藏高原壹帶鮮有涉足外,天山南北亦有詞人們的足跡。鼠標懸浮其上會顯示出詞人的行進路線,跨度最大的壹條由疆域的最北端壹直延伸到最南的臨海地區。孔子周遊列國的路線其實僅在河南至山東壹帶,但今天高鐵幾個小時就能到達的路途,孔子卻走了十數年。這條從南至北貫穿宋朝疆域的路線,很有可能耗費了壹位詞人壹生的時間。

之後是宋朝詞人的全景圖,這幅全景圖采用了折線圖的方式,橫軸為北宋至南宋的各個 歷史 階段,而縱軸為詞人作品數量。每壹段線條代表壹位詞人,水平線是詞人的平民時期,向上的折線則是詞人的仕途時期,線條的灰色與棕色來區分婉約派與豪放派。在眾多詞人中,壹生布衣“梅妻鶴子”的林逋與女性詞人李清照的線條都是壹條水平線,其余詞人的線條都有起有伏,壹生的悲歡跌宕都被壹條簡單的線所勾勒,引人唏噓。

在第二個版塊“草木皆有情,詞即人生”中,首先對《全宋詞》的詞頻進行了統計。最高頻詞分別為“東風”“何處”“人間”,宋朝的積貧積弱以及靖康之變加重了詞人心中的漂泊感,他們仿佛壹直在尋覓,無論是“今宵酒醒何處”,還是陸放翁常書於詞中的“歸何處”,都是壹聲聲對心靈的叩問。

第二幅圖表是宋代著名詞人常見意象及其表達情緒的統計,喜、怒、哀、樂、思五種情緒分別用不同顏色表示,每壹種意象都有它所承載情緒表達次數的餅狀統計圖,鼠標懸浮在詞人名上可以顯示出他們所使用的意象表達情緒次數的比例。王國維曾言“以我觀物,故物皆著我之色彩”,豪放派代表人物辛棄疾常用“酒”“月”等意象,使人聯想到邊關冷月、煮酒悲歌,而晏殊之子晏幾道詞風婉約,他少年時家道中落,此後壹生流離,詞中多以落魄王孫的形象出現,常在“小樓”中流連時光,他的名句“舞低楊柳樓心月,歌盡桃花扇底風”恰能道出他詞中風情。

我好奇如何才能計算出意象中承載的情緒,陳為教授告知是根據已有的算法和模型來計算的,“對文字當中的 情感 進行計算,是計算機學界研究了二十年的壹個問題,已經有了標準方法”,“對於我們來說,這就是教科書上的東西”。原來文學與計算機的結合並不只是今年才興起的,早已產生了超越我們想象的進步。

最後壹個版塊“春風化雨,歷久彌新”中將各個詞牌代表詞作的平仄以長短不壹的線段標出,配以人聲朗誦,詞被還原了它原始的音樂功能,原先掩藏在字詞背後的韻律被直觀地展現出來。或許相隔千年時光,樂坊的客人也在與我們欣賞著同壹首曲子詞,咀嚼同壹段繁復綿長的 情感 。

數據化與詞學研究的碰撞引入了“定量”的思維方式

唐詩宋詞與大數據結合而產生的壹大效果,即是效率的提升。壹張張制作精美的圖表將關鍵信息在眼前壹字排開,根據需要可以信手采擷。我不由感嘆,如果我之前作業所需的資料也能以這樣的方式呈現,想必可以省下不少時間。

陳為教授介紹,在大數據普及之前,人文學者們獲取信息需要依靠查閱實物典籍,將壹本本書從頭翻到尾, 科技 進步後,很多典籍都有了電子掃描版,但還是需要人工檢索,在電腦上將所有的文字讀完。但大數據帶來了改變,“假設我能夠把它核心的、關鍵的特征和信息提煉,並用計算機建模做出來,然後呈現在屏幕上,這些人的關鍵信息就這些,他跟誰有關系,他有什麽作品,他的生活環境怎樣,這就極大地提高了效率。”

就讀人文專業的我,時常為了解壹位古代詩人在某壹時間段生活的 社會 環境,對著許多影印版的史誌和詩人年譜進行“肉眼檢索”,繁體豎排小字看久了讓人眼睛發花。

我想到自己曾做的壹份唐宋詞名物意象變遷的作業,我選擇了“釵”的意象。在例舉含有該意象的詞作時,已經有現成的唐宋詞數據庫,其中收錄了相當數量的唐宋詞,我只需要輸入“釵”“銀釵”“鳳釵”等關鍵詞,就能輕松獲取與之相關的壹篇篇作品,方便快捷。而在調查“釵”本身材質與形制的變遷時,我所查到的相關飾物名錄和圖鑒有些甚至沒有目錄和頁碼,只能面對繁體豎排字壹頁壹頁地查閱,看到可能有用的信息也只能使用pdf閱讀軟件自帶的標記功能。壹次查找需要耗費很長的時間,而獲取的信息卻遠遠不能與付出的時間等價。有時候翻完了壹本幾百頁的書,能夠得到的有用信息也只有幾句話。從這壹點來說,大數據的普及著實是壹種迫切的需要,它也為人文社科的研究者帶來了福音,省去了許多繁復而低效率的案頭勞作。

大數據除了能夠極大提高科研效率,同時也為研究提供了壹種“定量分析”的思維角度。

唐宋詞的數據化研究是20世紀90年代開始興起的壹種研究趨勢,與20世紀90年代的數據 科技 發展息息相關。而數據化與詞學研究的碰撞引入了“定量”的思維方式,譬如如何確定壹首詞在宋代的受歡迎程度,這在以前的研究中是難以衡量的,即使能夠定性,也是“空口無憑”,沒有相應的證據。但大數據卻可以解決這個難題,統計宋代詞話中這首詞被收錄的次數,就可以大概得出其受歡迎程度的量化結果。統計數據本身就使得結果更精確,也更有說服力。

雖然大數據能夠帶來諸多益處,但大數據與文學研究的交匯中也產生了壹些需要註意的問題。在壹節專業課上,老師曾舉過壹個大數據研究的例子。在《全金元詞》中,使用頻率最高的詞調有兩個,最高為《黑漆弩》,其次是《木蘭花慢》。《木蘭花慢》是我們耳熟能詳的詞調,而《黑漆弩》對於並不十分專業的我來說卻是聞所未聞。《黑漆弩》在宋代也幾乎沒有作品傳世,但它為何會成為使用頻率最高的詞調?原來《黑漆弩》到元代時,進入元雜劇成為了壹種曲調,也就是說,它是壹種曲化的詞調,可以稱之為曲調。由此反映出了問題,在利用大數據研究詞的時候,樣本問題需要得到重視,譬如在研究《全金元詞》中使用頻率最高的詞調時,像《黑漆弩》這樣曲化的詞調就不應該計入樣本中。采樣問題成為詞學研究大數據化的“攔路虎”。

除了已知樣本的問題,詞學研究領域樣本的不斷變動同樣也困擾著學者們。唐宋詞不斷有遺詞被發現,樣本在不斷地補充。而相對於現存數量有限的唐宋詞,明清詞的數量更是多如恒河之沙,幾乎難以窮盡,如此龐大的樣本本身就是壹個令人頭疼的難題。

人文學科與大數據的合作,已經有了令人欣喜的發展,但仍舊任重而道遠。

作為壹個人文專業的學生,我也期待著美好圖景成為現實的壹天。

文章選自《大學生》