科技守護文明:中國古籍“回家”之路
新華社成都5月20日電 題:科技守護文明:中國古籍“回家”之路
新華社記者童芳
中國是世界四大文明古國之一,中國浩如煙海的文獻典籍記錄了歷史。然而遺憾的是,近代以來超過400萬冊中國古籍由於種種原因流散海外。
阿里巴巴達摩院、四川大學、美國加州大學伯克利分校近日公佈,他們花費兩年多的時間,教會了AI識別中國古籍,將它們以數字化的形式接回故土,置於網路公益平臺,向所有人開放。
這個項目的名字叫“漢典重光”,意為讓失落的珍貴古籍重放光芒。“漢典重光”以97.5%的準確率,識別了20萬頁古籍,覆蓋3萬多字的古籍字典。
現代科技照亮中國古籍“回家”之路
中國古籍擁有非常龐大且複雜的知識體系,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數民族文獻等等。所涉及的範圍也是極其廣泛,有應對自然災害、流行疫病、經濟波動、政治鬥爭、外交危機、氣候變遷等的經驗,有戰爭、瘟疫、地震、洪澇災害、病蟲害等方面的經驗總結,還有醫療、中藥、養生、傢具、服飾、飲食文化等生活經驗。
加州大學伯克利分校的東亞圖書館是全美三大東亞圖書館之一,90萬冊藏書裏四成都是中文書,還有不少甲骨文和拓片。第一次到這兒的中國學者總感覺在穿越歷史的“蟲洞”,這些古籍不能運回中國,那就用數字化手段讓古籍的內容“回家”。
2019年,阿里巴巴和四川大學提出“數字化回歸”設想,四川大學歷史文化學院副院長王果與中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機構,最後獲得加州大學伯克利分校支援,達成共識,將伯克利東亞圖書館的中文古籍善本逐步數字化。
前所未有的挑戰
據王果介紹,“漢典重光”的分工非常明確——採集側把紙質書變為影印版,數字化生産側把影印版變為文字版,應用側為文字版增加檢索、字典和知識圖譜等研學系統。東亞圖書館完成第一個環節後,四川大學將和達摩院共同完成另外兩個步驟。其中,四川大學將提供一切非計算層面的專業支援,並與達摩院的機器視覺實驗室合作,共同開發古籍AI技術。
首批數字化的古籍共20萬頁,包含40余種珍貴宋元善本。剛開始大家對這個項目很有信心,但實際一上手才知道難度有多大。
首先是中國古籍的載體很多,紙、布、竹子、木頭、甲骨、石碑……幾乎所有能用的載體都被古人留了字,不同載體上面的字識別起來差別非常大。年代久遠的紙張大多殘缺不全,上面還佈滿斑點,而且排列非常複雜。古人喜歡從上到下,從右到左,還非常喜歡在上面做批註。
字跡的精美也成了負擔。隸書、楷書、草書、行書都漂亮,但也真難認。大部分字還是手寫的,不但兩個人寫的同一個字不一樣,同一個人寫的同一個字也差別很大,很多字還有不同寫法。
團隊原有的OCR(圖像文字識別)的識別準確率只有40%,這顯然是不夠的,較早涉足古籍識別的Google Books(谷歌圖書)針對的都是英文古籍,對中文也不適用。
大量創造性和創新性的辛勤勞動
沒有前車可鑒,只能自己來了。“這就像教小朋友識字,確實難,但也有簡單的部分,我們就由易到難慢慢做。”王果説。
前所未有的開拓性成果,包含著中國學者大量創造性和創新性的辛勤勞動。
達摩院的古籍識別演算法,用AI替代人工,大幅壓縮了專家標注工作量。在機器為主進行識別的97.5%的內容中,約有1%(1萬字左右)需要專家錄入;機器不能識別的餘下2.5%(2.5萬字)的文字,全部交給專家做後期標注。相比人工專家錄入,百萬字書籍的數字化工作量從1000天降低到了35天,效率比人工專家錄入方案提升近30倍。這種古籍識別演算法,為中華古籍的回歸提供了另一種可行可期的思路。
非電腦層面的工作也非常重要,四川大學專門組織了30多個歷史系學生來做標注,這很耗神,眼力、腦力缺一不可,但這個過程沒法省略,就像學生要學習,演算法也要迭代,“只有數據夠多夠好,機器才能搞定”。
這是一件非常難但非常有意義的事情。古籍識別的挑戰巨大,但大家還是想通過技術讓古籍活起來,用科技守護文明。
據了解,達摩院、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館將繼續投入人力、物力,擴大古籍數字化回歸的數量,讓所有蒙塵的古籍重煥新生。
達摩院院長張建鋒表示,阿裏計劃將這套技術工具連同古籍數字化平臺一併捐贈,交由權威公共機構長期運營,最終將成為一個開放的網路平臺,供大眾檢索學習。