“蒙古語語料庫”二期工程:填補網際網路上無蒙古文文獻空白
中新網呼和浩特11月26日電 (記者 李愛平)內蒙古自治區社會科學院“蒙古語語料庫”首席專家巴特爾26日向中新網記者介紹,正在實施的“蒙古語語料庫”二期工程(簡稱二期工程)總字數將達到1.2億詞,目前已完成佛教重要典籍《甘珠爾經》的錄入工作。其最大意義在於“填補網際網路上無蒙古文文獻的空白,最終能使蒙古學學者有文獻可用”。
巴特爾對記者透露,二期工程“文獻語料庫”是“掃描文件、電子文檔、拉丁文轉寫”三位一體的大型蒙古文文獻語料庫。
巴特爾表示,二期工程語料庫有三大特點:第一、窮盡式收集自蒙古文第一份文獻成吉思汗碑以及《蒙古秘史》等中世紀文獻,好中選優《黃金史》《甘珠爾經》《禦制清文鑒》等木刻板文獻,均衡選錄社會科學、自然科學、報紙、政治、法律、文學、醫學、農牧業、應用、口語等10大類文獻;第二、遵循文獻學原則,即每份文獻提供原圖、錄入文件、拉丁文標音三種形式;第三、語料庫實現免費線上網路查詢檢索。
巴特爾告訴記者,二期工程自2015年實施近三年來,截至目前已完成13世紀—16世紀中世紀文獻、17世紀—18世紀近代文獻(大部分)、19世紀現代文獻部分和20世紀—21世紀當代文獻部分,約完成8000萬字語料的錄入校對工作。
“蒙古語語料庫建設工程”是“一次規劃,多年實施”的中國首個蒙古語、達斡爾語、鄂溫克語、鄂倫春語大型綜合性語料庫。它涵蓋言語語料和文獻語料兩部分,總字數將達到2億詞。
2005年“蒙古語語料庫建設工程”確立為內蒙古自治區民族文化大區建設重點項目,設計20年完成。一期工程言語語料庫(2005-2014)已于2014年11月驗收,二期工程文獻語料庫(2015-2024)正在實施。
巴特爾表示,一期工程言語語料庫(8000小時語料)旨在大規模蒐集真實言語語料,重點在中國八省自治區、蒙古國四省一市、俄羅斯布裏亞特共和國和卡爾梅克共和國境內97個點採訪了6725人,蒐集蒙古語、達斡爾語、鄂溫克語、鄂倫春語自然口語語料4192小時(相當於4000多萬詞)。它是已建成的世界上最大的蒙古語自然口語語料庫。同時還完成了4000多小時的書面語語料庫。兩項合計“蒙古語語料庫建設工程”一期工程共完成了8000多小時的言語語料。
在巴特爾看來,二期工程的實施,不僅對蒙古語等少數民族語言(文字)的規範化、資訊化和內蒙古語言生活的健康和諧發展,具有重要的理論意義,也對保護、傳承和開發、利用民族語言文化遺産,維護中國語言文化安全具有重要的現實意義。(完)
[責任編輯:楊永青]