簡化字和繁體字的差異,是兩岸文字中的主要歧異,也是兩岸深化交流的障礙。因此,2009年在長沙召開的第五屆兩岸經貿文化論壇共同提出兩岸開發簡繁字智慧轉換系統的建議。大陸不少單位開展了此項轉換系統的研製,取得了積極的成果。但轉換正確率高的一般在97%左右,達不到完全應用的要求。由國家語委有關部門牽頭,由廈門大學、教育部語用所和北師大三家聯合研製的“漢字簡繁文本智慧轉換系統”的成功,達到了在實際轉換中放心使用的水準,其準確率經中國資訊學會專家測試達到了99.9%,這是很難得的成績。
以前轉換準確率不能突破的瓶頸,在於簡繁字間一對多和同音代替簡化形成的少數字的對應上。前者如“團—團、糰”、“臺—臺、檯、颱”;後者如:“裏—裏、裏”、“後—後、後”等。要準確對應,必須分清它們在不同語境中的不同含義。如“團”指事物聚合,而“糰”則是一種特別食品,在不同語境中要分別不同對應。同音代替的簡繁字對應更增加了複雜性。除簡繁對應關係外,它本身在傳承字的繁體中也是一個獨立的並未簡化的字,這些字在兩岸是一樣的,如“裏、後”。它們對應的除繁體字“裏、後”外,還與傳承字“裏、後”對應。這種情況一般就容易轉換錯誤。
要解決上述問題,必須研究一個覆蓋所有簡繁對應出現語境的語料庫,預設出不同語境轉机換的對應關係。以前未能完全突破轉換的瓶頸,主要就是這個語料庫沒有研製好,缺乏簡繁字對應關係出現不同語境的全部語料。這是一件要下大力氣才能完成的任務。這次研製的智慧轉換系統就因為有這個語料庫作支撐,所以轉換正確率就大大提高了。
這次研製成的轉換系統,與過去不少轉換系統相比還有一個鮮明的特點,即它明確是為海峽兩岸交流轉換服務的,也就是大陸用的是“規範字”,轉換後與之對應的是臺灣的“標準字”(也就是臺灣當局法定的規範字,繁體字在臺灣和香港之間就有差異)。這種簡繁字的對應問題,過去主要靠手工操作,不僅費時費力,還常易出錯。現在有了這個“漢字簡繁文本智慧轉換系統”,基本上可以一鍵搞定,不僅方便,還極大地提高了正確率。
這次研製的智慧轉換系統,還有一個優於過去轉換系統的地方,即它不僅可以正確轉換簡繁字,還可以轉換兩岸不同的標點符號和常用的科技術語。這可以使轉換的文本達到相互直接認同的要求,無疑提高了轉換工作的品質,拓展了轉換的空間。
該系統已免費供各需要轉換簡繁字的領域使用,真正為兩岸簡繁字文本正確、快速轉換搭建了一座金橋。(李行健 作者係語文出版社原社長、《兩岸常用詞典》主編)
《中國教育報》2015年2月26日第2版
[ 責任編輯:王怡然 ]
原稿件標題URL:
原稿件作者:
轉載編輯:王怡然
原稿件來源:中國教育新聞網—中國教育報