教AI認手語的年輕人:借助科技讓更多聾人被“聽見”
教AI認手語的年輕人
他們借助科技力量,試圖讓更多聾人被“聽見”“聽懂”
本報記者雷琨、李亭、梁姊
今年5月,世界智慧大會現場,一個“手語角”吸引了不少人駐足。只要在攝像頭前打出手語,身後的顯示屏上就會出現語意連貫的文字翻譯。這套由天津理工大學聾人工學院和電腦學院共同參與研發的“複雜場景下中國手語實時翻譯系統”(下簡稱“手語實時翻譯系統”),已經覆蓋了教育、法律諮詢、餐飲、交通幾大應用場景,在光線充足穩定的室內,識別率最高能達到95%,部分場景下可以實現“秒翻”。
王建源是研發團隊的成員之一。他是聾人家庭長大的聾兒,聽力損失嚴重,吐字發聲非常困難,手語是他和這個世界打交道最初也最有效的方式。一路長到22歲,聾人的身份不曾讓他感到自卑;口不能言,也沒耽誤他長成一個妥妥的“學霸”;但如果你問他,因為聽力障礙,從小到大遇到過哪些方面的不便,他會平靜地在手機上打出四個字:方方面面——因為認識手語的人太少了。
一個最典型的例子是看病,如果沒有手語翻譯陪著,即便只是頭疼腦熱,像王建源這樣的“手語族”也很難獨自就醫——絕大多數醫生不會手語,你不能要求一個病人在急診室裏,用手寫或打字的方式,條分縷析地快速描述自己的症狀。
袁甜甜是王建源的老師,也是“手語實時翻譯系統”項目團隊的負責人。2006年研究生一畢業,她就在聾人工學院電腦係工作。15年來,袁甜甜記不清有多少次,淩晨一兩點鐘接到學院的電話,讓她陪學生去看病,幫忙做手語翻譯。如今,她已經是學院的副院長,帶聽障生上醫院依然是她和學院所有老師的職責。
她不怕辛苦,就怕自己的手語水準耽誤事。袁甜甜是健聽人(聽力健全人的簡稱),手語是走上教職之後自學的,她常常自嘲説,在語言方面天賦有限,“我是個‘半顫子’(天津方言,指半吊子、不熟練)手語翻譯。學生描述的情況一複雜,或者打手語的速度太快,我就只能看懂一部分了。”
聽障大學生自立自強、想方設法克服身體上的不便,特教老師盡職盡責、苦練手語為殘疾人事業無私奉獻——如果要講一個勵志故事,這樣的情節就足夠了。但袁甜甜和王建源們顯然更想講一個“科幻故事”:他們想教電腦學手語,讓機器代替人,成為隨叫隨到、及時準確的“手語翻譯”。
袁甜甜學電腦出身,王建源的專業是網路工程,他們篤信,依靠科技的力量可以幫助中國2780萬聾人,乃至更多有需要的人,克服生活上的種種不便。他們想讓手語實時翻譯系統化作一道橋梁,無論是聽障者還是健聽人,都可以通過它無障礙地交流。
這個目標聽起來宏大,想實現也很難,但他們還是決定動手試試看。
新的橋梁
幫助聾人與健聽人交流,前一座已經建成的“技術之橋”,是語音識別。
2007年,曾任中國聾人協會副主席的富志偉,發表了一篇題為《我看“聾人資訊無障礙”》的學術文章。他在文中寫道:“我期望將來能研製出一種機器,它可以和現在的微型錄影機一樣大小,一端輸入口語,另一端小螢幕上即顯示文字……等到這種機器問世,聾人資訊無障礙環境將大大改觀。”
十幾年後回看這段話,會發現富志偉期待中的機器,和如今智慧手機上常見的語音識別應用,幾乎一模一樣。語音識別技術的受益者,也已不限于聽障群體——看看身邊有多少人在用語音輸入法就知道了。
袁甜甜帶領團隊研發的“手語實時翻譯系統”,就類似于手語版的“語音輸入法”。只不過後者是輸入語音、機器識別、轉成文字,而前者是輸入手語動作和表情、機器識別,再翻譯成文字——“老橋”與“新橋”,相似又不同。
袁甜甜沒想到,“老橋”的存在竟然會成為項目團隊建設“新橋”的“阻力”。
“為什麼一定要搞手語翻譯呢?聾人聽不到,現在有語音識別啊!有的聾人不會説話,拿手機打字不就行了嗎?”曾經有一些企業向袁甜甜了解過正在開發中的手語實時翻譯系統,想談投資。但談來談去,他們卻對項目的必要性産生了質疑,覺得手語翻譯除了“做善事”沒有其他意義。類似的話聽得太多,快人快語的袁甜甜有點兒急了,“那要這麼説,當初搞什麼微信呢?就用短信不一樣嗎?搞什麼語音識別呢,就直接打字唄?很多創新都有傳統形式上的替代品,那科技就別進步了唄?”
袁甜甜説,直到今天,手語仍然是許多聽障人士最自然、高效的表達方式,“比寫字、打字都快。”但為了促進無障礙交流,要求健聽人都去學手語,顯然不現實。人類要掌握一門語言,總會受到認知水準、記憶力等各方面的限制,“我們的手語實時翻譯系統,就是要解決這個問題。”袁甜甜有著典型的工科思維,遇到難題,第一反應就是思考能不能從技術層面突破。“我感覺如果技術到了那兒,機器的記憶力和它的學習能力,要比人強很多。所以要是能讓機器學會手語,它肯定比我這種‘半顫子’手語翻譯管用多了。”
目前,手語實時翻譯系統還處於試用階段。理想狀態下,等到研究成果真正落地,健聽人只要打開手語翻譯程式,就能和“手語族”直接交流了。
但對袁甜甜和年輕的研發團隊來説,想達到這個“理想狀態”並不容易。 作為深度參與項目的聽障生,王建源和聾人工學院電腦專業的烏力傑在手語識別、翻譯技術上投入的精力越來越多。他倆開過一個向全社會推廣、普及手語的微信公眾號,如今已經一年半沒顧上更新了。當初辦公眾號的時候,他們的想法是,要打開一扇窗,讓聾人被“看見”。而現在,他們忙著造橋,想讓聽障者被“聽懂”。
手語之美
除了聽障生,“手語實時翻譯系統”項目團隊中也有健聽人。無論是不是手語的日常使用者,他們之間有個共識:手語是一門很美的語言。
袁甜甜對手語之美的直觀感受,都來自她的學生。袁甜甜的母校是天津師範大學,當老師是她唯一的職業目標,但她沒有特教專業背景,平時打的手語,一部分是自己照著書學的,另一部分是在和聽障生的日常交流中逐漸掌握的。剛入職的時候,學院的老教師還誇她,“挺厲害啊,一上講臺就敢跟學生‘比畫’!”
袁甜甜有著典型的老天津人性格,心腸熱、説話直,她坦言當初苦練手語,心裏也沒存著“為殘疾人教育事業貢獻力量”這樣的遠大理想。只是覺得,既然要當老師,教的又是聽障生,手語就是上課必備的工具,“你不敢‘比畫’就永遠學不會,永遠沒法跟孩子們無障礙溝通,對吧?”
就這樣一邊用一邊學,她發現聾人日常使用的自然手語,遠不止“照著書比畫”這麼簡單。它有自己的語序和語法,口語裏説“滅火”,滅在火之前,而學生們打手語時,會先比出“火”——起了“火”,再去“滅”;它有獨特的空間感,同樣一個掌心向下,五指由聚到散,模擬光源的手勢,在室內打意思是燈,在室外打就可以指代太陽;同樣一句話,來自五湖四海的學生,可能打出好幾種不同的“方言”版本;手語的表達方式更是豐富,要打出一個意思完整的句子,不光靠手勢,也要配合相應的表情,還需要加上肢體動作……
“真的是一門很美的語言!”袁甜甜説,直到今天,她和學生用手語交談,有時候還會愣神,覺得他們“身上有光”。而親眼看過王建源、烏力傑打手語的人,就會承認袁甜甜的感受並不誇張。
王建源生在青島一個聾人家庭,父母都是聽障人士。2018年考進聾人工學院網路工程專業之前,他一路都在聾校接受教育。
小時候,父親就像其他家長教孩子説話一樣,帶著王建源認認真真地練習手語。父親並不認為那是一門“特殊”的語言,“他覺得普通話能字正腔圓、抑揚頓挫,手語同樣能夠大開大闔、詼諧幽默。”父母對手語的坦然態度,影響了王建源。他從不避諱在公開場合使用手語,也從不隱藏自己的聾人身份。在他看來,手語就是手語,不是某種“殘疾的外顯”。聾人可以用它表達內心的想法,而健聽人,只要掌握了這門語言,同樣可以用它來交流——手語和其他任何語言一樣,是破除障礙、溝通彼此的工具,它可以是橋梁、是紐帶,唯獨不該是障礙本身。
烏力傑是來自青海的蒙古族小夥,“家在茶卡鹽湖邊上”——除了精通手語,他也可以用口語交流,只是聲音有些沙啞低沉。
比起同年入學的王建源,烏力傑的求學經歷要更複雜些。小學階段,他靠助聽器和讀唇的本領,與健聽孩子一道讀過三年普校,“三年都是全班第一”。那段經歷鍛鍊了他的適應性和口語表達能力。後來,他離開青海,在武漢第二聾校完成高中學業,通過單考單招來到天津理工大學。這樣的成績在家族同輩的孩子中“笑傲群雄”,更讓他堅信“聾人也不比誰差”。他一度直接把“Deaf-無音”用作自己的微信昵稱——在英文中,Deaf就有聾人的意思。
無論是學專業課、推廣手語還是做科研,這個古銅色皮膚的蒙古族青年有股“一馬當先”的闖勁兒,“海倫 凱勒能做到的事情,我們為什麼做不到?”
技術之難
王建源和烏力傑是受袁甜甜邀請加入項目團隊的。2019年,他倆才上大二,就被委以重任,負責收集手語語料,撰寫符合自然手語語法、語序的句子。手語是一門視覺性語言,基於這一特點,“撰寫”的過程不是通過手寫或打字輸入,而是以錄製視頻的方式完成的——王建源、烏力傑以及團隊中其他聽障生的重要工作之一,就是對著攝像頭反覆打手語。
為什麼是他們?
因為手語實時翻譯技術之難,恰恰源於手語之美:
獨立的語法體系,意味著團隊研發出的系統,除了要將單個手語詞彙的意思識別出來,還得把手語語序轉化為健聽人習慣的漢語語序,把手語的“火滅”調整成“滅火”,才算完成翻譯;獨特的空間感,意味著高度相似的手語動作,在不同的環境中,可能有不同的譯法,電腦要學著區分“屋外的太陽,屋裏的燈”;豐富的表達方式,意味著手語識別不像語音識別那樣,只需收集“聲音”這一種“學習資料”,要把人工智慧訓練成一個合格的手語翻譯,得把手勢、表情、大肢體動作,通通從視頻轉化為數據,再“教”給電腦。所以,能充分理解、展示手語之美的聽障生,是最適合給人工智慧當“老師”的人。
王建源和烏力傑“教機器”學手語的本事,來自“教人”。
儘管年紀輕,他們的手語教學經驗卻可謂豐富。剛上大一,他們就發現,對手語心存偏見的人不在少數。不止健聽人,即使在聽障生內部,也有很多同學,因為從小就受“打手語就是承認自己有殘疾”“要像‘正常人’一樣講話”等觀點影響,對手語懷有抵觸情緒。
因此,入學沒多久,王建源和烏力傑就開始通過學院的手語社團、通過他們的微信公號、通過短視頻平臺,通過線下、線上各種渠道開班授課。像所有教語言的老師那樣,講語法、單詞、句型……兩個人甚至開始研究起更“超綱”的手語語言學知識:在王建源的書包裏,一本《手語動詞研究》和專業課教材揣在一起,有時間他就掏出來看兩眼。烏力傑乾脆跑去參加了中國殘聯主辦的國家通用手語骨幹教師培訓班,畢業考核的時候,還拿了個總成績第一。
一開始,他們做這一切,只是想給這門語言“正名”,想告訴大家:手語有它的特性,但絕不“特殊”,手語和它的使用者一樣,都是普通的、正常的。他們並沒有預料到,那些為了教人學手語做的“額外功課”,會和他們各自的專業知識相結合,成為教“AI”學手語的利器。
“我們的聽障生知道手語的語法結構,還有它的一些基本要素,比如説臉上的表情到什麼程度算是表達到位了,什麼時候該用上肢體語言了,他們都明白。所以他們做數據收集、處理方面的工作,有天然優勢。”袁甜甜很看重聾人在項目團隊中發揮的作用,“咱要是叫沒用過手語的健聽人來收集數據、建語料庫的話,那可真是費勁了!”
因為缺少聾人的參與,在手語識別和翻譯技術領域,各國學界都走過彎路:比如嘗試通過數據手套建立手語語料庫。作為一種常見的感測器,數據手套在手勢識別技術上的應用已經相對成熟——儘管成本高昂,但用手套來收集“手勢”,看起來理所當然,準確率也該有保證。只可惜手語不是簡單的手勢:拋開表情和大動作不談,即便是同樣的手勢,指向稍有不同,也可能意思迥異,這樣微妙的差異,手套是識別不出來的。
意識到這一點,近年來各國推進的手語識別、翻譯項目,大多采用電腦視覺的方法,利用攝像頭收集數據、建立語料庫,袁甜甜和她的團隊也是如此。現階段更常見的問題,一是收集的樣本太少,數據集不夠大。二是數據集建起來了,但沒能對語料進行高品質篩選和標注。説白了,就是語料“不好使”。
袁甜甜説,人工智慧深度學習的過程,有點像教小孩學説話,一個單詞先得全家上陣,翻來覆去地重復,次數夠了,孩子才能建立印象,“哦,這個單詞叫媽媽,不管是從爸爸嘴裏説出來,姥姥嘴裏説出來,還是舅舅、阿姨説出來,都叫媽媽。”同樣的,要讓機器識別一個手語句子,也要有足夠多的人面對攝像頭,以不同的風格重復打同一套動作,電腦才能“記住”。
很多國外團隊建立的手語數據集無法支援複雜場景下的手語翻譯,一個直接的原因,就是無法找到足夠多的人在自然狀態下採集手語。“而我們的團隊背靠聾人工學院,很多成員本身就是手語使用者,在自然手語的採集上有優勢。”袁甜甜説。
“但是跟您實話實説,我們也建過‘不好使’的數據集。”袁甜甜直接給團隊2018年建立的手勢漢語數據集下了定義,“花了錢、費了功夫,最後挺失敗的”——失敗之處在於,那一次他們收集的語料是手勢漢語而不是自然手語。手勢漢語是按照健聽人習慣的漢語語序,而不是手語語序連詞成句的。
“比如説,‘愛是我們共同的語言’。這個句子用手勢漢語來打的話,就是按順序一個字一個字地比畫,‘的’也有對應的手勢,也要打出來。但聾人日常使用手語的時候,慣用的語序是:愛、我們、共同、語言、是,‘的’不用打。我這個‘半顫子’手語,講課的時候也不會把‘的’‘了’都打出來,那不符合自然手語的表達習慣。”袁甜甜解釋。
“你把手勢漢語翻譯得再精準也沒用,聾人平時打的不是這個啊!”汲取了教訓,這一次再建手語數據集,袁甜甜説,他們不求速成,只求每條語料都是原汁原味的自然手語。先按手語語序識別、再按口語習慣翻譯,雖然多了一個技術環節,團隊研發的難度也就長了一截,袁甜甜們卻堅持要選擇那條“難走但正確”的路徑。
“咱做這個研究,不想跟人吹我們的數據集有多大,也不想説我們發了多麼高大上的論文,我們就一個目的:能用。”袁甜甜斬釘截鐵,“這個系統出來了,聾人必須真的能用。”
收穫之年
對於袁甜甜和她的團隊來説,2019年和2021年是兩個關鍵的時間節點。2019年,是他們的初創之年,“手語實時翻譯系統”入選國家工信部新一代人工智慧産業創新揭榜項目,獲得了2000萬的資金支援。袁甜甜很高興,一方面是因為國家對無障礙建設的重視讓她欣慰,另一方面,數據採集、技術研發、成果落地也確實是處處都要花錢。
2021年,則可以説是團隊的收穫之年。
閆思伊到現在還記得,今年年初她第一次跑通手語翻譯系統代碼框架時的心情。“就好像你在組裝一台機器,零件都已經拼全了,但是因為各種各樣的小毛病,比如説有幾個螺絲沒擰緊,它就是不能正常運轉。我每天在實驗室,一個一個地把螺絲給上緊。都調完之後,忽然有一天,我一按開關,機器就轟轟地轉起來了。那種成就感啊……”
閆思伊在天津理工大學電腦學院讀研二,是手語實時翻譯項目團隊的健聽人成員,主要負責“後臺”工作——構建手語識別演算法框架模型。如果沿用教孩子學説話的比喻,學前階段完成了反覆加深印象的步驟,一上小學,孩子就要開始學習拼音、語法,學會按照教材上總結的規律,把學過、聽過的那些單片語成句子和課文,寫在作業本和卷子上——閆思伊就是編“教材”,幫AI這位“同學”總結手語規律的“老師”之一。
“這部分技術要求更高的工作,主要由我們學校電腦學院的師生來完成。”袁甜甜説,給人工智慧“編教材”的過程很艱辛。在手語識別、翻譯領域,可借鑒的經驗太少,同行的進度也都差不多。項目團隊參考了德國天氣預報自然手語翻譯系統的演算法,也通過各種渠道尋找類似系統在網路上公開發佈的源代碼,然後就是一遍遍地嘗試和修正。
閆思伊他們每天早上8點半就扎進機房,等意識到天黑該回宿舍,再看表已經是晚上10點了。“我覺得我們的項目有意義啊,就想快點出成果,能落地的成果。”她説自己是個典型的理工女,就喜歡電腦,導師讓週一到週五做項目,她週六日也忍不住去跑代碼。就這樣一點點摸索,一點點“緊螺絲”,第一次跑通代碼的那天早上,電腦“同學”在它的人類老師們面前,寫下了一份不算完美,但成績合格的手語翻譯試卷。
今年5月,王建源、烏力傑帶著研究成果上了世界智慧大會;10月,他倆又和聾人工學院其他幾位同學組成創業團隊,代表天津理工大學,拿下了第七屆中國國際“網際網路+”大學生創新創業大賽總決賽高教主賽道的金獎。
他們的“奪金”項目叫“鯨可語”,全稱“鯨可語多模態連續手語自動標注識別系統”。自動標注識別就是手語翻譯的前期步驟,而“鯨可語”正是依託“手語實時翻譯系統”而生的——他們把兩年來“教機器學手語”的經驗轉化成自己的科創項目,親手為他們想像中那座“聾健融合之橋”建起了“橋基”。
決賽奪金的那天,袁甜甜在朋友圈給她的學生們一個個點讚。作為“鯨可語”的指導老師,她很喜歡這個溫柔又有力的名稱。
鯨可語,來源於“52赫茲鯨”的故事,在海洋中,這只因為叫聲頻率與眾不同而無法與同類交流的鯨魚,被稱為“最孤獨的存在”。但事實上,如果你能破解52赫茲的密碼,就會發現它並非一座孤島,它也會歌唱,也有自己的語言。王建源覺得這只鯨魚很像聽障群體,“沉寂在人海中,無時無刻不在渴望著與外界溝通,渴求著回應。”
幾個聽障年輕人給“鯨可語”設計的標誌,像一隻藍色海洋中漂浮的白色鯨魚,也像人們把拇指和食指搭在一起“比心”時的手形。“我們建手語語料庫的時候,就是要把手語的動作手型概括為像這樣簡潔的線條,正是這一個個線條,支撐起了‘鯨可語’系統,實現了對手語的識別。”王建源説。
而他們開發手語識別系統的初心,就是幫助那只“52赫茲鯨”,獲得言語的能力和“被聽懂”的權利……
(參與采寫:吳澤運)