Google翻譯系統含77語文 中文字體 難譯難辨認

2015年9月,Google翻譯宣布正式啟用全新的神經網絡機器翻譯系統(Neural Machine Translation,NMT),取代之前根據短語的翻譯系統。2016年9月,全面啟用“在英中文”,接着到英日文。今年6月,才終於發展到77種語文,包括馬來文。

Advertisement

 

在馬來西亞Google安排下,本地媒體與身在美國總部的Google翻譯產品經理茱莉(Julie Cattiau)通過網絡視頻,針對升級版的Google翻譯進行交流。

ADVERTISEMENT

 

她說,50%的網絡內容使用的語文是英文,接着是華文、俄文和德文。不過,全球只有20%人口懂得英文。基於讓所有人可以通過谷歌找到資料的宗旨,翻譯成了Google最重視的其中一個部分。

“Google翻譯至今已有10年歷史,每天翻譯數十億個字,每個月的活躍用戶超過數十億人,92%用戶在美國以外的地方。”

 

她指出,Google翻譯可通過不同管道導入,包括網頁、搜索和Google Chrome,現在還有手機應用程序。除了通過鍵入、手寫或口述,也可以直接拍攝翻譯。   

 

她說,大馬是Google翻譯的重要市場,因為大馬用戶的滲透率非常高。不過,針對大馬人習慣使用多元語文,Google是否有能力翻譯混合兩種或以上語文的詞句,她坦言,不能保證翻譯得好。  

 

“我們的訓練數據(training data)來自文章、官方記錄和一般訊息,混合多元語文的訓練數據不多。所以,當你翻譯如“英文混合馬來文的句子”,它多數可能只翻譯其中一語文,另一種語文就沒有譯,或者完全不能翻譯。”

 

提到中文翻譯,她強調,Google翻譯以英文為出發點,英文與法文很接近,所以很容易翻譯,反觀中文與英文是截然不同的語文,沒有字母,字體也很難確認,所以中文很難翻譯。

 

“翻譯系統要認不同的字體,所以之前的翻譯系統譯成的單字可能不太準確。現在比較好,如果你鍵入整個句子,NMT可以根據內容譯得更好。”

 

她說,中文翻譯是其中一項大挑戰,NMT需要更多訓練數據。不過,目前的翻譯已經越來越接近人類翻譯的水準。

 

 

【免責聲明】
光明網促請讀者及網民,共同維護言論自由精神,營造理性交流環境;任何人身攻擊、鼓吹種族與宗教仇恨、誹謗與造謠等留言,皆不代表本網站立場。 本網站有權刪除任何違反此原則的留言。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

你也可能感兴趣...
Close