Meta公佈AI語音模型支援4000種語言

2023-05-23

（華盛頓23日綜合電）社媒巨臂臉書母公司Meta周二公布，該公司旗下的大規模多語言語音（Massively Multilingual Speech，簡稱MMS）模型，可辨識超過4000種口語表達的語言，辨識量是既有技術的40倍；文字語音互轉技術的應用範圍，從100種語言增加至1100種，且可用於擴增實境（AR）及虛擬實境（VR），不僅能使用偏好語言操作，更可理解每個人的聲音。

世界上許多語言正面臨消失的危機，而現有的語言辨識與生成技術上的限制更加快此趨勢。Meta周二發布聲明指出，Meta發表一系列的AI模型，希望幫助用戶以自己習慣的語言，更輕松獲取資訊及使用電子裝置。

Meta指出，將開源這項技術的原始碼及模型，讓研究社群能夠以現有的工作成果為基礎繼續開發，一同保存全球的語言，並拉近人們間的距離。

過去最大型的語音資料庫最多僅涵蓋100種語言，因此開發此技術所面臨的第一個挑戰即為“搜集數千種語言的語音訓練資料”。為了克服這項挑戰，Meta使用已翻譯成多種語言、譯文已被廣泛閱讀及研究的宗教經典，例如《聖經》，作為語言的文字訓練資料。

Meta表示，《聖經》譯文有多種語言的公開錄音檔，作為大型多語言語音模型計劃的一部分，Meta創造的資料集，搜集超過1100種語言的“新約聖經”有聲讀物資料集，平均為每種語言提供32小時的語音訓練資料，後續又加入其他未標註的基督教有聲讀物後，可用的語言訓練資料已涵蓋超過4000種語言。

Meta強調，將持續擴增大規模多語言語音模型的涵蓋範圍，以支援更多語言的轉換及辨識，並努力克服現有語音技術難以處理方言的挑戰。

標籤

您好！請登入您的帳號