OpenAI推出聲音引擎輸入人聲生成人聲

文＼蔡宗桓 OpenAI今年動作頻頻，早前才剛展示“只需輸入文字或靜態圖片作為提示，就能生成長達60秒、包含精準場景、複雜運鏡技術等影片”的AI模型“Sora”，如今又展示生成式AI領域的新成果，即一款“只需輸入15秒語音素材，就能生成與人類聲音相似的Voice Engine（聲音引擎）”，並表明可以產生“自然的語音”和“情感豐富且真實的聲音”，再次引發熱議，當中多人更擔憂被不法之徒濫用作為詐騙工具。 OpenAI繼早前推出能生成寫實視頻的AI工具Sora後，再次展現新的研究成果，即一款只需用戶提供短短15秒的語音素材，就能生成與有關語音極為相似的音訊的新工具 在推出這項能輕鬆“幫別人說話”的工具之前，OpenAI也將仔細思考將如何避免潛在風險。 根據OpenAI的說法，用戶只需通過“語音引擎”（Voice Engine）輸入文字和一則為時僅約15秒的音訊樣本，就能生成和原始說話者極為相似的自然語音。 OpenAI為證明“語音引擎”可以產生“自然語音”和“情感豐富且真實的聲音”，已通過官網上傳樣本音訊及生成音訊，以供民眾作比對。不過，OpenAI還未公開語音引擎的正式發布日期，且目前僅提供預覽版。 事實上，OpenAI在2022年就首次開發了語音引擎，並用來支援OpenAI文字轉語音API，以及ChatGPT朗讀功能的預設語音。 OpenAI指出，他們意識到合成語音被濫用的可能性，且深知語音生成工具一旦遭人濫用，後果將不堪設想，因此，該公司過去一直採取謹慎和知情的方式先和一小部分合作伙伴測試這項功能，並探索語音引擎技術的潛在用途。 為防止語音引擎被濫用，這些合作夥伴皆同意OpenAI的使用條款──在未經同意之下，任何代表都不得以此技術冒用他人或組織身份，同時，有關語音素材的提供者必須明確知道其聲音用途，同時，使用者需告知聽眾這些聲音是AI生成，而非源於真人。 此外，OpenAI也將為這些生成音訊添加浮水印，以追蹤該音訊來源並主動監控音訊的使用方式。 值得關注的是，OpenAI所研發的語音引擎的運作方式，不是根據用戶資料進行訓練或微調。OpenAI之前曾向外媒《TechCrunch》說明，有關生成音訊被使用後就會被刪除，且不會為每個說話者建立客製化模型。 語音引擎功能 1.語音朗讀功能：可用更自然、更有情感的聲音為兒童或不愛閱讀者提供語音教學內容，讓更廣泛的族群能用更輕鬆方式吸收書本內的知識。 2.翻譯視頻或Podcast：創作者可通過語音引擎輸入聲音，以便為專屬於自己的視頻生成眾多語言版本，藉此接觸到更多的潛在受眾，並且在翻譯時會保留母語口音。 3.為偏遠地區建立溝通橋樑：能為偏遠地區民眾提供各種即時諮詢服務，甚至是使用一些當地非正式語言進行互動式的問答。 4.協助失聲患者：讓無法說話的障礙人士通過語音引擎與他人通過語音溝通，並可選擇最適合自己的聲音。目前還有研究團隊測試如何利用這項技術為失語症患者提供協助。 老千假造親人聲音 騙過銀行認證 外媒《TechCrunch》指出，OpenAI的新技術或會導致一些工作者失業，如配音員，尤其是比較廉價的入門職業。不過，語音引擎帶來的危機不只是失業，還可能被用來惡意、快速地複製名人或親人的聲音，產生仇恨言論等造假與道德問題，或引發無數假藉聲音或音訊行騙的詐騙案。 OpenAI說，能複製人聲的生成式AI工具具有嚴重風險，尤其正值美國選舉年，因此，他們正在和政府、媒體、娛樂、教育等國內外伙伴合作，以確保語音引擎的開發能納入各領域意見。 此外，根據《Wired》報導， AI生成的逼真語言甚至得以通過銀行的語音認證功能 ，詐騙集團也可能利用這項工具冒用親人聲音，誘使他人付款或轉帳。尤其是美國總統大選即將在2024年11月登場，屆時，民眾針對政客所作出的AI攻擊更將層出不窮。 例如今年初，美國政府拜登的聲音就曾遭人冒用，而冒用者更在偽造的電話語音中呼籲選民勿參加初選投票，結果，白宮團隊馬上出面澄清這並非總統拜登的錄音，而是有心人士在刻意破壞選舉。 為了防範AI語音技術被濫用，OpenAI目前除了在使用政策上進行規範，同時還實施了一套安全措施，包括為所有生成內容添加浮水印，追蹤所有生成內容的使用方式，以及將推出禁止名單，防止一些知名人士的聲音遭利用來從事違法工作。 吁淘汰用語音驗證身份法 研發偵察AI生成影音來源 針對新技術──語音引擎的誕生，OpenAI解釋說，他們目前選擇僅供預覽、不廣泛發布，目的是讓外界了解這項技術的潛力，並預防及應對未來可能出現的挑戰。 OpenAI也指出，藉由擴大測試語音引擎的工作，希望能鼓勵社會採取的行動如下： ■ 逐步淘汰基於語音的身份驗證方式，例如用來存取銀行帳戶和其他敏感資訊的安全措施。 ■ 推進保護個人聲音使用的AI政策 ■ 提升大眾對於AI語音詐騙活動的警覺心 ■ 加速開發和採用追蹤AI生成影音來源的技術等應用 OpenAI認為，無論語音引擎最終會否全面開放，重要的是讓世界民眾都能了解語音引擎技術的發展方向，以及語音引擎將帶來的機會和挑戰，並讓該政策制定者、研究人員、開發人員和創作者等保持對話。 OpenAI全面開放ChatGPT 無須登入帳號可使用 自從OpenAI聊天機器人ChatGPT爆紅後，生成式AI便大舉入侵現代人的生活，民眾過去使用ChatGPT必須先經過註冊，並以帳號登入才能使用，但隨着OpenAI宣布全面開放ChatGPT，從即日開始，民眾將在無須登入帳號的情況下便可直接使用ChatGPT免費網頁版。 OpenAI正在全球逐步擴展這項功能，而自由3C科技頻道實際測試後發現，現在使用ChatGPT免費網頁版(https://chat.openai.com/)，確實不用再登入帳號，可說是相當方便，但手機App仍須以帳號登入才行。 ChatGPT免費版是運行GPT-3.5模型，如果想要使用GPT-4則需要登入具備訂閱資格的帳號。 值得注意的是，不登入帳號的ChatGPT用戶的部分功能將會受限，如無法保存聊天記錄、且網頁版的對話也不能同步上傳至手機App，以及不提供一些個人化設定。OpenAI指出，目前全球185個國家有超過1億人每週都使用ChatGPT，為了再降低使用門檻，因此，該公司不再限制用戶以帳號登入其網頁。 根據統計，雖然Google Gemini來勢洶洶，但ChatGPT依舊是目前全球使用量最大的聊天機器人。 此外，現時全球的185個國家已有超過1億人口每週使用ChatGPT，若ChatGPT每天回應2億項提問的話，則其耗電量將超過50萬，等同一般美國家庭每天耗電量逾1萬7241倍。 匪徒頻利用AirTag偷車 Android蘋果手機可偵測 有些人使用AirTag找回遺失設備，但也有些人利用AirTag竊取他人財產。 現代人的生活已跟科技無法分割，雖然善用科技確實可改善生活質素，但有些情況則不然。根據美國佛蒙特州電視台WCAX的一則報導，加拿大蒙特利爾就有賊匪利用AirTag作為偷車工具，令車主防不勝防。 當地警方指出，2名住在柏林頓的居民從蒙特利爾回家後發現，他們的轎車已被植入Apple AirTag。 其中一名男子Ethan Yang說，他是在探望家人後從蒙特利爾回家時，其iPhone突然跳出有AirTag追蹤他的警告，最後，他在車前格柵找到一顆AirTag。 美國佛蒙特州情報中心網絡分析師Ryan McLiverty指出，有關利用Apple AirTag偷車並非新鮮事，但這類案件近日卻劇增。 據了解，不法之徒利用AirTag偷車後，便把贓車送到海外轉售，有者則利用AirTag貼於車內，作為跨境運毒追蹤之用。 其實，AirTag內建安全機制，若AirTag不在擁有者所在範圍內，它便會定時發出警報聲，而被追蹤者的iPhone也會跳出警告。 此外，Android手機也已能偵測到未知的藍牙追蹤器，包括AirTag，至於蘋果手機則附有Tracker Detect應用程式可供偵測AirTag。 關閉藍牙僅省電1.8% 致尋機定位功能失效 許多人會為了替手機省電而關閉手機的藍牙功能，事實上，這類做法不但效果有限，反而可能會因此喪失一系列的便利功能。 Google近期就在Android 15測試版加入一串提示，說明有3項功能將在藍牙關閉之後無法啟用。 外媒《Android Authority》在最新的Android 15程式碼裡發現，當用戶關閉藍牙之後，系統便會顯示“快速分享、尋找我的設備，以及通過藍牙提供的定位功能將無法作用”，並提供一項“藍牙自動開啟”的新功能，使該設備在關閉一段時間後能自動重新啟用。 其中，“快速分享”之所以需要藍牙，主要是為了與周遭其他手機、電腦進行配對，才能接着以WiFi進行檔案傳輸。至於“尋找我的設備”則是Google即將於近期上線的新功能，它會通過所有Android裝置的藍牙來尋找遺失的設備，因此，若手機是在關閉藍牙的狀態之下遺失，恐怕就無法在系統上顯示其所在位置。 事實上，藍牙屬於低功耗的功能，因此，藍牙被關閉後所能帶來的省電效果可說是微乎其微。 外媒《Android Authority》先前讓5款手機分別在藍牙關閉、開啟之下進行續航實測，結果發現藍牙只替手機省下1.8%的電力。

您好！請登入您的帳號