輸入照片回以文字 GPT-4比ChatGPT更聰明

2023-03-26

自從ChatGPT爆紅後，各大科技巨頭便相繼投入相關領域，掀起新一波AI大戰！在Google公佈生成式AI新技術後，ChatGPT開發商OpenAI緊接着又發表可解釋圖像內容的大型語言模組GPT-4。此外，百度也正式推出大型語言模型文心一言。還有專家認為，AI發展速度超乎預期，感覺就像“睡一覺醒來，這世界突然改變兩次”。

基於大型語言模型打造的ChatGPT AI聊天機器人，以高度的理解能力和人性化口吻回答，以及生成式產生內容等方式在全球爆紅，稍早前，OpenAI再度發布大型語言模型的最新版本GPT-4，換句話說，在面世後短短數月內，ChatGPT已經升級，且變得更加聰明了。

OpenAI指出，GPT-4是一個大型多模態模型（Large Multimodal Model），能接受圖像及文字輸入，且能以文字輸出答案。雖然在現實世界的複雜場景下，GPT-4的推理能力和創造力還不及人類，但在各種專業領域考試上，它的表現已接近人類水準。

其中，GPT-4在律師資格考試（Uniform Bar Examination, UBE）中擊敗了90%考生，且在美國大學的入學SAT考試中排名在前10%名次內，而在此前，GPT-3.5版本的ChatGPT並無法通過律師考試。

OpenAI也說，GPT-4比GPT-3.5更具創造性，且能處理更細微的指令。在一般輕鬆使用的情況下，GPT-3.5與GPT-4之間的區別不算大，但當工作的複雜性達到一定水平時，其差異就會變得明顯——GPT-4會比GPT3.5更加可靠。

若用戶輸入一張有各種食材的冰箱照片，並問GPT-4：“可以煮什麼菜餚？”GPT-4即會列出建議。不過，GPT-4的圖像輸入展示仍然只是研究“樣品”預覽，且真正的成果尚未公開。

另一個GPT-4更優勝的地方是，GPT-4能支援照片輸入，與原本GPT-3.5或以前的版本只能以文字輸入的模式相比，明顯大有進步，例如，用戶只需輸入一張食材照片，然後問GPT-4：“晚餐可以吃什麼？”GPT-4就會列出建議。

除了以上兩項大更新，GPT-4的其他更新包括大幅減少杜撰答案及胡亂回答的機率，且對敏感問題的回應更加成熟，以及每1000個提示token花費更低（0.02美元/1000個token，其中1000token約等於750個單詞）。

不過，GPT-4限制ChatGPT Plus的付費訂閱者使用，免費版ChatGPT則暫不支援，而圖片輸入功能也尚未正式對外開放。

整體來說，GPT-4還是有一些限制，且與上一版相同，GPT-4大部分是根據2021年9月以前的資料進行訓練，因此，它無法對較新的事件作出回應。

此外，GPT-4的回覆的精準度雖然更高，但仍不排除會有失誤。

微軟也同步說明，目前整合ChatGPT的新版Bing，已是基於GPT-4所打造。

文 \ 蔡宗桓