專題副刊

谷歌新AI遊戲模型技驚四座 文字圖片可生成遊戲

文:蔡宗桓

AI發展速度可謂日新月異。繼2月中OpenAI展示驚人的Sora模型之後,稍早前,Google收購的英國AI公司DeepMind也拋出震撼彈,公佈最新開發的AI基礎世界模型Genie(Generative Interactive Environments)的範例視頻,聲稱用戶能無需事先在遊戲機制及運作上接受訓練,即可通過提供Genie文字或圖片提示的方式,來指示它產出互動式動畫遊戲,可謂是技驚四座,鋒頭一時無兩。

Advertisement

Google DeepMind披露,Genie是一款能生成互動環境的模型,據了解,這模型是利用公開且長達20萬小時的網絡視頻訓練而成。與Sora不同的地方在於,Genie能創建出 “可操控的世界”,不單單只是視頻。

此外,Genie還有一個令人印象深刻的部份,即其數百小時的訓練雖是在無人監督下完成,但它卻仍能對物理有深入理解,而這也使得Genie能理解遊戲機制的不同層面,如玩家的控制、動作和移動。

Genie的一大特色就是根據文字或圖片來創建一個能與用戶產生互動的2D遊戲世界。

Google DeepMind的開發者Tim Rocktaschel通過網絡發文說:“我們的模型能把任何圖像轉換為可玩的2D遊戲世界,甚至把一張草圖變為遊戲。”

ADVERTISEMENT

值得一提的是,Tim還說,Genie不僅能夠打造電子遊戲,同時還具有向其他AI模型傳授有關3D世界知識的潛力。

“我們在沒有動作資訊的機器人控制模型(RT-1)上訓練Genie,並證明它也可以在那裡學習並打造出一個可控制動作的模擬器,我們認為,這是邁向AGI 通用世界模型的一大步。”

由此看來,似乎未來即使是在缺乏明確動作指令的情況下,實體機器人甚至也能在現實世界中完成從沒被訓練過的任務。

近幾個月來,Google已釋出多則生成式AI模型的產品或資訊,包括最強AI顧問“Gemini”、文字轉影片生成工具”Lumiere”、以及關鍵字圖片生成工具“ImageFX”,無不吸引大眾目光。

然而,Gemini早前在生成圖像時涉及種族爭議,並造成母公司Alphabet單日股價下跌逾4%的情況也不可不防,而Google隨後也已暫時把Gemini的該項功能下架,並承諾將在未來幾週內修復有關問題。

Tags
你也可能感兴趣...