專題副刊

OpenAI新一代模型o1 擅思考數學程式設計

文\蔡宗桓

OpenAI最新推出的AI模型系列為o1系列,其主要特點是能夠在回答前花更多時間思考複雜問題,且在科學、程式設計、數學等領域表現出色,具有博士級別的推理能力。

Advertisement

OpenAI近期發布了新一代人工智慧模型家族,代號為“Strawberry”,正式名稱為OpenAI o1。目前已推出2個版本,即o1-preview和專注於程式碼生成的o1-mini。

OpenAI形容,o1是一個在給出最終答案之前會先進行思考的模型,而它可解決如科學、數學、編碼等方面更困難的問題。o1避免掉一些會困擾生成式AI運作的推理陷阱,且花更多時間考慮問題的所有面向。

OpenAI宣稱,o1與其他AI模型不同之處,在於它回應問題前的“思考”能力,類似人類在回答難題之前可能會思考很長時間,且它能在回應問題前先進行自我查證,並全面考慮問題的各個方面。通過強化學習訓練,o1學會在私密的思維鏈中進行推理,並根據結果獲得獎勵或懲罰。

ADVERTISEMENT

OpenAI使用新的優化演算法和包含推理數據的訓練資料集,使o1在綜合多項子任務結果方面表現出色。因此,o1特別適合用於處理需要長時間推理的複雜任務,如檢測律師信箱中的特權郵件或構思產品行銷策略。

在國際數學奧林匹亞競賽的資格考試中,o1正確解答了83%的問題,遠超GPT-4o的13%。在Codeforces線上程式設計競賽中,o1達到參賽者的89百分位。GitHub測試則顯示,o1在優化演算法和應用程式程式碼方面表現出色。

o1在數據分析、科學和編程等領域的表現普遍優於前代模型。它還改善了多語言能力,特別是在阿拉伯語和韓語方面。然而,o1也存在一些缺點,如回應速度較慢,有時需要10秒以上才能回答問題。

不過,須注意的是,支援o1的ChatGPT目前有使用限制。與GPT-4o相比,o1還無法瀏覽網頁或分析文件,儘管o1有圖像分析功能但未開放,仍在進行更多測試。o1預覽版每週限制為30次訊息提問,o1-mini每週則限50次。

OpenAI並非唯一研究這類推理方法的AI公司。Google DeepMind最近的研究顯示,通過給予模型更多計算時間和指導,可以顯着提升模型性能。

OpenAI選擇不在ChatGPT中展示o1的原始“思維鏈”,部分原因是考慮到“競爭優勢”。雖然OpenAI率先推出o1,但競爭對手可能很快跟進。OpenAI的真正挑戰在於如何讓o1廣泛可用且價格更低,並持續升級o1模型以保持競爭力。

Strawberry幾個r AI給錯答案:2個r

無論是ChatGPT或 Claude,在詢及“Strawberry這個單字中包含幾個r”的問題時,居然都給出了錯誤的答案。

無論用戶是使用ChatGPT或Claude,當用戶向AI發問一個問題,即“Strawberry這個單字中有幾個r”時,AI竟給出錯誤答案:2個。

上述這件有趣的事情,正是OpenAI宣布推出全新推理模型OpenAI o1時,給予外界簡單卻又令人感到驚訝的示範。擁有推理能力、懂得思考的o1模型,原則上會給予正確的答案,並數出Strawberry中帶有3個r字母,但傳統的大型語言模型(LMM)卻給出錯誤的答案。

為什麼ChatGPT或Claude皆無法正確數出Strawberry其實有3個r呢?其實理由很簡單,因為大型語言模型的是通過“標記”後的資料去進行訓練,而AI會把Strawberry整個單詞視為一個標記,既不會去拆解這個標記(單詞),更會對每個字母之間的差異視而不見。

多數的大型語言模型,原則上都無法正確回答Strawberry問題,不過OpenAI的o1推理模型卻可以,而造成兩者之間有此差異的關鍵,在於OpenAI o1擁有“思維鏈”,可以拆解用戶提出的問題,並且經過思考後再給予答案。

OpenAI o1具自我反省能力

這是因為OpenAI o1導入了被稱為強化學習(Reinforcement learning,RL)的訓練方法,要求AI模型在回答問題之前,花上更多時間思考問題,並創造出一步一步深入解構問題的思維鏈,而新的訓練流程也讓o1得以嘗試不同的解題策略,並且“認識”自己對於問題理解上的錯誤。

換句話說,身為推理模型的OpenAI o1,事實上有着自我反省的能力,並可藉由先了解自己的錯誤,在沒有人類的提示下,對問題進行更準確的理解,進而給出更加合理的答案。當然,這背後的運作原理極度複雜,有時甚至不為科學家明確所知。

唯一可以確定的部分,在於OpenAI o1將能有效處理更加複雜的任務,尤其是在競爭性程式設計、數學和科學推理方面。

OpenAI也指出,o1推理模型在物理、化學和生物學的特定任務上,其表現幾乎與人類博士生的水準相當;至於小型的 o1-mini則是專為程式碼編寫任務所設計,成本方面比起o1-preview要低80%。

值得注意的是,即便OpenAI o1懂得思考與反省,但在大多數任務和指標上,它仍未超越GPT-4o,尤其是在回答延遲方面,畢竟其在幕後多出了大量的運算步驟。

不應形容AI會思考會推理

與GPT-4o相比,o1在多項基準測試上有更好的表現。

OpenAI o1正式公開後,AI領域除了有驚訝的聲音,當然也不乏部分批評。

Hugging Face執行長Clement Delangue首先指出,AI系統的運作不該使用“思考”這個說法,它們只是在“處理”和“執行預測”,就像Google搜尋給出的建議那樣,而通過思考來描述OpenAI o1更像是種行銷手段,希望欺騙用戶並讓大眾認為AI已變得比以前更聰明。

此外,OpenAI使用的“推理”(Reasoning)也是一個相對模糊的術語,即使用在人類身上,其實也很難準確定義該術語的實質含義。

獨立人工智慧研究員Simon Willison認為,目前,他難以使用大型語言模型所具備的能力,來界定“推理”這個詞對於 AI的確切意義,而他希望未來可以找到一個範例,例如在過去的模型上做不到,但是o1卻做得到的事情,以協助證明“推理”所代表的真正內涵。

倍耐力開發智慧輪胎

智慧輪胎讓用戶可時刻掌握路況與車輛狀態。

意大利輪胎製造商倍耐力(Pirelli)與德國科技公司博世(Bosch)於2024年9月10日宣布合作,攜手開發基於軟件的“智慧輪胎”技術。這項技術旨在通過輪胎內建感測器來收集、處理並傳送即時數據,從而提升車輛的安全性、舒適性、可持續性以及駕駛動態。

這次合作結合了倍耐力在輪胎感測技術的專長與博世在硬體和軟件系統上的領導地位,期望為汽車電子控制系統提供關鍵數據,進一步增強駕駛的穩定性。雙方先前已針對義大利超跑製造商帕加尼(Pagani)的車輛進行穩定控制應用的合作,這次則是進一步擴展至智慧輪胎的領域。

智慧輪胎的最大特點在於它能即時提供車輛路況、輪胎壓力等數據,為車輛的電子控制系統提供更準確的數據支持。這項技術預計將為車輛安全及駕駛體驗帶來重大改變,特別是高端汽車市場的車輛。這項創新也代表着未來車聯網技術的進一步發展。

目前,雙方並未公布合作的具體財務細節,但預計這項技術將在未來的高性能車輛及自動駕駛技術中發揮關鍵作用。這次的合作不僅代表輪胎技術的進步,也體現了車輛科技與物聯網技術的深度融合。

印青年發明世上最小吸塵器

印度學生發明世界最小吸塵器, 最短軸僅0.65公分。

印度一名男學生早前發明“世界最小”的吸塵器,最短軸僅0.65公分,讓它因此獲健力士世界紀錄認證為全球最小的吸塵器。

根據健力士世界紀錄網站的報導,來自印度的23歲男學生納達穆尼(Tapala Nadamuni)是通過改造原子筆的方式打造出小於尾指指甲平均寬度,最短軸僅0.65公分的吸塵器,並可通過USB供電,有效清理微塵和碎屑,特別適合用來清潔鍵盤及汽車內飾等狹窄空間,也比上一個2022年創下的紀錄還小了0.2公分。

納達穆尼說,他是把可填充原子筆改造成吸塵器,並添加一些小塑膠和金屬零件,總成本約為2萬印度盧比(約1025令吉)。

吸塵機內設是由4 Volt震動摩打推動的微型風扇,以產生吸力。當連接電源後,吸塵機便會啟動。

納達穆尼也希望他的發明能鼓勵更多人參與創新設計,並展示如何以低成本實現高效能的成果。

“發明不一定需要依賴昂貴的材料或複雜的技術,只要運用創意,日常物品亦能轉變成驚人的工具。”

AirPods Pro添助聽器功能

在Apple宣佈AirPods Pro(第二代)推出新助聽器功能數天後,美國食品藥品監督管理局(FDA)已向支援該功能的軟件發出批核。

FDA把Apple的方案稱為“首個非處方助聽器軟件裝置”。該功能通過了臨床研究,有關研究包含118名患有輕度至中度聽力損失的測試者,結果顯示,使用HAF自我調整策略的用戶與經專業人士調整相同設備的用戶感知效果相若。

Apple在今年秋季發佈會推出多項新功能,讓AirPods Pro具備臨床級助聽器功能就是其中之一,展現Apple對聽力健康的持續關注。

AirPods Pro還將新增“聽力保護”模式,功能會在嘈雜環境下自動啟用,保護用戶聽力,同時保持自然和生動的音效。

此外,AirPods Pro用戶還可進行全新的“聽力測試”,用戶需在耳機播放音調時點擊屏幕作回應,測試結果會顯示在Apple的健康應用程式中,並根據結果建立個人化的助聽音效配置檔案。

引入這些助聽功能是Apple的一項重大突破,並有助於減少使用助聽器的社會標籤,同時降低消費者保護聽力的成本。

世界衛生組織的數據顯示,全球約有15億人受到不同程度的聽力損失困擾。FDA指Apple的申請是根據De Novo分類進行審核,而該分類適用於風險較低至中等,且無先例的創新設備。

 

 

標籤
你也可能感兴趣...
Close