国际

AI交易员“面试”惨遭淘汰 华尔街炒股还得靠人脑

人工智慧(AI)正快速进入金融产业,但在最核心、也最敏感的交易领域,AI目前仍未展现足以取代真人基金经理的能力。近期多项公开测试显示,大型语言模型(LLM)在自主交易上的表现普遍不理想。不少模型不仅亏损,还出现交易过于频繁、策略方向混乱,以及同样指令下做出完全不同决策等问题。

其中最受关注的案例,是科技新创公司Nof1举办的Alpha Arena竞赛。该竞赛找来Anthropic的Claude、Google的Gemini、OpenAI的ChatGPT,以及马斯克旗下Grok等8个主流AI系统参赛。

Advertisement

每个模型在每轮比赛开始前各获得1万美元资金,并在2周内自主交易美国科技股。竞赛内容包括依照不同讯号交易、进行防禦性操作、观察竞争对手表现,以及使用高槓杆策略等。

最终结果显示,整体投资组合亏损约三分之一。在32组结果中,仅有6次成功获利。

同样指令却做不同决策

竞赛结果也暴露出AI模型之间极大的行为差异。在相同提示词下,阿里巴巴的Qwen模型共执行1418笔交易,但Grok 4.20仅进行158笔交易。Grok的最佳成绩出现在可以观察竞争对手绩效的赛事中。

ADVERTISEMENT

Nof1创办人Jay Azhang指出,各模型在市场态度上存在明显偏差。Claude偏向做多,Gemini对做空毫无牴触,而Qwen则更愿意利用高槓杆承担风险,。

经营LLM驱动基金的Intelligent Alpha负责人Doug Clinton形容,这些模型就像具有不同个性的分析师,需要被管理与校正。他指出,如果让模型知道自己存在某种偏见,部分结果确实能改善。

AI部落格Flat Circle也追踪了11个市场相关竞技场。结果显示,每个竞技场至少都有一个模型获利,但只有2个竞技场的模型中位数呈现正报酬,代表大多数模型仍难以跑赢市场。

Jay Azhang直言,“现在把钱直接交给LLM让其自行交易,这条路还行不通。”

AI擅长研究却不会交易

多位参与者认为,目前LLM最大的问题,不是无法取得资讯,而是无法理解市场中各种讯号的重要程度。Jay Azhang表示,LLM在研究与工具调用方面颇具优势,但它们仍难以判断分析师评级、内部人交易、市场情绪等因素,究竟哪一项对股价更重要。这也导致模型容易出现几种共同问题,包括交易时机错误、仓位设定不当,以及频繁进出市场。

不过,在聚焦较单一任务时,AI模型仍展现一定能力。Intelligent Alpha的测试让10个AI模型存取财报、分析师预测、财报电话会议逐字稿、宏观经济数据,以及网路搜寻功能,专门判断企业盈利预测方向。

结果显示,2025年第4季,OpenAI的ChatGPT对盈利预测方向的判断准确率达68%,创下目前最佳纪录。

Doug Clinton表示,随着模型版本持续更新,整体能力确实呈改善趋势。

华尔街仍不敢全交给AI

儘管AI已大量进入金融产业,包括解析新闻、撰写备忘录、侦测诈欺等领域,但真正涉及资金操作时,金融业仍高度依赖真人决策。

Nof1目前也未将AI定位成完全自主交易员,而是提供工具,让散户建立AI交易代理系统,协助执行自己的策略。

Coatue Management前数据科学主管、现任NX1 Capital的Alexander Izydorczyk则指出,目前他追踪的AI交易机器人中,仍没有任何一个能长期稳定创造超额收益。

不过,他也认为,真正有效的AI交易策略,未来未必会公开出现在竞技场。他意有所指地表示,一旦LLM代理人的交易策略真正开始奏效,市场可能不会立刻得知任何消息。

標籤
你也可能感兴趣...
Close