AI交易员“面试”惨遭淘汰华尔街炒股还得靠人脑

2026-05-08

人工智慧（AI）正快速进入金融产业，但在最核心、也最敏感的交易领域，AI目前仍未展现足以取代真人基金经理的能力。近期多项公开测试显示，大型语言模型（LLM）在自主交易上的表现普遍不理想。不少模型不仅亏损，还出现交易过于频繁、策略方向混乱，以及同样指令下做出完全不同决策等问题。

其中最受关注的案例，是科技新创公司Nof1举办的Alpha Arena竞赛。该竞赛找来Anthropic的Claude、Google的Gemini、OpenAI的ChatGPT，以及马斯克旗下Grok等8个主流AI系统参赛。

每个模型在每轮比赛开始前各获得1万美元资金，并在2周内自主交易美国科技股。竞赛内容包括依照不同讯号交易、进行防禦性操作、观察竞争对手表现，以及使用高槓杆策略等。

最终结果显示，整体投资组合亏损约三分之一。在32组结果中，仅有6次成功获利。

同样指令却做不同决策

竞赛结果也暴露出AI模型之间极大的行为差异。在相同提示词下，阿里巴巴的Qwen模型共执行1418笔交易，但Grok 4.20仅进行158笔交易。Grok的最佳成绩出现在可以观察竞争对手绩效的赛事中。

Nof1创办人Jay Azhang指出，各模型在市场态度上存在明显偏差。Claude偏向做多，Gemini对做空毫无牴触，而Qwen则更愿意利用高槓杆承担风险，。

经营LLM驱动基金的Intelligent Alpha负责人Doug Clinton形容，这些模型就像具有不同个性的分析师，需要被管理与校正。他指出，如果让模型知道自己存在某种偏见，部分结果确实能改善。

AI部落格Flat Circle也追踪了11个市场相关竞技场。结果显示，每个竞技场至少都有一个模型获利，但只有2个竞技场的模型中位数呈现正报酬，代表大多数模型仍难以跑赢市场。

Jay Azhang直言，“现在把钱直接交给LLM让其自行交易，这条路还行不通。”

AI擅长研究却不会交易

多位参与者认为，目前LLM最大的问题，不是无法取得资讯，而是无法理解市场中各种讯号的重要程度。Jay Azhang表示，LLM在研究与工具调用方面颇具优势，但它们仍难以判断分析师评级、内部人交易、市场情绪等因素，究竟哪一项对股价更重要。这也导致模型容易出现几种共同问题，包括交易时机错误、仓位设定不当，以及频繁进出市场。

不过，在聚焦较单一任务时，AI模型仍展现一定能力。Intelligent Alpha的测试让10个AI模型存取财报、分析师预测、财报电话会议逐字稿、宏观经济数据，以及网路搜寻功能，专门判断企业盈利预测方向。

结果显示，2025年第4季，OpenAI的ChatGPT对盈利预测方向的判断准确率达68%，创下目前最佳纪录。

Doug Clinton表示，随着模型版本持续更新，整体能力确实呈改善趋势。

华尔街仍不敢全交给AI

儘管AI已大量进入金融产业，包括解析新闻、撰写备忘录、侦测诈欺等领域，但真正涉及资金操作时，金融业仍高度依赖真人决策。

Nof1目前也未将AI定位成完全自主交易员，而是提供工具，让散户建立AI交易代理系统，协助执行自己的策略。

Coatue Management前数据科学主管、现任NX1 Capital的Alexander Izydorczyk则指出，目前他追踪的AI交易机器人中，仍没有任何一个能长期稳定创造超额收益。

不过，他也认为，真正有效的AI交易策略，未来未必会公开出现在竞技场。他意有所指地表示，一旦LLM代理人的交易策略真正开始奏效，市场可能不会立刻得知任何消息。

標籤

您好！請登入您的帳號