既然AI智能体可独立完成编码工作,那么多个人工智能模型联动协作,是不是就会产出更优质的成果?斯坦福大学一项名为CooperBench的研究给出了否定的答案。实验证实,协同工作的AI编码智能体,工作表现不如单一智能体独立作业。
研究第一作者、斯坦福大学博士后Hao Zhu表示,人工智能协作存在典型的“协调困境”,两个智能体分工完成编码任务的效果,反而不如单个智能体独立完成全部工作。项目资深研究者、斯坦福大学计算机科学助理教授Diyi Yang也指出,当前顶尖的AI编码智能体组队协作时,核心能力近乎折损一半,侧面印证制约AI协作发展的关键并非编码技术本身,而是缺乏必备的社会智能。在人类软件工程团队的工作模式中,协作是核心基础能力。从业者清晰划分工作权责、同步工作进度、互补完成开发任务,同时核验队友的代码成果,保障项目整体质量与推进效率。然而,这些常态化的协作能力,恰恰是现阶段AI编码智能体所欠缺的。Hao Zhu解释,现有人工智能模型虽具备出色的语言处理能力,却无法将其应用于社交协作场景,模型的训练逻辑并未覆盖社会化语言运用场景,这也是导致其协作可靠性不足的根本原因之一。为精准测试AI智能体的协作能力,斯坦福研究团队搭建了规模化实测场景,选取超650项真实软件工程任务开展实验。这些任务覆盖Python、TypeScript、Go、Rust四种主流编程语言,均源自12个热门开源代码库,由8名具备一线软件工程经验的研究人员完成任务设计、测试搭建与基准代码编写。所有任务均设置了天然的工作重叠与冲突风险,贴合真实软件开发场景中协作的难点与核心需求。实验中,两个协作AI智能体均被开放代码编辑、本地指令运行权限,同时配备实时通讯功能,可随时交互沟通。完成协作编码后,研究团队对合并后的代码成果展开系统评估,最终证实了显著的“协作鸿沟”。值得关注的是,能力折损问题集中出现在中等难度任务中,这类任务原本被认为是AI组队协作最能发挥优势、最易产出优质成果的场景,如今却成了协作失效的重灾区。
研究团队最初假设,实时通讯功能能够有效规避代码冲突、提升协作成功率,但实验结果推翻了这一预设。数据显示,AI智能体最多会耗费20%的资源用于相互沟通,然而通讯行为仅能小幅减少代码合并冲突,完全无法提升整体任务成功率。究其根源,AI智能体无法精准完成代码协作中的空间与语义协调,难以区分“需要修改的代码内容”与“代码修改的具体位置”,导致沟通失去实际价值。研究人员通过实时观测智能体对话案例,直观揭示了AI的协作缺陷。在一次典型交互中,智能体A预警:智能体B新增的代码内容会引发合并冲突。尽管智能体B接收到该提示并知晓风险,却仍执意推进自身代码编写,最终输出与原有代码体系不兼容的设计成果。如果是人类开发者,出于团队协作的信任维系与职业准则,绝不会无视队友的明确风险提示、强行覆盖对方的工作成果。基于实验数据,研究团队总结出导致AI协作失效的三大核心能力缺口,覆盖全部协作失效场景。一是预期偏差问题占比42%,表现为智能体无法有效整合搭档的工作状态信息,难以适配对方的工作进度与逻辑;二是沟通失效问题占比26%,核心在于核心问题无人回应,导致整体协作决策流程被打断;三是履约失效问题占比32%,表现为智能体频繁违背工作承诺、输出无法核验的内容。不过研究团队强调,AI协作能力的缺陷并非无法解决,只是优化路径并非简单调整提示词,而是需要从底层训练逻辑进行革新。人类的协作能力并非天生具备,而是后天训练习得,AI亦是如此。当前AI的训练目标仅聚焦于产出优质代码,缺少协作能力的专项训练。针对现存问题,研究团队提出了具体优化方向。其一,重构AI训练目标体系,新增协作奖励机制,引导智能体学习适配团队协作模式,而非单一追求代码质量;其二,搭建履约核验机制,通过类契约、签名认证等形式,确保智能体兑现工作承诺;同时,增设常态化代码整合核查环节,及时修正协作中的代码偏差;其三,优化智能体通信模式,借助屏幕共享等技术提升沟通精准度,保障协作信息有效传递。Hao Zhu表示,当前的AI智能体虽能模拟人类语言沟通,却未掌握社会化语境下的语言运用逻辑,这也是未来人工智能实现规模化团队协作、推动人机协同落地需要攻克的难题。
请到「后台-用户-个人资料」中填写个人说明。
© 2026. All Rights Reserved. 沪ICP备19027819号
沪公网安备31011002006159号