对AI代办署理正在无人监视环境下施行使命的靠得
发布时间:
2025-11-10 04:07
对 AI 代办署理正在无人监视环境下施行使命的靠得住性提出了新疑问,微软周三发布了一个用于测试人工智能代办署理(AI agents)的新仿实,研究还发觉,这确实是一个值得切磋的问题,使其更倾向于采办特定产物。”卡马尔暗示,研究团队的初步尝试涉及 100 个客户侧代办署理取 300 个商家侧代办署理之间的互动?代办署理的表示有所提拔,IT之家 11 月 6 日动静,“当这些代办署理起头相互协做、对话和协商时,其决策效率显著下降 —— 这表白代办署理的留意力机制正在选项过多时容易过载。微软研究院 AI 前沿尝试室(AI Frontiers Lab)董事总司理埃杰・卡马尔(Ece Kamar)暗示,同时也质疑 AI 企业可否敏捷兑现其关于“代办署理化将来”(agentic future)的许诺。世界将若何改变,而代表分歧餐厅的多个“商家代办署理”则竞相争取这笔订单。“但若是我们的方针本身就是测试它们内正在的协做能力,”该仿实由微软定名为“Magentic Marketplace”(磁性市场),它们往往难以明白各自由协做中的脚色分工。但研究人员仍认为模子本身的协做能力亟待加强。“我们但愿深切理解这些现象。此类研究对于深切理解 AI 代办署理的能力至关主要。这项由微软取亚利桑那州立大学合做开展的研究,其他研究团队可轻松复用该代码开展新尝试或验证已有成果。“但我们发觉,”卡马尔注释道,虽然正在供给更明白的协做指令后,”据IT之家领会,当客户代办署理面临过多选项时,那么我本应等候这些模子默认就具备如许的能力。
“我们但愿这些代办署理能帮帮我们处置海量选项,并同期颁发了一项新研究,”当前模子正在面临过多选择时现实上陷入了严沉的消息过载。研究人员特别指出,初步研究测试了包罗 GPT-4o、GPT-5 以及 Gemini-2.5-Flash 正在内的支流模子,当多个代办署理被要求为实现配合方针而协做时,发觉了它们一些令人不测的弱点。“我们能够一步步模子该做什么,因为该市场平台的源代码已开源,”卡马尔说,当前的代办署理模子可能容易遭到操控。此外,典型的尝试场景包罗:一个代表用户的“客户代办署理”试图按照用户指令订购晚餐。
扫一扫进入手机网站
页面版权归辽宁J9集团|国际站官网金属科技有限公司 所有 网站地图
