
2026年5月8日凌晨,人工智能领域迎来重要里程碑。百度旗下智能体产品“搭子DuMate”在全球权威智能体评测基准PinchBench中荣登榜首,不仅拿下冠军位置,更在榜单前五名中独占三席,展现出压倒性的技术优势。
此次登顶标志着百度在大模型与智能体协同能力方面取得关键突破。PinchBench作为由OpenClaw主导设立的国际评测体系,专注于评估AI智能体在复杂任务中的推理、规划与执行能力,被誉为“全球龙虾执行争霸赛”,竞争异常激烈。
值得注意的是,DuMate并非仅在单一维度胜出。在另一项聚焦深度研究能力的权威榜单DeepResearch中,该产品同样拔得头筹。这意味着其不仅擅长执行具体任务,还能在开放性、多跳推理和知识整合等高阶认知场景中保持领先。
业内专家指出,DuMate在两项高难度评测中同时夺冠,反映出百度在智能体架构设计、工具调用机制及多模态理解等方面的系统性创新。尤其是在“龙虾任务”——即需要多步骤推理与外部工具协同完成的复杂指令执行中,DuMate展现出远超Anthropic、OpenAI等国际头部厂商产品的综合能力。
此次成绩也印证了百度“文心大模型+智能体”双轮驱动战略的有效性。通过将大模型的语言理解能力与智能体的任务执行能力深度融合,DuMate实现了从“会聊天”到“能办事”的关键跃迁,真正迈向实用化AI助手的新阶段。
多家科技媒体评价称,DuMate已成为当前全球“最能打的龙虾”——这一网络热词源自对AI能否像人类一样灵活处理现实世界复杂任务的比喻。而百度此次在PinchBench与DeepResearch双榜登顶,无疑为其赢得了这一称号的最强实证。
分析认为,随着AI智能体从实验室走向产业落地,具备强执行与深研究双重能力的产品将成为下一阶段竞争的核心。百度DuMate的领先表现,不仅巩固了其在国内AI领域的领先地位,也为全球智能体发展提供了新的技术范式。
未来,百度表示将持续优化DuMate的多工具协同、跨场景泛化及自主决策能力,并加速其在办公、科研、电商等垂直领域的应用部署。可以预见,这场由DuMate引领的智能体技术竞赛,才刚刚拉开序幕。

