百度DuMate强势登顶全球智能体评测双榜成为AI领域“最能打的龙虾”

2026年5月8日凌晨，人工智能领域迎来重要里程碑。百度旗下智能体产品“搭子DuMate”在全球权威智能体评测基准PinchBench中荣登榜首，不仅拿下冠军位置，更在榜单前五名中独占三席，展现出压倒性的技术优势。

此次登顶标志着百度在大模型与智能体协同能力方面取得关键突破。PinchBench作为由OpenClaw主导设立的国际评测体系，专注于评估AI智能体在复杂任务中的推理、规划与执行能力，被誉为“全球龙虾执行争霸赛”，竞争异常激烈。

值得注意的是，DuMate并非仅在单一维度胜出。在另一项聚焦深度研究能力的权威榜单DeepResearch中，该产品同样拔得头筹。这意味着其不仅擅长执行具体任务，还能在开放性、多跳推理和知识整合等高阶认知场景中保持领先。

业内专家指出，DuMate在两项高难度评测中同时夺冠，反映出百度在智能体架构设计、工具调用机制及多模态理解等方面的系统性创新。尤其是在“龙虾任务”——即需要多步骤推理与外部工具协同完成的复杂指令执行中，DuMate展现出远超Anthropic、OpenAI等国际头部厂商产品的综合能力。

此次成绩也印证了百度“文心大模型+智能体”双轮驱动战略的有效性。通过将大模型的语言理解能力与智能体的任务执行能力深度融合，DuMate实现了从“会聊天”到“能办事”的关键跃迁，真正迈向实用化AI助手的新阶段。

多家科技媒体评价称，DuMate已成为当前全球“最能打的龙虾”——这一网络热词源自对AI能否像人类一样灵活处理现实世界复杂任务的比喻。而百度此次在PinchBench与DeepResearch双榜登顶，无疑为其赢得了这一称号的最强实证。

分析认为，随着AI智能体从实验室走向产业落地，具备强执行与深研究双重能力的产品将成为下一阶段竞争的核心。百度DuMate的领先表现，不仅巩固了其在国内AI领域的领先地位，也为全球智能体发展提供了新的技术范式。

未来，百度表示将持续优化DuMate的多工具协同、跨场景泛化及自主决策能力，并加速其在办公、科研、电商等垂直领域的应用部署。可以预见，这场由DuMate引领的智能体技术竞赛，才刚刚拉开序幕。

百度DuMate强势登顶全球智能体评测双榜 成为AI领域“最能打的龙虾”