
3月27日,美团龙猫(LongCat)团队正式发布并全面开源原生多模态大模型LongCat-Next及其核心组件——离散原生分辨率视觉分词器(dNaViT)。这一创新性模型摒弃了传统以语言为中心的拼凑式架构,首次实现图像、语音、文本统一映射为同源离散Token,标志着多模态AI技术迈入全新阶段。
颠覆传统架构:原生多模态新范式
长期以来,大模型领域普遍采用以语言为中心的架构设计,将视觉和语音模态强行转换为语言表示,导致多模态理解存在先天不足。LongCat-Next彻底改变了这一范式,通过纯粹的"下一个Token预测"(NTP)机制,让视觉与语音真正成为AI的"原生母语"。
这一突破性设计使模型能够更自然、更高效地处理多模态信息,无需经过复杂的中间转换过程,大幅提升了跨模态理解和生成能力,为AI技术发展开辟了全新路径。
技术突破:dNaViT视觉分词器与统一Token映射
LongCat-Next的核心创新在于其独特的离散原生分辨率视觉分词器(dNaViT),该组件能够将不同分辨率的图像直接转换为与文本、语音同源的离散Token序列。这种统一映射机制消除了传统多模态模型中模态间的转换壁垒。
模型总计拥有685亿参数,但在实际推理过程中仅激活30亿参数,基于此前发布的LongCat-Flash-Lite混合专家(MoE)架构构建。这种设计在保证高性能的同时,显著降低了计算资源需求,使模型更易于部署和应用。
应用前景:本地化多模态应用开发新机遇
LongCat-Next的开源为全球开发者提供了强大的多模态AI工具,特别适用于本地化部署的多模态应用场景。从智能客服到内容创作,从教育辅助到医疗诊断,该模型将赋能各行业开发更加智能、自然的交互体验。
相较于此前发布的LongCat-Flash-Omni(5600亿参数)和LongCat-Flash系列模型,LongCat-Next在保持高性能的同时更加注重实用性和部署效率,体现了美团在大模型研发上"性能与实用并重"的战略方向。
开源战略:美团持续推动AI生态建设
此次LongCat-Next的全面开源是美团继LongCat-Flash系列后在大模型开源领域的又一重要举措。美团技术团队表示,将持续推动AI技术分享与生态共建,通过开源促进技术创新和产业应用。
随着LongCat-Next的发布,美团在多模态AI领域的布局更加完善,从基座模型到图像、视频、语音等多个方向,构建起完整的AI技术生态体系,为行业提供全方位的技术支持和解决方案。
