美团LongCat-Next重磅发布：全球首个原生多模态大模型打破语言中心架构

3月27日，美团龙猫（LongCat）团队正式发布并全面开源原生多模态大模型LongCat-Next及其核心组件——离散原生分辨率视觉分词器（dNaViT）。这一创新性模型摒弃了传统以语言为中心的拼凑式架构，首次实现图像、语音、文本统一映射为同源离散Token，标志着多模态AI技术迈入全新阶段。

颠覆传统架构：原生多模态新范式
长期以来，大模型领域普遍采用以语言为中心的架构设计，将视觉和语音模态强行转换为语言表示，导致多模态理解存在先天不足。LongCat-Next彻底改变了这一范式，通过纯粹的"下一个Token预测"（NTP）机制，让视觉与语音真正成为AI的"原生母语"。

这一突破性设计使模型能够更自然、更高效地处理多模态信息，无需经过复杂的中间转换过程，大幅提升了跨模态理解和生成能力，为AI技术发展开辟了全新路径。

技术突破：dNaViT视觉分词器与统一Token映射
LongCat-Next的核心创新在于其独特的离散原生分辨率视觉分词器（dNaViT），该组件能够将不同分辨率的图像直接转换为与文本、语音同源的离散Token序列。这种统一映射机制消除了传统多模态模型中模态间的转换壁垒。

模型总计拥有685亿参数，但在实际推理过程中仅激活30亿参数，基于此前发布的LongCat-Flash-Lite混合专家（MoE）架构构建。这种设计在保证高性能的同时，显著降低了计算资源需求，使模型更易于部署和应用。

应用前景：本地化多模态应用开发新机遇
LongCat-Next的开源为全球开发者提供了强大的多模态AI工具，特别适用于本地化部署的多模态应用场景。从智能客服到内容创作，从教育辅助到医疗诊断，该模型将赋能各行业开发更加智能、自然的交互体验。

相较于此前发布的LongCat-Flash-Omni（5600亿参数）和LongCat-Flash系列模型，LongCat-Next在保持高性能的同时更加注重实用性和部署效率，体现了美团在大模型研发上"性能与实用并重"的战略方向。

开源战略：美团持续推动AI生态建设
此次LongCat-Next的全面开源是美团继LongCat-Flash系列后在大模型开源领域的又一重要举措。美团技术团队表示，将持续推动AI技术分享与生态共建，通过开源促进技术创新和产业应用。

随着LongCat-Next的发布，美团在多模态AI领域的布局更加完善，从基座模型到图像、视频、语音等多个方向，构建起完整的AI技术生态体系，为行业提供全方位的技术支持和解决方案。