LongCat

LongCat
開發者美团
首次发布LongCat-Flash-Chat
2025年9月1日​(2025-09-01
当前版本LongCat-Next
2026年4月2日​(2026-04-02
类型LLM
GPT
LxM
许可协议MIT(部分模型)
网站longcat.ai

LongCat是由中国互联网公司美团开发的大型语言模型系列[1],涵盖语言、多模态、图像生成、视频生成与语音交互等多类模型,其最新版本为LongCat-Next(2026年4月)。

概述

LongCat是由美团旗下LongCat团队开发的基于转换器的生成式预训练模型Generative pre-trained transformer,GPT)系列,专注于智能体(Agentic)任务场景下的实用性与推理效率。[2]

LongCat系列模型大多以MIT许可证开源发布,可在GitHub及Hugging Face平台获取,同时通过官网longcat.ai向公众提供在线对话体验。

版本历史

版本 类型 发布日期 状态
LongCat-Flash-Chat 语言大模型(MoE,560B参数) 2025年9月1日 活跃
LongCat-Flash-Thinking 推理模型 2025年12月 活跃
LongCat-Flash-Thinking-2601 推理增强语言模型(升级版) 2026年1月15日 活跃
LongCat-Flash-Omni 全模态语言模型 2026年3月 活跃
LongCat-Video 视频生成模型(13.6B参数) 2025年9月 活跃
LongCat-Image 图像生成模型(6B参数) 2025年 活跃
LongCat-Audio-Codec 语音编解码模型 2025年 活跃
LongCat-Flash-Prover 数学定理证明模型 2026年4月 活跃
LongCat-Next 原生多模态模型 2026年4月2日 活跃

LongCat-Flash-Chat

2025年9月1日,美团正式发布并开源LongCat-Flash-Chat。[3]该模型采用混合专家模型(Mixture-of-Experts,MoE)架构,总参数量为560B,每个Token依据上下文需求仅激活18.6B至31.3B参数(平均约27B)。模型在H800上的推理速度达到100+ tokens/s,API输出成本为5元/百万Token,以MIT许可证开源。[4]

在基准测试方面,LongCat-Flash-Chat在ArenaHard-V2中得分86.50,在MMLU中得分89.71,在CEval中得分90.44。在智能体工具使用测试τ2-Bench中的成绩超越参数规模更大的模型,并在VitaBench复杂场景评测中以24.30分排名第一。在指令遵循评测IFEval中得分89.65,排名第一;中文指令遵循基准COLLIE得分57.10,Meeseeks-zh得分43.03。[5]

架构特性

LongCat-Flash引入「零计算专家(Zero-Computation Experts)」机制,对于上下文中较简单的Token可跳过大部分计算,仅在需要时调用更多参数,从而实现算力按需分配。此外,该模型在层间铺设跨层通道,使MoE的通信与计算能够大程度上并行,极大提升训练与推理效率。训练过程采用超参迁移与模型层叠加方式,整体训练在30天内完成。[6]

LongCat-Flash-Thinking 系列

LongCat-Flash-Thinking是在LongCat-Flash基础上强化推理能力的版本,主要面向需要多步规划与逻辑推理的复杂任务场景。

2026年1月15日,升级版LongCat-Flash-Thinking-2601正式发布并开源。该版本创新性地引入「重思考模式」,通过并行推理(同时探索多条推理路径)与深度总结(对多路径结果进行整合优化)两阶段设计,提升复杂任务中的表现。根据官方资料,LongCat-Flash-Thinking-2601在Agentic Search、Agentic Tool Use与TIR等核心评测基准上均达到开源模型SOTA水平。[7]

LongCat-Flash-Omni

LongCat-Flash-Omni是LongCat-Flash系列的全模态版本,支持文本、图像、视频理解,以及语音感知与生成等多类任务,采用端到端架构设计。[8]

LongCat-Video

LongCat-Video是美团LongCat团队发布的视频生成模型,参数量为13.6B,基于扩散Transformer(Diffusion Transformer,DiT)架构构建,以MIT许可证开源。[9]

该模型以统一框架同时支持文本生成视频(T2V)、图像生成视频(I2V)与视频续写三类任务,所有任务均在同一Transformer骨干内处理。在长视频生成方面,LongCat-Video采用粗到精(coarse-to-fine)两阶段流程:首先以480p、15fps生成粗版视频,再通过基于LoRA的「精修专家」升至720p、30fps输出,该流程可在单张H800 GPU上数分钟内完成生成。此外,模型采用稀疏块注意力(Block Sparse Attention,BSA)替代密集注意力,以降低长视频生成的计算开销。[10]

LongCat-Image

LongCat-Image是美团LongCat团队发布的图像生成模型,参数量为6B,以MIT许可证开源,支持文本生图与图像编辑。[11]

LongCat-Audio-Codec

LongCat-Audio-Codec是美团LongCat团队发布的专用语音编解码方案,提供一套Token生成器与Token还原器工具链,将原始音频信号映射为语义与声学并行的Token序列,并通过解码模块重构高质量音频,为语音大模型提供全链路音频处理支持。[12]

LongCat-Flash-Prover

LongCat-Flash-Prover是面向数学形式化与定理证明的专用开源模型,支持自动形式化(Auto-Formalization)、草图生成(Sketching)与证明(Proving)三项原子能力,并基于Lean4形式语言对输出进行机器可验证。根据官方技术资料,该模型结合工具集成推理(Tool-Integrated Reasoning,TIR),在MiniF2F-Test上仅用72次推理尝试即达到97.1%的通过率;在MathOlympiad-Bench上得分46.7%,在PutnamBench上得分41.5%。[13]

LongCat-Next

2026年4月2日,美团LongCat团队发布并开源LongCat-Next,这是一个原生离散多模态模型,将图像、音频与文本统一映射为同源的离散Token,并通过单一自回归骨干以纯粹的下一个Token预测(Next Token Prediction,NTP)范式统一建模各类模态。[14]

LongCat-Next以LongCat-Flash-Lite MoE(总参数68.5B,激活参数3B)为基座,在DiNA框架下训练,并采用dNaViT分词器进行任意分辨率视觉分词。理解与生成在同一Token空间内被统一为同一数学问题,以相同自回归目标训练。[15]

参见

参考来源

  1. ^ LongCat AI by Meituan. www.longcatai.org. [2026-05-06] (英语). 
  2. ^ 美团正式发布并开源 LongCat-Flash-Chat. tech.meituan.com. [2026-05-06] (中文). 
  3. ^ 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代. tech.meituan.com. [2026-05-06] (中文). 
  4. ^ 美团正式发布并开源 LongCat-Flash-Chat. www.meituan.com. [2026-05-06] (中文). 
  5. ^ 美团正式发布并开源 LongCat-Flash-Chat. tech.meituan.com. [2026-05-06] (中文). 
  6. ^ 美团正式发布并开源 LongCat-Flash-Chat. tech.meituan.com. [2026-05-06] (中文). 
  7. ^ LongCat-Flash-Thinking-2601. tech.meituan.com. [2026-05-06] (中文). 
  8. ^ Longcat - 美团技术团队. tech.meituan.com. [2026-05-06] (中文). 
  9. ^ Meituan's LongCat Video. crepal.ai. [2026-05-06] (英语). 
  10. ^ LongCat-Video: Generate 1 minute long AI videos with this model. medium.com. [2026-05-06] (英语). 
  11. ^ Longcat - 美团技术团队. tech.meituan.com. [2026-05-06] (中文). 
  12. ^ Longcat - 美团技术团队. tech.meituan.com. [2026-05-06] (中文). 
  13. ^ LongCat AI - LongCat-Next and Open Multimodal Models. www.longcatai.org. [2026-05-06] (英语). 
  14. ^ 美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语. tech.meituan.com. [2026-05-06] (中文). 
  15. ^ 美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语. tech.meituan.com. [2026-05-06] (中文).