LongCat-Flash-Chat：美团开源的快又聪明的大语言模型，AI应用新选择

在大模型百花齐放的当下，国内互联网巨头们纷纷加入 AI 赛道。近日，美团正式开源了其全新的大语言模型 LongCat-Flash-Chat。顾名思义，这是一款兼具 高速度 与 强智能 的大模型，定位于对话式交互与多场景应用，展现了美团在人工智能领域的深度探索。

对于开发者、研究者以及想要在 AI 创新上“快人一步”的团队而言，LongCat-Flash-Chat 的出现无疑是一份重磅福利。

一、LongCat-Flash-Chat 是什么？

LongCat-Flash-Chat 是美团最新开源的大语言模型，主打“快”和“聪明”：

快：基于高效推理架构，能在较低硬件成本下实现高速响应。
聪明：在对话生成、逻辑推理、信息检索与总结方面表现优秀。
开源：开发者可直接调用和部署，二次开发更加灵活。

这一定位让它不仅能与市面上的主流大模型（如 DeepSeek、Qwen、Llama 等）形成互补，更在特定场景下具备性能优势。

二、技术亮点

🌟 可扩展的架构设计以提高计算效率

LongCat-Flash 的设计和优化遵循两个关键原则：高效的计算利用，以及高效的训练和推理。具体来说，(1) 由于并非所有 token 都相同，我们在 MoE 模块中引入了零计算专家机制，根据其重要性动态分配计算预算给重要 token，即根据上下文需求激活 18.6 到 31.3 亿个参数（总共 560 亿个参数）。为确保计算负载的稳定性，我们采用 PID 控制器调整专家偏差，保持每个 token 平均激活约 27 亿个参数。(2) 随着通信开销成为 MoE 模型扩展的瓶颈，我们引入了 Shortcut 连接的 MoE（ScMoE）设计来扩展计算-通信重叠窗口。结合定制的基础设施优化，该设计支持在数万个加速器上进行大规模训练，并实现高吞吐量和低延迟的推理。

🌟 高效的模型扩展策略

高效且有效地扩展模型规模仍然是策略设计中的一个关键挑战。为此，我们开发了一个全面的稳定性和扩展性框架，用于稳健地训练大规模模型：(1) 我们成功地将超参数迁移策略应用于此类大型模型，通过利用具有理论保证的小型代理模型的结果来预测最佳超参数配置。(2) 我们使用基于精炼的半规模检查点的模型增长机制初始化模型，与传统初始化方法相比，实现了性能的提升。(3) 多重稳定性套件包括原则性的路由梯度平衡、用于抑制大规模激活的隐藏 z 损失以及微调的优化器配置。(4) 为了增强大规模集群训练的可靠性，我们引入了确定性计算。这保证了实验的精确可重复性，并能够在训练过程中检测到 SDC（静默数据损坏）。这些干预措施确保了 LongCat-Flash 的训练保持稳定，没有不可恢复的损失尖峰。

🌟 用于实现代理能力的多阶段训练流程

通过精心设计的流程，LongCat-Flash 被赋予了先进的智能体行为。初期工作集中于构建更适合智能体后训练的基础模型，我们设计了一种两阶段预训练数据融合策略来集中推理密集型领域数据。在训练中期，我们增强了推理和编码能力，并将上下文长度扩展至 128k 以满足智能体后训练要求。基于这个先进的基础模型，我们继续进行多阶段后训练。鉴于智能体任务的高质量、高难度训练问题稀缺，我们设计了一个多智能体合成框架，该框架通过三个维度定义任务难度，即信息处理、工具集复杂性和用户交互——使用专用控制器生成需要迭代推理和环境交互的复杂任务。

三、应用场景

智能客服：部署在电商、外卖、服务行业，提供更自然的客户交互体验。
办公助理：帮助用户写作、会议纪要、数据分析，提升办公效率。
教育学习：辅助学生答疑解惑，生成练习题，解释复杂知识点。
科研文献处理：快速总结论文核心观点，提高科研工作效率。
开发辅助：结合代码提示与错误分析，成为程序员的贴心助手。

四、对比其他大模型

模型	优势	适用场景
LongCat-Flash-Chat	快速响应、低成本运行、对话优化明显	聊天、客服、办公、轻量级 AI 应用
DeepSeek	超大规模、推理强大、开源社区活跃	高强度运算、科研、企业级应用
Qwen (通义千问)	中文语境强、生态支持完善	中文办公、教育、内容创作
Llama 3	国际社区广泛使用，兼容性强	海外研究、开源生态二次开发

基准	DeepSeek V3.1	Qwen3 MoE-2507	Kimi-K2	GPT-4.1	Claude4 Sonnet	Gemini2.5 闪存	LongCat-闪存
架构	MoE	MoE	MoE	–	–	–	MoE
# 总参数	671B	235B	1043B	–	–	–	560B
# 激活参数	37B	22B	32B	–	–	–	27B
通用领域
MMLU_(acc)	90.96	90.23	89.86	89.64	91.75	86.33	89.71
MMLU-Pro_(acc)	84.45	84.83	82.06	81.72	83.74	81.95	82.68
ArenaHard-V2_(acc)	84.10	88.20	85.70	61.50	62.10	77.00	86.50
CEval_(acc)	89.21	92.70	91.26	79.53	86.63	78.78	90.44
CMMLU_(acc)	88.04	88.14	89.66	77.65	86.51	78.30	84.34
指令跟随
IFEval_(acc)	86.69	88.54	88.91	85.58	88.35	83.92	89.65
COLLIE_(acc)	43.80	49.71	56.34	50.00	51.22	48.60	57.10
Meeseeks-zh_(acc)	33.83	35.32	42.79	41.54	35.07	34.84	43.03
数学推理
MATH500_(acc)	96.08	98.80	97.60	90.60	93.80	98.40	96.40
AIME24_(avg@10)	66.30*	81.67	69.60*	47.00	47.00	79.67	70.42
AIME25_(avg@10)	49.27	68.33	50.66	32.00	37.00	67.33	61.25
BeyondAIME_(avg@10)	36.50	57.60	36.60	22.10	20.50	44.20	43.00
一般推理
GPQA-diamond_(acc)	74.90*	77.43	75.76	67.68	70.71	80.30	73.23
DROP_(f1)	84.19	78.57	89.04	66.94	73.06	45.03	79.06
ZebraLogic_(acc)	85.30	94.22	89.11	56.30*	75.85	51.78	89.30
GraphWalks-128k_(精度)	73.54	80.72	47.50	85.02	80.57	64.83	51.05
编码
LiveCodeBench_{(Top1 准确率)}	56.40*	46.48	46.70	39.21	45.59	39.65	48.02
Humaneval+_{(Top1 准确率)}	92.68	94.51	85.98	93.29	94.51	87.80	88.41
MBPP+_(pass@1)	79.89	79.89	81.75	79.37	80.16	76.19	79.63
SWE-Bench-Verified_(acc)	66.00*	42.00	64.60	48.60	68.00*	40.60	60.40
TerminalBench_(acc)	31.30*	17.28	25.93	28.40	40.74	12.35	39.51
Agentic Tool Use
τ²-Bench (电信)_(avg@4)	38.50	22.50	67.50	35.20	46.20	16.50	73.68
τ²-Bench (航空)_(avg@4)	46.00	36.00	54.20	56.00	60.00	41.50	58.00
τ²-Bench (零售)_(avg@4)	64.90	70.50	70.80	74.10	80.00	64.80	71.27
AceBench_(acc)	69.70	71.10	82.20	80.10*	76.20*	74.50*	76.10
VitaBench_(avg@4)	20.30	8.50	18.20	19.00	23.00	8.00	24.30
安全
有害	82.79	80.82	53.91	56.19	66.56	–	83.98
犯罪	87.83	89.13	77.19	81.58	87.58	–	91.24
错误信息	83.17	77.76	42.68	45.49	54.91	–	81.72
隐私	98.80	98.80	96.39	98.80	100.00	–	93.98

注意：

标有 * 的值来自其他公开报告。
DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash 和 Claude4-Sonnet 均在非思考模式下进行评估。

快速入门

聊天模板

我们的聊天模板的详细信息在 tokenizer_config.json 文件中提供。以下是一些示例。

第一轮

使用以下前缀，LongCat-Flash 可以生成对应用户查询的回复：

[Round 0] USER:{query} ASSISTANT:

当指定系统提示时，前缀将采用以下格式：

SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:

多轮

在多轮场景中，前缀是通过将上下文与最新的用户查询连接起来构建的：

SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:{response}</longcat_s>... [Round N-1] USER:{query} ASSISTANT:{response}</longcat_s> [Round N] USER:{query} ASSISTANT:

此处，N 表示用户查询的第 N 轮，索引从零开始。

ToolCall

LongCat-Flash 支持以下格式的工具调用：

{tool_description}

## Messages
SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:

工具描述是：

## Tools
You have access to the following tools: 

### Tool namespace: function

#### Tool name: {func.name}

Description: {func.description}

InputSchema: 
{json.dumps(func.parameters, indent=2)}

**Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>
When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call><longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>

结语

LongCat-Flash-Chat 的出现，不仅丰富了国内大模型生态，也为开发者提供了更灵活、更高效的选择。
在 AI 技术不断加速演进的今天，美团用实际行动证明了其在人工智能赛道的投入与探索。无论是企业应用还是个人研究，LongCat-Flash-Chat 都是一款值得尝试的大语言模型。