LongCat-Flash-Chat:美团开源的快又聪明的大语言模型,AI应用新选择

图片[1]-LongCat-Flash-Chat:美团开源的快又聪明的大语言模型,AI应用新选择

在大模型百花齐放的当下,国内互联网巨头们纷纷加入 AI 赛道。近日,美团正式开源了其全新的大语言模型 LongCat-Flash-Chat。顾名思义,这是一款兼具 高速度强智能 的大模型,定位于对话式交互与多场景应用,展现了美团在人工智能领域的深度探索。

对于开发者、研究者以及想要在 AI 创新上“快人一步”的团队而言,LongCat-Flash-Chat 的出现无疑是一份重磅福利。

一、LongCat-Flash-Chat 是什么?

LongCat-Flash-Chat 是美团最新开源的大语言模型,主打“快”和“聪明”:

  • :基于高效推理架构,能在较低硬件成本下实现高速响应。
  • 聪明:在对话生成、逻辑推理、信息检索与总结方面表现优秀。
  • 开源:开发者可直接调用和部署,二次开发更加灵活。

这一定位让它不仅能与市面上的主流大模型(如 DeepSeek、Qwen、Llama 等)形成互补,更在特定场景下具备性能优势。

二、技术亮点

🌟 可扩展的架构设计以提高计算效率

LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用,以及高效的训练和推理。具体来说,(1) 由于并非所有 token 都相同,我们在 MoE 模块中引入了零计算专家机制,根据其重要性动态分配计算预算给重要 token,即根据上下文需求激活 18.6 到 31.3 亿个参数(总共 560 亿个参数)。为确保计算负载的稳定性,我们采用 PID 控制器调整专家偏差,保持每个 token 平均激活约 27 亿个参数。(2) 随着通信开销成为 MoE 模型扩展的瓶颈,我们引入了 Shortcut 连接的 MoE(ScMoE)设计来扩展计算-通信重叠窗口。结合定制的基础设施优化,该设计支持在数万个加速器上进行大规模训练,并实现高吞吐量和低延迟的推理。

🌟 高效的模型扩展策略

高效且有效地扩展模型规模仍然是策略设计中的一个关键挑战。为此,我们开发了一个全面的稳定性和扩展性框架,用于稳健地训练大规模模型:(1) 我们成功地将超参数迁移策略应用于此类大型模型,通过利用具有理论保证的小型代理模型的结果来预测最佳超参数配置。(2) 我们使用基于精炼的半规模检查点的模型增长机制初始化模型,与传统初始化方法相比,实现了性能的提升。(3) 多重稳定性套件包括原则性的路由梯度平衡、用于抑制大规模激活的隐藏 z 损失以及微调的优化器配置。(4) 为了增强大规模集群训练的可靠性,我们引入了确定性计算。这保证了实验的精确可重复性,并能够在训练过程中检测到 SDC(静默数据损坏)。这些干预措施确保了 LongCat-Flash 的训练保持稳定,没有不可恢复的损失尖峰。

🌟 用于实现代理能力的多阶段训练流程

通过精心设计的流程,LongCat-Flash 被赋予了先进的智能体行为。初期工作集中于构建更适合智能体后训练的基础模型,我们设计了一种两阶段预训练数据融合策略来集中推理密集型领域数据。在训练中期,我们增强了推理和编码能力,并将上下文长度扩展至 128k 以满足智能体后训练要求。基于这个先进的基础模型,我们继续进行多阶段后训练。鉴于智能体任务的高质量、高难度训练问题稀缺,我们设计了一个多智能体合成框架,该框架通过三个维度定义任务难度,即信息处理、工具集复杂性和用户交互——使用专用控制器生成需要迭代推理和环境交互的复杂任务。

    三、应用场景

    • 智能客服:部署在电商、外卖、服务行业,提供更自然的客户交互体验。
    • 办公助理:帮助用户写作、会议纪要、数据分析,提升办公效率。
    • 教育学习:辅助学生答疑解惑,生成练习题,解释复杂知识点。
    • 科研文献处理:快速总结论文核心观点,提高科研工作效率。
    • 开发辅助:结合代码提示与错误分析,成为程序员的贴心助手。

    四、对比其他大模型

    模型优势适用场景
    LongCat-Flash-Chat快速响应、低成本运行、对话优化明显聊天、客服、办公、轻量级 AI 应用
    DeepSeek超大规模、推理强大、开源社区活跃高强度运算、科研、企业级应用
    Qwen (通义千问)中文语境强、生态支持完善中文办公、教育、内容创作
    Llama 3国际社区广泛使用,兼容性强海外研究、开源生态二次开发

    基准DeepSeek V3.1Qwen3 MoE-2507Kimi-K2GPT-4.1Claude4 SonnetGemini2.5 闪存LongCat-闪存
    架构MoEMoEMoEMoE
    # 总参数671B235B1043B560B
    # 激活参数37B22B32B27B
    通用领域
    MMLU(acc)90.9690.2389.8689.6491.7586.3389.71
    MMLU-Pro(acc)84.4584.8382.0681.7283.7481.9582.68
    ArenaHard-V2(acc)84.1088.2085.7061.5062.1077.0086.50
    CEval(acc)89.2192.7091.2679.5386.6378.7890.44
    CMMLU(acc)88.0488.1489.6677.6586.5178.3084.34
    指令跟随
    IFEval(acc)86.6988.5488.9185.5888.3583.9289.65
    COLLIE(acc)43.8049.7156.3450.0051.2248.6057.10
    Meeseeks-zh(acc)33.8335.3242.7941.5435.0734.8443.03
    数学推理
    MATH500(acc)96.0898.8097.6090.6093.8098.4096.40
    AIME24(avg@10)66.30*81.6769.60*47.0047.0079.6770.42
    AIME25(avg@10)49.2768.3350.6632.0037.0067.3361.25
    BeyondAIME(avg@10)36.5057.6036.6022.1020.5044.2043.00
    一般推理
    GPQA-diamond(acc)74.90*77.4375.7667.6870.7180.3073.23
    DROP(f1)84.1978.5789.0466.9473.0645.0379.06
    ZebraLogic(acc)85.3094.2289.1156.30*75.8551.7889.30
    GraphWalks-128k(精度)73.5480.7247.5085.0280.5764.8351.05
    编码
    LiveCodeBench(Top1 准确率)56.40*46.4846.7039.2145.5939.6548.02
    Humaneval+(Top1 准确率)92.6894.5185.9893.2994.5187.8088.41
    MBPP+(pass@1)79.8979.8981.7579.3780.1676.1979.63
    SWE-Bench-Verified(acc)66.00*42.0064.6048.6068.00*40.6060.40
    TerminalBench(acc)31.30*17.2825.9328.4040.7412.3539.51
    Agentic Tool Use
    τ²-Bench (电信)(avg@4)38.5022.5067.5035.2046.2016.5073.68
    τ²-Bench (航空)(avg@4)46.0036.0054.2056.0060.0041.5058.00
    τ²-Bench (零售)(avg@4)64.9070.5070.8074.1080.0064.8071.27
    AceBench(acc)69.7071.1082.2080.10*76.20*74.50*76.10
    VitaBench(avg@4)20.308.5018.2019.0023.008.0024.30
    安全
    有害82.7980.8253.9156.1966.5683.98
    犯罪87.8389.1377.1981.5887.5891.24
    错误信息83.1777.7642.6845.4954.9181.72
    隐私98.8098.8096.3998.80100.0093.98

    注意:

    • 标有 * 的值来自其他公开报告。
    • DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash 和 Claude4-Sonnet 均在非思考模式下进行评估。

    快速入门

    聊天模板

    我们的聊天模板的详细信息在 tokenizer_config.json 文件中提供。以下是一些示例。

    第一轮

    使用以下前缀,LongCat-Flash 可以生成对应用户查询的回复:

    [Round 0] USER:{query} ASSISTANT:

    当指定系统提示时,前缀将采用以下格式:

    SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:

    多轮

    在多轮场景中,前缀是通过将上下文与最新的用户查询连接起来构建的:

    SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:{response}</longcat_s>... [Round N-1] USER:{query} ASSISTANT:{response}</longcat_s> [Round N] USER:{query} ASSISTANT:

    此处,N 表示用户查询的第 N 轮,索引从零开始。

    ToolCall

    LongCat-Flash 支持以下格式的工具调用:

    {tool_description}
    
    ## Messages
    SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:

    工具描述是:

    ## Tools
    You have access to the following tools: 
    
    ### Tool namespace: function
    
    #### Tool name: {func.name}
    
    Description: {func.description}
    
    InputSchema: 
    {json.dumps(func.parameters, indent=2)}
    
    **Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows:
    <longcat_tool_call>
    {"name": <function-name>, "arguments": <args-dict>}
    </longcat_tool_call>
    When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example:
    <longcat_tool_call>
    {"name": <function-name>, "arguments": <args-dict>}
    </longcat_tool_call><longcat_tool_call>
    {"name": <function-name>, "arguments": <args-dict>}
    </longcat_tool_call>

    结语

    LongCat-Flash-Chat 的出现,不仅丰富了国内大模型生态,也为开发者提供了更灵活、更高效的选择。
    在 AI 技术不断加速演进的今天,美团用实际行动证明了其在人工智能赛道的投入与探索。无论是企业应用还是个人研究,LongCat-Flash-Chat 都是一款值得尝试的大语言模型。

    LongCat-Flash-Chat:美团开源的快又聪明的大语言模型,AI应用新选择
    此内容为免费资源,请登录后查看
    0积分
    免费资源
    已售 4
    © 版权声明
    THE END
    喜欢就支持一下吧
    点赞5 分享
    评论 抢沙发

    请登录后发表评论

      请登录后查看评论内容