Elon Musk[马斯克]宣布XAI大模型Grok开源!放弃与OpenAI竞争!3140亿参数迄今最大,权重架构全开放,磁力下载

Elon Musk宣布XAI大模型Grok开源!放弃与OpenAI竞争!3140亿参数迄今最大,权重架构全开放,磁力下载
Elon Musk宣布XAI大模型Grok开源!放弃与OpenAI竞争!3140亿参数迄今最大,权重架构全开放,磁力下载

当地时间3月17日,特斯拉CEO埃隆·马斯克旗下的人工智能初创公司xAI正式宣布开源大模型Grok-1,遵循Apache 2.0协议开放模型权重和架构。官网显示,xAI已经将Grok-1的权重和架构在软件托管平台GitHub上开源。

官网介绍,Grok-1是3140亿参数的混合专家模型,是“迄今为止全球参数量最大的开源大语言模型”。相比之下,公开资料显示,OpenAI GPT-3.5的参数量为1750亿,Grok-1大幅领先。

We are releasing the base model weights and network architecture of Grok-1, our large language model. Grok-1 is a 314 billion parameter Mixture-of-Experts model trained from scratch by xAI.This is the raw base model checkpoint from the Grok-1 pre-training phase, which concluded in October 2023. This means that the model is not fine-tuned for any specific application, such as dialogue.We are releasing the weights and the architecture under the Apache 2.0 license.To get started with using the model, follow the instructions at github.com/xai-org/grok.

关于模型本身,Grok-1 是从头开始训练的,没有针对特定应用(如对话)进行微调。与此相反,在 X 平台上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。

Grok-1 的模型细节包括:

  • 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调。
  • 3140 亿参数的 MoE 模型,激活权重为 25%。
  • xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
  • xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。

项目发布截止目前为止已经获得了 8.5 k 星标,并且热度还在持续增加中。

图片[2]-Elon Musk宣布XAI大模型Grok开源!放弃与OpenAI竞争!3140亿参数迄今最大,权重架构全开放,磁力下载

该存储库包含了用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。用户需要先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中,然后运行示例代码进行测试:

pip install -r requirements.txt
python run.py

项目说明中明确强调,由于 Grok-1 是一个参数规模庞大的模型(314B 参数),因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,选择这种实现方式是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和提供的磁力链接来下载权重文件。

一些技术人员对 314B 参数的 Grok-1 需要的配置表示好奇,根据他们的估算,可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这意味着8块 H100(每块 80GB)的 GPU 就足够了。

在技术社区中,Grok-1 的开源引发了不少讨论。开源社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至连 OpenAI 的员工也表达了对该模型的兴趣。

总的来说,Grok-1 的开源程度超过了一些具有使用限制的开放权重模型,但相比于 Pythia、Bloom 和 OLMo 等模型,其开源程度仍有所不足。这些模型附带了训练代码和可复现的数据集。

DeepMind 的研究工程师 Aleksa Gordié 预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。同时,Grok-1 和 LLaMA-2 的参数量也不是一个量级。

Elon Musk[马斯克]宣布XAI大模型Grok开源!放弃与OpenAI竞争!3140亿参数迄今最大,权重架构全开放,磁力下载-MOHE素材库-设计行业的乐园,各类素材的矿山!
Elon Musk宣布XAI大模型Grok开源!放弃与OpenAI竞争!3140亿参数迄今最大,权重架构全开放,磁力下载
此内容为免费资源,请登录后查看
0积分
免费资源
已售 7
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
相关推荐
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容