【LLM】马斯克：Grok-1大模型开源了

【LLM】马斯克：Grok-1大模型开源了

1年前更新

010513

在和OpenAI的恩怨情仇愈演愈烈之际,老马这波直接开源了家里最深厚的底蕴——旗下的AI公司XAI公开开源了其3140亿参数的大模型Grok-1!

图片[1]-【LLM】马斯克：Grok-1大模型开源了

网站地址 | https://github.com/xai-org/grok-1

就在昨日,Grok-1的GitHub代码仓库随之上线,引发了开源社区的狂欢。代码星标数直线飙升至4.5k。各路大神们纷纷飞奔而来,要第一时间尝尝这款"马斯克专属大杀器"的鲜。

更有人调侃说这是马斯克为了怼OpenAI的ChatGPT,拿出的终极反击武器。现在就连ChatGPT也不放过,已经现身Grok-1的评论区,准备和马斯克再次斗嘴了。

图片[2]-【LLM】马斯克：Grok-1大模型开源了

这次开源的Grok-1,是一款拥有高达3140亿参数的大型语言模型。架构上它采用了混合专家(MoE)设计,总共有8个专家模块,处理单个query时会激活其中2个专家。

就连激活的86亿参数,都已经远超当前最大的密集模型Llama 2的70亿参数了。可以说,Grok-1彻底打破了现有模型的上限,将大模型推向了一个全新的天文数字级别。

不过,要运行这么大规模的模型,对硬件资源的要求也相当罕见。据透露,即使用8bit量化,也需要8块N卡最新的H100 GPU才能负荷得了Grok-1的运算。

除了惊人的参数规模,Grok在架构细节上也有不少创新之处。它并没有使用主流的PyTorch或TensorFlow,而是基于Rust语言和JAX框架开发。

此外,Grok还采用了旋转位置编码、增强版专家选择机制等设计,在embedding大小、多头注意力模块等方面也有一些特殊的参数设置。

图片[3]-【LLM】马斯克：Grok-1大模型开源了

Grok-1开源当然是一件好事,让更多人能近距离接触到大模型的设计理念。AI需要长期的投入和耕耘,期待待Grok-1开源后的更多发展吧。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

技术灵感
# AI # 新闻

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容