在和OpenAI的恩怨情仇愈演愈烈之际,老马这波直接开源了家里最深厚的底蕴——旗下的AI公司XAI公开开源了其3140亿参数的大模型Grok-1!
网站地址 | https://github.com/xai-org/grok-1
就在昨日,Grok-1的GitHub代码仓库随之上线,引发了开源社区的狂欢。代码星标数直线飙升至4.5k。各路大神们纷纷飞奔而来,要第一时间尝尝这款"马斯克专属大杀器"的鲜。
更有人调侃说这是马斯克为了怼OpenAI的ChatGPT,拿出的终极反击武器。现在就连ChatGPT也不放过,已经现身Grok-1的评论区,准备和马斯克再次斗嘴了。
这次开源的Grok-1,是一款拥有高达3140亿参数的大型语言模型。架构上它采用了混合专家(MoE)设计,总共有8个专家模块,处理单个query时会激活其中2个专家。
就连激活的86亿参数,都已经远超当前最大的密集模型Llama 2的70亿参数了。可以说,Grok-1彻底打破了现有模型的上限,将大模型推向了一个全新的天文数字级别。
不过,要运行这么大规模的模型,对硬件资源的要求也相当罕见。据透露,即使用8bit量化,也需要8块N卡最新的H100 GPU才能负荷得了Grok-1的运算。
除了惊人的参数规模,Grok在架构细节上也有不少创新之处。它并没有使用主流的PyTorch或TensorFlow,而是基于Rust语言和JAX框架开发。
此外,Grok还采用了旋转位置编码、增强版专家选择机制等设计,在embedding大小、多头注意力模块等方面也有一些特殊的参数设置。
Grok-1开源当然是一件好事,让更多人能近距离接触到大模型的设计理念。AI需要长期的投入和耕耘,期待待Grok-1开源后的更多发展吧。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容