马斯克兑现开源承诺,全球最大开源AI模型Grok-1来了,免费可商用
马斯克开源了世界上最大的人工智能模型:Grok-1
马斯克旗下的人工智能初创公司xAI昨天宣布,其Grok-1模型正式开源,标志着全球最大的开源大模型的诞生。
这个拥有3410亿个参数的自研模型不仅兑现了马斯克上周的承诺,其参数数量也远远超过了GPT-3.5模型的1750亿个。
Grok-1采用混合专家(MoE)模型架构,开放其权重和网络架构,并遵守2.0协议。 它成为迄今为止参数数量最多的开源大语言模型,体现了马斯克对开源社区的支持。
探索 Grok-1:MOE 架构的巨无霸
Grok-1由马斯克的xAI团队开发,是一种采用混合专家(MOE)架构的创新模型。 这种架构汇聚了各个领域专家的智慧,当遇到特定任务时,门控网络决定将其分配给哪位专家,从而提高处理效率,同时保持高效的学习和推理能力。
Grok-1 有 3140 亿个参数,其中每个 token 只激活了 25% 的权重。 这种设计大大提高了模型的运行效率和灵活性。
自 2023 年 10 月起,xAI 开始在基于 JAX 库和 Rust 语言的自定义训练堆栈上从头开始训练 Grok-1。 尽管具体测试结果尚未公布,但Grok-1的性能和应用潜力已引起业界广泛关注。 这种开源遵循 2.0 许可证,意味着个人和商业用户都可以自由使用、修改和分发 Grok-1。 这种开放性将进一步促进模型的创新和应用。
在技术实现方面,Grok-1的模型权重和架构现已在互联网上开源。 源权重数据约为300GB。 迄今为止,该项目已获得 13,800 颗星。
为了运行 Grok-1,用户需要下载并遵循存储库中的 JAX 示例代码,但请注意,由于 Grok-1 体积较大(314B 参数),运行模型需要具有足够 GPU 内存的机器。 据估计,要想顺利运行 Grok-1,可能需要至少有 628GB GPU 内存的机器。
Grok的发展历史
Grok 的旅程开始于 2023 年 7 月 12 日,当时马斯克的 xAI 团队宣布成立并启动了他们的第一个项目。
xAI 早期,团队开发了 Grok-0,一个 330 亿参数的 LLM 原型,在标准语言模型测试中性能接近 700 亿参数的 LLaMA 2 模型,但只使用了一半的训练资源。
随后,xAI推出了Grok-1,对模型的推理和编码能力进行了重大改进。 Grok-1 在编程任务评估平台上取得了 63.2% 的成绩,在多模态学习理解(MMLU)测试中取得了 73% 的成绩,表现强劲。
具体测试数据可以参见我当时的文章《马斯克推出Grok,是狙击还是探索宇宙本质?》 》
xAI自成立以来,一直致力于与谷歌、谷歌、微软等行业巨头竞争。 其团队成员来自谷歌、谷歌研究院、微软研究院等顶级机构,体现了公司在人工智能领域的雄心。
马斯克在空中吵架
此次通过发射拥有3410亿个参数的Grok-1,马斯克实质性地回应了自己的批评,并在此过程中展现了他的承诺和开源精神。
Grok-1 开源后,通过官方账号回应 Grok 团队,暗示马斯克“偷了我的笑话”。 马斯克也不甘示弱,询问“开放性”在哪里,暗示将不再开源。
结论:开源大模型的未来前景
随着 Grok-1 正式开源,有关马斯克即将推出更高级版本 Grok-1.5 的传言似乎更加可信。
这种开源策略不仅有助于快速推广模型并吸引开发者和潜在客户,而且还成为有效的营销工具。 历史案例表明,Llama的开源成功帮助Meta重新赢得了声誉,而欧洲的小型AI初创企业也通过开源策略而名声大噪,被誉为“欧洲”。
目前业界的共识是,最先进的模型保留并收费,而较低级别的模型则开源。 这种策略不仅可以实现利润最大化,还可以为开源社区做出贡献,并有效抑制潜在竞争对手的发展。 这一策略已经被开源同易钱文开源的Gemma和阿里巴巴的Qwen-72B采用。
对于开发商来说,这种趋势带来了广泛的模式选择和更加激烈的市场竞争,迫使各大公司不断创新以提供最优质的服务。 这不仅促进了技术的快速发展,也给用户带来了实实在在的好处。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。