马斯克开源大模型Grok-1,手把手教你如何使用

admin 2025-01-31 268人围观 ,发现47个评论

GitHub链接:




居然短短一天就有29k的star!

Grok-1的模型参数:

•Parameters:314B

•Architecture:Mixtureof8Experts(MoE)

•ExpertsUtilization:2expertsusedpertoken

•Layers:64

•AttentionHeads:48forqueries,8forkeys/values

•EmbeddingSize:6,144

•Tokenization:SentencePiecetokenizerwith131,072tokens

•AdditionalFeatures:Rotaryembeddings(RoPE)

•Supportsactivationshardingand8-bitquantization

•MaximumSequenceLength(context):8,192tokens

第一步:下载模型权重

用户需要确保先下载checkpoint,并将ckpt-0目录放置在checkpoint中。

模型权重约为296.38GB,如下图,要注意自己磁盘的容量





有下面两种下载方法

1.可以使用torrent客户端和此磁力链接下载权重

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210etr=https%3A%2F%2%2=udp%3A%2F%2%3A6969tr=udp%3A%2F%2%3A1337%2Fannounce

2.直接使用HuggingFace

执行下面的代码

gitclone;cdgrok-1pipinstallhuggingface_hub[hf_transfer]huggingface-clidownloadxai-org/grok-1--repo-typemodel--includeckpt-0/*--local-dircheckpoints--local-dir-use-symlinksFalse
第二步:运行大模型

安装依赖环境,执行代码

的文件内容:

dm_haiku==0.0.12jax[cuda12_pip]==0.4.25-f

然后执行代码

注意:硬件要求多大呢?

由于模型规模较大(314B参数),需要有足够GPU、内存的机器才能使用示例代码测试模型。

那具体需要多大呢?

这个也是提的比较多的问题,有人给出了回复,但暂时未确认

由于由于themeshshapeassertion(1,8),因此需要8个GPU。要以本机大小运行,您可能需要8x80GBGPU(A10080GB/H100GB)。





详见issue:

容易出现的问题

大家遇到比较多的是下载问题,比如种子无法下载





还有硬件资源的问题,毕竟需要的gpu和内存太高了,对于个人来说成本太高了,个人没法玩了啊



猜你喜欢
    不容错过