LunaTranslator/docs/zh/sakurallmkagglecolab.md
恍兮惚兮 b5d08950b7 docs
2024-09-08 23:54:15 +08:00

4.0 KiB
Raw Blame History

部署SakuraLLM到Kaggle/Google Colab

1. 设置内网穿透以将请求转发给llama.cpp服务

注册ngrok,分别获取NGROK_TOKENNGROK_DOMAIN,以供后面使用。

也可以不注册ngrok,将NGROK_TOKEN置为空,则会使用gradio-tunneling的随机域名进行内网穿透。

若使用ngrok,并填写了NGROK_DOMAIN,则每次运行时将会使用固定的域名进行内网穿透,否则将会使用随机的域名。

启动后将会在log中看到本次运行的url接口地址将url接口地址填写到翻译器中即可

全空使用gradio-tunneling随机的域名

填写NGROK_TOKEN使用ngrok随机的域名

填写NGROK_TOKEN+NGROK_DOMAIN使用ngrok固定的域名

2. 部署到Kaggle/Google Colab

Kaggle

  1. 注册Kaggle,导入ipynb脚本
2. 选择GPU运行时打开网络连接。首次使用需要验证手机号
3. 设置ngrok密钥和域名以及使用的模型 将注册的ngrok的NGROK_TOKEN和NGROK_DOMAIN填入脚本中。
REPO和MODEL是https://huggingface.co/REPO下的MODEL模型文件名
4. 运行脚本,稍微等待一分钟左右即可 llama.cpp是已经预先编译好的省去了编译的时间因此主要是下载模型需要花费一点时间。

Google Colab

1. 在Google drive中安装Colaboratory应用 点击新建->更多->关联更多应用 在应用市场中搜索Colaboratory安装即可
2. 打开Colab,下载ipynb脚本并上传到Colab中。
3. 选择GPU运行时 默认是使用CPU运行的需要我们手动切换成T4 GPU运行。
4. 设置ngrok密钥和域名以及使用的模型 将注册的ngrok的NGROK_TOKEN和NGROK_DOMAIN填入脚本中。 REPO和MODEL是https://huggingface.co/REPO下的MODEL模型文件名
5. 运行脚本,稍微等待一分钟左右即可 llama.cpp是已经预先编译好的省去了编译的时间因此主要是下载模型需要花费一点时间。