在魔塔社区免费GPU实例上快速部署Llama3模型完整指南
本文将手把手教您在ModelScope魔塔社区的免费GPU实例上,通过Ollama快速部署并调用Llama3开源大模型。
第一步:申请免费GPU计算资源
操作流程:
(1)访问ModelScope官网并完成注册登录
(2)进入控制台后,在左侧导航栏找到「我的Notebook」
(3)点击「创建实例」,选择「免费GPU」规格
(4)等待约1-2分钟,系统自动完成环境初始化
重要特性说明:
✅ 免费提供GPU计算资源
✅ 预装ModelScope SDK和常用AI开发工具
✅ 配备100GB持久化存储空间(挂载在 /mnt/workspace)
❌ 无法访问境外网络(如HuggingFace)
官方文档参考:https://modelscope.cn/docs/notebooks/intro
第二步:安装Ollama模型服务
第1步:下载安装Ollama
在Notebook中新建终端,单独执行下面这行命令:
curl -fsSL https://ollama.com/install.sh | sh
执行完成后会显示安装成功提示!
第2步:启动Ollama服务
重新打开一个终端,单独执行:
ollama serve
保持这个终端开启,Ollama服务会持续运行
第3步:下载Llama3模型
再打开一个新的终端,单独执行:
ollama run llama3.2:1b
系统会自动下载约600MB的模型文件,完成后进入交互对话界面
验证安装:在对话界面输入问题,如收到合理回复说明部署成功。
第三步:通过API调用模型
在Notebook中创建新的Python笔记本文件,逐行执行以下代码:
第1段代码:导入依赖库
# 复制并单独执行这段代码
from openai import OpenAI
第2段代码:配置客户端
# 复制并单独执行这段代码
client = OpenAI(
base_url='http://localhost:11434/v1/', # Ollama本地服务地址
api_key='ollama' # 固定密钥值
)
第3段代码:发送测试请求
# 复制并单独执行这段代码
response = client.chat.completions.create(
model='llama3.2:1b',
messages=[
{'role': 'system', 'content': '你是一个有用的助手。请用中文回答。'},
{'role': 'user', 'content': '请介绍一下你自己'}
]
)
第4段代码:显示返回结果
# 复制并单独执行这段代码
print(response.choices[0].message.content)
预期效果:成功显示Llama3模型的自我介绍内容。
第四步:重要配置与故障排查
关键配置:修改模型存储路径
为避免实例重启后模型丢失,需要将模型转移到持久化存储:
第1步:停止Ollama服务
在运行 “ollama serve” 的终端中按 “Ctrl + C”
第2步:重新指定存储路径
export OLLAMA_MODELS=/mnt/workspace/ollama-models
ollama serve
第3步:在新路径下载模型
export OLLAMA_MODELS=/mnt/workspace/ollama-models
ollama run llama3.2:1b
常见问题解决方案:
问题1:端口占用错误
# 查找占用进程
lsof -i :11434
# 结束冲突进程
kill -9 <进程ID>
问题2:模型下载失败
# 设置镜像加速
export OLLAMA_HOST=0.0.0.0:11434
# 重新下载
ollama run llama3.2:1b
问题3:API连接失败
检查Ollama服务是否正常运行:
curl http://localhost:11434/api/tags
下次重启实例时,只需重新执行 ollama serve 和路径配置命令即可恢复服务,模型文件会保留在持久化存储中。



