正文目录

在魔塔社区免费GPU实例上快速部署Llama3模型完整指南

2025-11-13 09:03:10

文章摘要

本文详细介绍在ModelScope魔塔社区免费GPU实例上，通过Ollama部署Llama3开源大模型的完整流程。涵盖GPU资源申请、Ollama服务安装、模型下载配置及API调用方法，并提供持久化存储设置与常见问题解决方案，实现零成本本地化模型部署。

本文将手把手教您在ModelScope魔塔社区的免费GPU实例上，通过Ollama快速部署并调用Llama3开源大模型。

第一步：申请免费GPU计算资源

操作流程：

（1）访问ModelScope官网并完成注册登录

（2）进入控制台后，在左侧导航栏找到「我的Notebook」

（3）点击「创建实例」，选择「免费GPU」规格

（4）等待约1-2分钟，系统自动完成环境初始化

重要特性说明：

✅ 免费提供GPU计算资源

✅ 预装ModelScope SDK和常用AI开发工具

✅ 配备100GB持久化存储空间（挂载在 /mnt/workspace）

❌ 无法访问境外网络（如HuggingFace）

官方文档参考：https://modelscope.cn/docs/notebooks/intro

第二步：安装Ollama模型服务

第1步：下载安装Ollama

在Notebook中新建终端，单独执行下面这行命令：

curl -fsSL https://ollama.com/install.sh | sh

执行完成后会显示安装成功提示！

第2步：启动Ollama服务

重新打开一个终端，单独执行：

ollama serve

保持这个终端开启，Ollama服务会持续运行

第3步：下载Llama3模型

再打开一个新的终端，单独执行：

ollama run llama3.2:1b

系统会自动下载约600MB的模型文件，完成后进入交互对话界面

验证安装：在对话界面输入问题，如收到合理回复说明部署成功。

第三步：通过API调用模型

在Notebook中创建新的Python笔记本文件，逐行执行以下代码：

第1段代码：导入依赖库

# 复制并单独执行这段代码
from openai import OpenAI

第2段代码：配置客户端

# 复制并单独执行这段代码
client = OpenAI(
    base_url='http://localhost:11434/v1/',  # Ollama本地服务地址
    api_key='ollama'  # 固定密钥值
)

第3段代码：发送测试请求

# 复制并单独执行这段代码
response = client.chat.completions.create(
    model='llama3.2:1b',
    messages=[
        {'role': 'system', 'content': '你是一个有用的助手。请用中文回答。'},
        {'role': 'user', 'content': '请介绍一下你自己'}
    ]
)

第4段代码：显示返回结果

# 复制并单独执行这段代码
print(response.choices[0].message.content)

预期效果：成功显示Llama3模型的自我介绍内容。

第四步：重要配置与故障排查

关键配置：修改模型存储路径

为避免实例重启后模型丢失，需要将模型转移到持久化存储：

第1步：停止Ollama服务

在运行 “ollama serve” 的终端中按 “Ctrl + C”

第2步：重新指定存储路径

export OLLAMA_MODELS=/mnt/workspace/ollama-models
ollama serve

第3步：在新路径下载模型

export OLLAMA_MODELS=/mnt/workspace/ollama-models
ollama run llama3.2:1b

常见问题解决方案：

问题1：端口占用错误

# 查找占用进程
lsof -i :11434
# 结束冲突进程
kill -9 <进程ID>

问题2：模型下载失败

# 设置镜像加速
export OLLAMA_HOST=0.0.0.0:11434
# 重新下载
ollama run llama3.2:1b

问题3：API连接失败

检查Ollama服务是否正常运行：

curl http://localhost:11434/api/tags

下次重启实例时，只需重新执行 ollama serve 和路径配置命令即可恢复服务，模型文件会保留在持久化存储中。

以上内容不代表本平台立场，仅供读者参考