正文目录

QwQ32B小参数AI模型在本地Windows环境下的推理速度与效果测试

不会kao代码的小王

2025-12-24 09:21:48

边缘 AI

量子 AI

大模型

模型部署

性能优化

开发平台与工具

文章摘要

本文介绍了如何在Windows 11系统中通过Ollama本地部署千问QwQ-32B大模型，并结合Open WebUI实现Web端交互。QwQ-32B仅320亿参数，性能堪比千亿级模型，支持RTX 3060等消费级显卡。部署过程包括安装Ollama、下载模型文件，并通过Docker快速安装Open WebUI图形界面，方便在浏览器中与模型对话。

前言

最近，千问团队在AI圈里扔下了一枚超级炸弹——全新推理模型QwQ32B！这款仅有320亿参数的小巨人，竟然能和那些动辄数千亿参数的巨头们一决高下。官方数据显示，在多个基准测试中，它与deepseek-R1这样的顶级选手打成了平手，简直让人不敢相信自己的眼睛！为了验证这颗小巨人的真正实力，我决定在自己的Windows电脑上亲自体验一番，看看这位新星到底有没有那么神奇。让我们一起揭开QwQ32B的神秘面纱吧~

图片描述

1. 环境准备

QwQ-32B 因参数量少，大幅降低了部署成本，支持消费级显卡（如Nvidia RTX 系列）运行，甚至能在苹果笔记本上部署，适合个人开发者或中小型企业使用。一张 RTX3090 或者 RTX4090 就可以把这个模型的量化版跑起来了，我这里使用的是Windows11操作系统，12G RTX3060显卡，简单测试一下能不能跑起来。

然后通过Ollama运行QwQ32B模型，之前曾经发布过如何在Windows安装Ollama的教程，有需要的同学可以看看这篇文章：Windows本地部署Deepseek-R1大模型并使用Web界面远程交互

2.QwQ 32B模型安装与运行测试

首先访问Ollama的官网：Download Ollama on Windows

可以看到，很快啊，QwQ 32B刚发布就已经支持了，而且排在第一个，下边是deepseek-r1：

图片描述

Ollama安装完成之后，就可以开始去下载 QwQ32B 这个模型了，使用这个命令就能下载：

ollama run qwq

图片描述

图片描述需要预留20个G以上的储存空间，默认下载到C盘，如果想修改下载位置，可以在终端中执行下方命令来指定模型文件的存放目录，这里以d:\ollama为例，大家可以自定义：

set OLLAMA_MODELS=d:\ollama

下载中，时间有点长，等待进度条完成即可：

图片描述

图片描述安装成功后会提示success，并可以进行提问了：

图片描述经过测试，在我这个纯家用级配置的电脑上推理过程和回答过程大概3-4个tokens/s，基本能用，相信如果是3090或者4090的话速度会更快。而且回答的质量也不错，大家稍后也可以自己测试一下。

图片描述逻辑分析题目测试：在推理回答过程中，CPU、内存、GPU利用率情况：我这里使用的是12G RTX3060，GPU内存几乎占满，导致CPU和内存利用率较高。

图片描述

3. 安装Open WebUI图形化界面

现在我们已经能够在本地Windows电脑上正常使用千问QWQ32B进行聊天了，但在命令行中对话可能不是很美观，在复制回答时也不太方便，我们可以通过安装一个图形化界面来解决这个问题。

本教程以Open WebUI这个项目为例，使用Docker进行安装，它的界面和平时在网页中和其他大模型聊天非常相似。当然，大家也可以选择其他的WebUI。

我们在Windows系统中需要使用Docker来部署Open WebUI，如果大家之前未安装过Docker，可以参考下方教程进行Docker安装：Docker安装——Linux、Windows、MacOS

3.1 安装Open WebUI

然后访问Open WebUI的github页面 https://github.com/open-webui/open-webui

可以看到，如果你的Ollama和Open WebUI在同一台主机，那使用下面显示的这一行命令在cmd终端中就可以在本地快速进行部署：图片描述

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

将上边在Docker中部署Open WebUI的命令复制后粘贴到终端中，回车：

图片描述然后等待安装完毕即可：如下图所示：

图片描述

安装完成后，在Docker Desktop中可以看到Open WebUI的web界面地址为：https://localhost:3000

图片描述点击后，会在浏览器打开登录界面：

图片描述点击sign up注册，账号，邮箱，密码记好，下次登录时需要用到邮箱和密码登录：

图片描述添加模型后就能在浏览器中使用web界面来和QWQ32B聊天了！

3.2 添加QWQ32B模型

点击右上角的设置，可以修改当前界面的语言为简体中文：然后点击保存即可。

图片描述点击上方选择一个模型旁边的加号+可以增加大模型，点击下拉按钮可以选择当前使用哪一个已安装的模型，这里选择刚才安装的qwq:latest 32.8B，接下来就可以愉快的跟大模型在网页中聊天了！

图片描述

到这里就成功在本地部署了QWQ32B模型并使用Open WebUI在网页中与AI交互，之后你可以根据自己的需求把它训练成自己专用AI助手啦。

总结

今天我们不仅成功地将Ollama与千问QWQ32B大模型安装到了本地Windows系统中.老实说，这款大模型的表现真的超出了我的预期，尤其是在家用级硬件上的表现，简直就是为普通用户量身打造的神器！对于未来的发展，我充满了期待，谁不想拥有一个这么强大的私人AI助手呢？如果你也心动了，不妨动手试试吧！遇到问题别担心，欢迎随时留言交流，我们一起探索这个充满无限可能的世界。

以上内容不代表本平台立场，仅供读者参考