Windows11下Ollama部署Qwen2.5大模型的实战指南
0、前言
这篇文章主要记录在 Windows 11 本地环境下,利用 Ollama 部署 Qwen2.5 大模型,并实现 API 调用的完整过程。
不需要显卡也能跑
隐私安全
通过这个安装和部署过程,你将会了解并掌握以下内容:
Ollama到底是干什么的、怎么装怎么用;Modelfile的配置和作用;ModelScope怎么帮我们搞定模型文件;Notebook在云端体验大模型;- 上面这些工具怎么组合在一起,实现本地大模型部署,以及部署成功后如何通过 API 访问。
好了,直接进入正题。
1、环境与准备
- :Windows 11 专业版25H2
Win11
- :Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz (2.21 GHz)
CPU
- :16.0 GB
内存
- :GTX1050Ti(说实话有点鸡肋,整个实践过程中基本没用到)
显卡
- : 0.17.7
Ollama
- :
大模型
- qwen2.5-3b-instruct-q4_k_m
- qwen2.5-7b-instruct-q4_k_m
前置依赖检查
PowerShell(Win11 自带,不用额外装)Git(可选,用于下载)Python(仅用于ModelScope CLI,如果只用浏览器下载可以不装)
2、核心概念速览
2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 的含义?
文件名通常长这样:qwen2.5-3b-instruct-q4_k_m.gguf。拆开看其实挺有意思。
instruct 表示这是经过指令微调的版本,适合对话;如果是 base 版本,则适合做续写或二次微调,直接聊天效果很差。
1)q + 数字:每个参数用多少 bit 存储。
- 数字越小 = 文件越小 = 速度越快 = 稍微变笨一点。
- 数字越大 = 文件越大 = 速度越慢 = 越聪明。
- :目前业界公认
黄金标准
是性价比最高的,智商损失几乎可以忽略,但体积减半。4-bit (
q4)
2)k:代表使用了 K-quants 量化技术(一种更先进的压缩算法,比老式的 q4_0 聪明不少)。
3)m / s / l:代表 Small (小), Medium (中), Large (大)。
q4_k_s:更小一点,但稍微笨一点点。q4_k_m:,平衡最好,标准版
。首选推荐
q4_k_l:更大一点,更聪明一点点(显存占用也高)。
2.2、Modelfile 的基本结构及含义
FROMSYSTEM PARAMETER TEMPLATE ADAPTER PROJECTOR MESSAGE LICENSE
含义解释:
FROM: 指定基础模型(必选)。 SYSTEM : 设置系统提示词(定义角色人设)。 PARAMETER : 设置推理参数(如温度、上下文长度)。 TEMPLATE : 定义对话模板格式。 ADAPTER : 加载 LoRA 适配器文件(用于微调模型)。 PROJECTOR : 加载多模态投影器(用于让模型看懂图片)。 MESSAGE : 预设对话示例(Few-shot prompting)。 LICENSE : 声明模型的许可证信息。
日常最常用的配置其实就那么几行:
FROM llama3 # 1. 选基座 SYSTEM "你是个诗人" # 2. 定人设 PARAMETER temperature 0.8 # 3. 调参数
2.3、Notebook 是什么
虽然这篇文章主要讲本地部署,但如果你本地资源不够(比如显存吃紧),可以用 ModelScope Notebook 在云端免费体验大模型,完全不用操心硬件。
ModelScope Notebook 是一款云端机器学习开发 IDE 工具,提供交互式编程环境,内置了限时免费的算力额度,可以直接在浏览器里跑模型,对新手很友好。
2.4、运行大模型的通俗理解
把运行大模型想象成“搬家”
- 量化等级(Quantization)= (压得越小,搬得越快,但可能会压坏一点点)
家具的打包压缩程度
- 推理框架 = (Ollama 就像一辆专用搬家车)
运输工具的选择
- 上下文长度(Context Length)=
这次要搬多少东西(记忆量)
3、实战部署:安装与运行
3.1、安装 Ollama
Ollama 是一个开源的、专为本地运行大型语言模型(LLM)设计的工具平台,可以理解为“大模型的 Docker”。

官网下载后安装,装完在终端验证一下:
# 查看版本号 ollama -v ollama version is 0.17.7
3.2、方式一:一键拉取(官方推荐),Ollama 界面/命令行拉取
通过 Ollama 拉取模型,连 Modelfile 都不用自己写,方便省事。
# 下载并运行模型 ollama run qwen2.5:3b


3.3、方式二:自定义导入 (进阶),下载 gguf 文件自行配置
1)从 ModelScope 下载 gguf 文件

通过 modelscope 直接在浏览器下载模型。这里用 Qwen2.5-3B-Instruct-GGUF 来演示(实际部署用的也是它)。

进入模型文件页,找到类似 qwen2.5-3b-instruct-q4_k_m.gguf 的文件,下载即可。
2)编写 Modelfile 文件
Modelfile 是 Ollama 用来实现大模型推理的自定义参数文件,类似于 Dockerfile。如果只是简单对话,Ollama 官方库里的默认模板通常已经适配好了 Qwen 系列,手动指定 TEMPLATE 只在需要特殊对话格式或微调时才必要。具体可以见文末【4.3、Modelfile 的基本结构及含义】
新建文件,命名为 Modelfile,内容如下:
FROM "G:AIModelfilesqwen2.5-3bqwen2.5-3b-instruct-q4_k_m.gguf"
TEMPLATE """{{- if .Messages }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{ else if eq .Role "assistant" }}<|im_start|>assistant
{{ .Content }}<|im_end|>
{{ else if eq .Role "system" }}<|im_start|>system
{{ .Content }}<|im_end|>
{{ end }}
{{- if $last }}<|im_start|>assistant
{{ end }}
{{- end }}
{{- else }}
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ end }}"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
LICENSE """https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE"""
最简单的版本(自问自答几乎没法用,只有 FROM 一行):
FROM "F:Downloadsqwen2.5-3b-instruct-q4_k_m.gguf"
3)创建模型
打开 Powershell,进入 Modelfile 所在的路径,执行以下命令:
# 把 GGUF 文件打包成 Ollama 模型 ollama create qwen2.5:3b -f Modelfile # 或者用绝对路径 ollama create qwen2.5:3b -f G:AIModelfilesqwen2.5-3bModelfile

4)运行模型
Ollama
默认会自动检测并使用GPU
ollama run qwen2.5:3b

查看大模型运行状态:
SIZE: 占用内存大小PROCESSOR:100% CPU表示模型完全在 CPU 上运行,没有用到显卡加速(因为我的 GTX1050Ti 显存只有4GB,带不动)CONTEXT:上下文窗口大小,即当前会话保留的“记忆”长度(Token 数量)。这个数字越大,占用的内存也越大。UNTIL(自动卸载倒计时):如果接下来没有人使用这个模型,Ollama 会在 2 分钟后自动把它从内存中卸载,释放资源。

5)示例:Qwen2.5-7B 的配置
文件名:qwen2.5-7b-instruct-q4_k_m.gguf
FROM ./qwen2.5-7b-instruct-q4_k_m.gguf
TEMPLATE """{{- if .System }}
<|im_start|>system
{{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
SYSTEM "你是一个有帮助的AI助手。"
4、通过API访问大模型
4.1、启动服务
# 运行命令查看端口 ollama serve # 返回信息:Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.
默认情况下,Ollama 只接受本机连接,拒绝局域网 IP(比如 192.168.x.x)。如果想让局域网其他设备也能访问,需要配置一下环境变量。Windows 环境下按照下图操作即可。

4.2、Powershell 中测试接口
# Windows Powershell
curl http://192.168.2.111:11434/api/generate -d "{"model": "qwen2.5:3b", "prompt": "hello"}"
curl http://192.168.31.87:11434/api/tags
4.3、后台方式运行技巧
Start-Process ollama -ArgumentList "run","qwen2.5:3b" -WindowStyle Hidden
这样模型就会在后台默默运行,不会弹出烦人的窗口。
5、常用命令速查表
Ollama 相关命令,记牢这些就够了:
# 查看帮助 ollama -h # 查看本地已下载的模型 ollama list # 下载并运行模型(交互模式) ollama run qwen2.5:3b # 单次问答(非交互) ollama run qwen2.5:3b "你好,请介绍一下你自己" # 删除模型 ollama rm <模型名> # 启动后台服务 ollama serve # 查看模型详情 ollama show <模型名> # 查看正在运行的模型 ollama ps # 停止指定模型 ollama stop qwen2.5:3b
6、附录与参考资料
ModelScope Pip 安装详解
# 安装python(先确认已有) python -V Python 3.11.9 # 安装魔搭库 pip install modelscope # 下载完整模型库(以Qwen2.5-3B-Instruct-GGUF为例) modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF # 下载单个文件到指定本地文件夹(以下载README.md到当前路径下“dir”目录为例) modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF README.md --local_dir ./dir
以上就是Windows11下Ollama部署Qwen2.5大模型的实战指南的全部内容,如果对你有帮助,欢迎在实际操作中遇到问题多交流探讨。