本地大模型部署笔记:Ollama+Qwen2.5+Win11环境配置实录
来源:互联网
时间:2026-06-08 07:14:31
本地大模型部署笔记:Ollama+Qwen2.5+Win11环境配置实录
0、前言
先说几个核心判断:本地部署大模型,Ollama确实是当前最轻量的选择之一,配上Qwen2.5,在Win11上跑起来相当丝滑。而且最诱人的一点——不需要独立显卡也能跑,隐私安全也完全在自己手里。整篇文章会围绕这样几个关键点展开:Ollama怎么装、Modelfile怎么配、ModelScope怎么用、Notebook是什么角色,以及最终怎么通过API调通这个大模型。
通过这次部署,你会清楚:
- Ollama 是干什么的,怎么装怎么用;
- Modelfile 长什么样,怎么配置;
- ModelScope 扮演什么角色;
- Notebook 在什么场景下派上用场;
- 这些工具怎么组合,部署成功后怎么通过API调用。
1、环境与准备
实践出真知,先亮一下我的实验台配置: - Win11:Windows 11 专业版 25H2 - CPU:Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz (2.21 GHz) - 内存:16.0 GB - 显卡:GTX1050Ti(说实话挺鸡肋的,这次的实践过程中基本没用到它) - Ollama:0.17.7 - 大模型: - qwen2.5-3b-instruct-q4_k_m - qwen2.5-7b-instruct-q4_k_m前置依赖检查
-PowerShell(Win11自带的就够)
- Git(可选,用来下载东西)
- Python(只有在用ModelScope CLI时才需要,如果只用浏览器下载,可以不装)
2、核心概念速览
2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 到底在说什么?
文件名通常长这样:qwen2.5-3b-instruct-q4_k_m.gguf。
instruct 表示这个模型经过了指令微调,适合对话场景;如果是 base 版本,那更适合做续写或者二次微调,直接拿来对话效果不太好。
1)q + 数字:代表每个参数用了多少 bit 来存储。
- 数字越小 = 文件越小 = 速度越快 = 自然会笨一点点;
- 数字越大 = 文件越大 = 速度越慢 = 理论上更聪明;
- 业界共识:4-bit(q4)是性价比最高的选择,智商损失微乎其微,体积却能直接砍半。
2)k:用了 K-quants 量化技术,比老式的 q4_0 更聪明,压缩效率更高。
3)m/s/l:分别代表 Small(小)、Medium(中)、Large(大)。
- q4_k_s:更小一点,稍微笨一点点;
- q4_k_m:标准版,平衡最好,首选;
- q4_k_l:更大一点,稍微聪明一点点,但对显存的要求也上去了。
2.2、Modelfile 的基本结构与含义
Modelfile 是 Ollama 的“灵魂配置”,它告诉系统模型从哪来、怎么聊、聊什么风格。基本结构长这样:FROM
SYSTEM
PARAMETER
TEMPLATE
ADAPTER
PROJECTOR
MESSAGE
LICENSE
逐条解释一下:
- FROM :指定基础模型,这个是必选项。
- SYSTEM :设置系统提示词,相当于给模型设定一个人设。
- PARAMETER :设置推理参数,比如温度、上下文长度。
- TEMPLATE :定义对话模板格式,告诉模型怎么理解你发的消息。
- ADAPTER :加载 LoRA 适配器文件,用于微调过的模型。
- PROJECTOR :加载多模态投影器,让模型能看懂图片。
- MESSAGE :预设对话示例,可以做 Few-shot prompting。
- LICENSE :声明模型的许可证信息。
实际用的时候,通常只需要这三行就够:
FROM llama3
SYSTEM "你是个诗人"
PARAMETER temperature 0.8
2.3、Notebook 是什么?
虽然这篇文章主要讲本地部署,但如果你本地资源确实不够(比如显存确实捉襟见肘),ModelScope Notebook 是个不错的备选方案——可以在云端免费体验大模型,完全不用操心本地硬件。2.4、运行大模型的通俗理解
把运行大模型这件事想象成“搬家”,就很好懂了: - 量化等级(Quantization) = 家具打包压缩的程度,压得越紧箱子越小,但有个限度; - 推理框架 = 运输工具的选择,选对了搬得又快又稳; - 上下文长度(Context Length)= 这次要搬多少东西,记忆量越大,占的空间也越大。3、实战部署:安装与运行
3.1、安装 Ollama
Ollama 官网直接下载安装包,一路默认就成。装好之后在终端敲下版本号确认:ollama -v
ollama version is 0.17.7
3.2、方式一:一键拉取(官方推荐)
这是最省事的方式,不管是 Ollama 的界面还是命令行,一行命令搞定:ollama run qwen2.5:3b
下载、加载、运行一条龙,适合快速体验。
3.3、方式二:自定义导入(进阶)
如果希望更灵活地控制模型版本,比如用自己下载的 GGUF 文件,就需要走这条路。1)从 ModelScope 下载 GGUF 文件
用 Qwen2.5-3B-Instruct-GGUF 来演示,这也是我实际部署的版本。可以直接在浏览器里下载,找到类似qwen2.5-3b-instruct-q4_k_m.gguf 的文件即可。
2)编写 Modelfile 文件
新建一个文件,命名为Modelfile,内容如下(注意路径要写你电脑上的实际位置):
FROM "G:AIModelfilesqwen2.5-3bqwen2.5-3b-instruct-q4_k_m.gguf"
TEMPLATE """{{- if .Messages }}{{- range $i, $_ := .Messages }}{{- $last := eq (len (slice $.Messages $i)) 1 }}{{- if eq .Role "user" }}<|im_start|>user{{ .Content }}<|im_end|>{{ else if eq .Role "assistant" }}<|im_start|>assistant{{ .Content }}<|im_end|>{{ else if eq .Role "system" }}<|im_start|>system{{ .Content }}<|im_end|>{{ end }}{{- if $last }}<|im_start|>assistant{{ end }}{{- end }}{{- else }}{{- if .System }}<|im_start|>system{{ .System }}<|im_end|>{{ end }}{{ if .Prompt }}<|im_start|>user{{ .Prompt }}<|im_end|>{{ end }}<|im_start|>assistant{{ end }}"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
LICENSE """https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE"""
如果只是想快速测试,最简单的版本只需要一行:
FROM "F:Downloadsqwen2.5-3b-instruct-q4_k_m.gguf"
不过这种极简配置,自问自答几乎没法用,所以还是建议配完整一些。
3)创建模型
打开 PowerShell,切换到 Modelfile 所在目录,执行:ollama create qwen2.5:3b -f Modelfile
或者用绝对路径:
ollama create qwen2.5:3b -f G:AIModelfilesqwen2.5-3bModelfile
4)运行模型
ollama run qwen2.5:3b
运行后可以查看大模型的状态参数:
- SIZE:占用内存大小;
- PROCESSOR:如果显示 100% CPU,说明模型完全跑在中央处理器上,没有启用显卡加速(我的显卡只有4GB显存,确实带不动);
- CONTEXT:当前会话保留的“记忆”长度(Token 数量),数字越大占用的内存也越多;
- UNTIL:自动卸载倒计时,如果没人使用,Ollama 会在2分钟后自动把模型从内存中卸掉,释放资源。
5)示例:Qwen2.5-7B 的配置
配置思路完全一样,只是文件不同:FROM ./qwen2.5-7b-instruct-q4_k_m.gguf
TEMPLATE """{{- if .System }}<|im_start|>system{{ .System }}<|im_end|>{{- end }}<|im_start|>user{{ .Prompt }}<|im_end|><|im_start|>assistant"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
SYSTEM "你是一个有帮助的AI助手。"
4、通过API访问大模型
4.1、启动服务
ollama serve
默认 Ollama 只允许本机连接,如果需要局域网内的其他设备访问,需要做一些配置。Windows 环境下,按提示修改环境变量或防火墙设置即可。
4.2、PowerShell 中测试接口
curl http://192.168.2.111:11434/api/generate -d "{"model": "qwen2.5:3b", "prompt": "hello"}"
curl http://192.168.31.87:11434/api/tags
注意替换成你自己的局域网 IP。
4.3、后台运行技巧
Start-Process ollama -ArgumentList "run","qwen2.5:3b" -WindowStyle Hidden
这样就安静地跑在后台,不碍眼。
5、常用命令速查表
# 查看帮助
ollama -h
# 查看本地已下载的模型
ollama list
# 下载并运行模型
ollama run qwen2.5:3b
# 单次问答
ollama run qwen2.5:3b "你好,请介绍一下你自己"
# 删除模型
ollama rm <模型名>
# 启动后台服务
ollama serve
# 查看模型详情
ollama show <模型名>
# 查看正在运行的模型
ollama ps
# 停止模型
ollama stop qwen2.5:3b
6、附录与参考资料
6.1、文档资料链接
1)Ollama:官网和文档都有详细的快速入门指南。 2)魔搭 ModelScope:可以找到各种模型的 GGUF 版本。 3)Python 3.11.9:如果要用 ModelScope CLI,需要安装对应版本。6.2、ModelScope Pip 安装详解
# 安装 Python
python -V
Python 3.11.9
# 安装魔搭
pip install modelscope
# 下载完整模型库
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF
# 下载单个文件到指定本地文件夹(以下载 README.md 到当前路径下的 dir 目录为例)
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF README.md --local_dir ./dir