本地运行AI模型的最简单方法
本地运行AI模型主要分两部分:
- 运行AI模型的后端服务
- 处理用户输入交互的前端界面
Ollama运行AI模型
以我的电脑AMD 6650 XT 8G显卡为例:
- 下载ollama-windows-amd64.7z ,并解压到
D:\Program Files\ollama-windows-amd64
- 由于Ollama默认不支持 6650XT ,所以需要使用对应显卡内核编译好的的库,例如6650的内核为gfx1032.可以从 https://rocm.docs.amd.com/projects/install-on-windows/en/develop/reference/system-requirements.html 查看
- 在 https://github.com/likelovewant/ROCmLibs-for-gfx1103-AMD780M-APU/releases 下载适用于gfx1032的版本rocm.gfx1032.for.hip.sdk.6.1.2.7z 也可以尝试最新版本
- 下载AMD的HIP SDK https://www.amd.com/en/developer/resources/rocm-hub/hip-sdk.html ,之前下载的是6.1.2版本,所以SDK也要下载6.1.2版本. HIP SDK可以简单理解为AMD的CUDA平替
- 安装HIP SDK后,把下载的rocm.gfx1032.for.hip.sdk.6.1.2中的文件覆盖
C:\Program Files\AMD\ROCm\6.1\bin
目录中的rocblas.dll
和C:\Program Files\AMD\ROCm\6.1\bin\rocblas\library
目录 - 使用rocm.gfx1032.for.hip.sdk.6.1.2的文件替换ollama安装目录的
rocblas.dll
和D:\Program Files\ollama-windows-amd64\lib\ollama\rocblas\library
目录 - 在Ollama目录中运行
ollama serve
,可以看到输出日志msg="inference compute" id=0 library=rocm variant="" compute=gfx1032 driver=6.2 name="AMD Radeon RX 6650 XT" total="8.0 GiB" available="7.8 GiB"
说明可以以显卡来运行ollama中的模型 - 配置ollama的模型默认安装位置(默认C盘用户目录下的
.ollama
),新增环境变量OLLAMA_MODELS
,值为想要放置模型的目录D:\ollama
- 执行
ollama run huihui_ai/deepseek-r1-abliterated:8b
安装deepseek-r1-abliterated
的模型,也可以在ollama官网安装想用的其他模型,安装完成后,就可以在命令提示符中执行进行对话
对话交互UI
Ollama可以直接和Open-webUI配合使用,默认不需要任何配置。https://github.com/open-webui/open-webui
安装open webUI
- 安装python 3.11以上版本,我使用
Python 3.12.2 (tags/v3.12.2:6abddd9, Feb 6 2024, 21:26:36) [MSC v.1937 64 bit (AMD64)] on win32
也是可行的 - 安装
pip install open-webui
这个步骤持续时间很长 - 运行
open-webui serve
- 浏览器中http://127.0.0.1:8080/ 访问时,提示注册一个本地用户,随便注册就行