本地运行AI模型的最简单方法

本地运行AI模型主要分两部分：

运行AI模型的后端服务
处理用户输入交互的前端界面

Ollama运行AI模型

以我的电脑AMD 6650 XT 8G显卡为例：

下载ollama-windows-amd64.7z ，并解压到D:\Program Files\ollama-windows-amd64
由于Ollama默认不支持 6650XT ，所以需要使用对应显卡内核编译好的的库，例如6650的内核为gfx1032.可以从 https://rocm.docs.amd.com/projects/install-on-windows/en/develop/reference/system-requirements.html 查看
在 https://github.com/likelovewant/ROCmLibs-for-gfx1103-AMD780M-APU/releases 下载适用于gfx1032的版本rocm.gfx1032.for.hip.sdk.6.1.2.7z 也可以尝试最新版本
下载AMD的HIP SDK https://www.amd.com/en/developer/resources/rocm-hub/hip-sdk.html ，之前下载的是6.1.2版本，所以SDK也要下载6.1.2版本. HIP SDK可以简单理解为AMD的CUDA平替
安装HIP SDK后，把下载的rocm.gfx1032.for.hip.sdk.6.1.2中的文件覆盖 C:\Program Files\AMD\ROCm\6.1\bin目录中的rocblas.dll和C:\Program Files\AMD\ROCm\6.1\bin\rocblas\library目录
使用rocm.gfx1032.for.hip.sdk.6.1.2的文件替换ollama安装目录的rocblas.dll和D:\Program Files\ollama-windows-amd64\lib\ollama\rocblas\library目录
在Ollama目录中运行ollama serve，可以看到输出日志msg="inference compute" id=0 library=rocm variant="" compute=gfx1032 driver=6.2 name="AMD Radeon RX 6650 XT" total="8.0 GiB" available="7.8 GiB"说明可以以显卡来运行ollama中的模型
配置ollama的模型默认安装位置（默认C盘用户目录下的.ollama）,新增环境变量OLLAMA_MODELS，值为想要放置模型的目录D:\ollama
执行ollama run huihui_ai/deepseek-r1-abliterated:8b 安装deepseek-r1-abliterated的模型，也可以在ollama官网安装想用的其他模型，安装完成后，就可以在命令提示符中执行进行对话

对话交互UI

Ollama可以直接和Open-webUI配合使用，默认不需要任何配置。https://github.com/open-webui/open-webui

安装open webUI

安装python 3.11以上版本，我使用Python 3.12.2 (tags/v3.12.2:6abddd9, Feb 6 2024, 21:26:36) [MSC v.1937 64 bit (AMD64)] on win32也是可行的
安装pip install open-webui 这个步骤持续时间很长
运行open-webui serve
浏览器中http://127.0.0.1:8080/ 访问时，提示注册一个本地用户，随便注册就行

open_webui