在本地部署AI服务(AI chat)

在本地部署AI服务(AI chat)

可断网离线使用。用于学习,协助学习提问聊天。电脑要求,最好有nvidia显卡,并且需要安装nvidia的cuda驱动和扩展库来支持AI计算。没有显卡只有GPU也没问题,只是响应速度会慢。

安装运行服务需要一定的开发环境,比如docker 快速安装open-webui

结合后端ollama服务,前端open-webui页面,模拟ChatGPT。

下载启动ollama

ollama是开源的LLM应用程序,用于加载和识别LLM模型,基于llama.cpp

下载 download

下载后启动即可

获取训练模型

已知的模型有Meta公司的开源llama2 llama3 google的gemma 我们下载这些模型后 通过ollama运行这些模型

# 下载模型
ollama pull gemma

# 我们也可以直接运行 下载完成后 ollama 自己会直接运行
ollama run gemma 

部署前端

部署前端页面,通过页面聊天访问这些模型,并将模型返回的结果显示在页面,实现AI聊天互动.

我们可以使用 open-webui 、 ollama-ui 等开源的前端项目或者自己编写前端代码对接ollama api。

使用docker 安装

这里快速点可以直接使用docker部署 open-webui 文档

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda
# 如果没有显卡,则去除 --gpus all 参数

使用pip安装(python)

pip install open-webui
open-webui serve #启动

启动后访问即可提问

question

调试配置

配置参数 实现模型回答内容微调以及页面聊天的个性化设置,包括提问回答内容质量设置等。

可以在ollama下载模型,open-webui会直接显示模型列表。

setting

雪树科技
雪树科技 sntree.cn