Skip to content

Ollama 本地模型运行

Ollama 是最简单的本地运行 LLM 的工具,一行命令就能跑开源模型。

为什么用 Ollama

  • 安装简单(比 Docker 还简单)
  • 支持所有主流开源模型
  • 提供 REST API(可以当成本地版的 OpenAI API)
  • 支持 GPU 加速
  • 数据完全本地(隐私安全)

安装

macOS

bash
brew install ollama

Linux

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows

下载安装包:ollama.com/download

快速开始

bash
# 运行 Llama 3.1(会自动下载)
ollama run llama3.1

# 运行 Qwen2(中文好)
ollama run qwen2

# 运行 Phi-3(微软出品,小但强)
ollama run phi3

# 列出已安装的模型
ollama list

# 删除模型
ollama rm llama3.1

常用模型

模型大小特点
llama3.1:8b4.7GB通用,推荐
llama3.1:70b40GB能力强,需要大显存
qwen2:7b4.4GB中文好
qwen2:72b41GB中文最强开源
phi3:mini2.3GB小,快
mistral:7b4.1GB英文好

API 使用

Ollama 启动后会监听 http://localhost:11434,提供兼容 OpenAI 的 API:

python
import requests

# 生成回答
response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "llama3.1",
        "prompt": "什么是 RAG?",
        "stream": False
    }
)

print(response.json()["response"])

兼容 OpenAI API

python
from openai import OpenAI

# 指向本地 Ollama
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 随便填
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[{"role": "user", "content": "什么是 RAG?"}]
)

print(response.choices[0].message.content)

自定义模型

创建 Modelfile(类似 Dockerfile):

dockerfile
FROM llama3.1

# 设置系统提示词
SYSTEM "你是一位 Java 技术专家,回答要简洁明了。"

# 设置参数
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
bash
# 构建自定义模型
ollama create my-java-expert -f Modelfile

# 运行
ollama run my-java-expert

与 LangChain 集成

python
from langchain.llms import Ollama

llm = Ollama(model="llama3.1")

# 直接使用
print(llm("什么是 RAG?"))

# 在 Chain 中使用
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

prompt = PromptTemplate(
    template="用一句话解释:{concept}",
    input_variables=["concept"]
)

chain = LLMChain(llm=llm, prompt=prompt)
print(chain.run("Transformer"))

硬件要求

模型最低 RAM推荐 GPU推理速度
7B8GB无(CPU 可用)
7B8GBGTX 3060
13B16GBRTX 3090
70B64GBA100

相关资源