主题
主流 LLM 模型对比
当前主流大语言模型的详细对比和选择建议(2025-2026 年更新)。
闭源商用模型
GPT 系列(OpenAI)
| 模型 | 上下文 | 特点 | 输入价格(1M tokens) |
|---|---|---|---|
| GPT-4o | 128K | 速度快,多模态 | $2.5 |
| GPT-4 Turbo | 128K | 能力强,成本高 | $10 |
| GPT-4o Mini | 128K | 性价比高 | $0.15 |
| o1 | 200K | 推理增强,慢 | $15 |
| o1-mini | 128K | 推理+代码,便宜 | $3 |
| GPT-4.5 | 128K | 最新旗舰(2025) | $30(预估) |
选择建议:日常用 GPT-4o,复杂推理用 o1,低成本用 GPT-4o Mini。
Claude 系列(Anthropic)
| 模型 | 上下文 | 特点 | 输入价格(1M tokens) |
|---|---|---|---|
| Claude 3.5 Sonnet | 200K | 代码强,长文本理解强 | $3 |
| Claude 3.5 Haiku | 200K | 速度快,便宜 | $1 |
| Claude 3.7 Sonnet | 200K | 最新旗舰(2025) | $5(预估) |
| Claude 3 Opus | 200K | 能力最强,贵 | $15 |
选择建议:写代码、读文档用 Sonnet,低成本场景用 Haiku。
Gemini 系列(Google)
| 模型 | 上下文 | 特点 | 输入价格(1M tokens) |
|---|---|---|---|
| Gemini 1.5 Pro | 1M | 超长上下文 | $1.25 |
| Gemini 1.5 Flash | 1M | 快,便宜 | $0.075 |
| Gemini 2.0 Flash | 1M | 最新(2025) | $0.15 |
选择建议:需要处理超长文档(整本书)时用 Gemini 1.5 Pro。
国产商用模型
| 模型 | 厂商 | 上下文 | 特点 |
|---|---|---|---|
| GLM-4 | 智谱 AI | 128K | 中文对话强,开源 |
| GLM-4-AllTools | 智谱 AI | 128K | 支持函数调用、联网 |
| Spark Desk 3.5 | 讯飞 | 8K | 中文语音交互强 |
| ERNIE 4.0 | 百度 | 128K | 中文理解强 |
开源模型
Llama 系列(Meta)
| 模型 | 参数量 | 特点 |
|---|---|---|
| Llama 3.1 8B | 8B | 单卡可跑,效果好 |
| Llama 3.1 70B | 70B | 接近 GPT-4 能力 |
| Llama 3.1 405B | 405B | 开源最强 |
| Llama 3.2 11B | 11B | 多模态(视觉+文本) |
| Llama 3.3 70B | 70B | 性能接近 405B,成本更低 |
部署方式:
bash
# 使用 Ollama(最简单)
ollama run llama3.1:8b
# 使用 vLLM(生产推荐)
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B-InstructQwen 系列(阿里)
中文能力最强的开源模型之一:
| 模型 | 参数量 | 特点 |
|---|---|---|
| Qwen2.5 7B | 7B | 中文日常够用 |
| Qwen2.5 72B | 72B | 中文接近 GPT-4 |
| Qwen2.5-Coder 7B | 7B | 代码专用 |
| Qwen2.5-Max | MoE | 2025 年最强开源 |
DeepSeek 系列
性价比极高的国产模型:
| 模型 | 参数量 | 特点 |
|---|---|---|
| DeepSeek V3 | 671B(激活 37B) | MoE 架构,成本极低 |
| DeepSeek R1 | 671B | 推理增强,类 o1,开源 |
| DeepSeek R1-Zero | 671B | 纯强化学习,无监督 |
其他值得关注
| 模型 | 厂商 | 特点 |
|---|---|---|
| Mistral 7B | Mistral AI | 小而强 |
| Mistral Large 2 | Mistral AI | 123B,接近 GPT-4 |
| Gemma 2 | 轻量级 | |
| Yi 1.5 | 零一万物 | 中文好 |
| Yi-Lightning | 零一万物 | 性价比极高 |
模型选择决策树
需要中文能力?
├── 是 → Qwen2.5 / GLM-4 / DeepSeek
└── 否 → 继续
需要本地部署(数据隐私)?
├── 是 → Llama 3.1 / Qwen2.5(用 Ollama)
└── 否 → 继续
需要超长上下文(> 100K tokens)?
├── 是 → Gemini 1.5 Pro / Claude 3.5
└── 否 → 继续
需要最强推理能力?
├── 是 → o1 / DeepSeek R1 / Claude 3.7
└── 否 → GPT-4o / GPT-4o Mini性能排行榜(2025 年)
数据来源:LMSYS Chatbot Arena(基于真实用户投票)
2025 年排名(综合):
1. GPT-4.5 / Claude 3.7 Sonnet
2. GPT-4o
3. Claude 3.5 Sonnet
4. Gemini 2.0 Pro
5. DeepSeek R1
6. Llama 3.1 405B
7. Qwen2.5 72B相关资源
- LMSYS Arena - 实时排行榜
- OpenRouter - 统一 API 访问多个模型
- Hugging Face - 开源模型下载
- Artificial Analysis - 模型性能对比