Skip to content

主流 LLM 模型对比

当前主流大语言模型的详细对比和选择建议(2025-2026 年更新)。

闭源商用模型

GPT 系列(OpenAI)

模型上下文特点输入价格(1M tokens)
GPT-4o128K速度快,多模态$2.5
GPT-4 Turbo128K能力强,成本高$10
GPT-4o Mini128K性价比高$0.15
o1200K推理增强,慢$15
o1-mini128K推理+代码,便宜$3
GPT-4.5128K最新旗舰(2025)$30(预估)

选择建议:日常用 GPT-4o,复杂推理用 o1,低成本用 GPT-4o Mini。

Claude 系列(Anthropic)

模型上下文特点输入价格(1M tokens)
Claude 3.5 Sonnet200K代码强,长文本理解强$3
Claude 3.5 Haiku200K速度快,便宜$1
Claude 3.7 Sonnet200K最新旗舰(2025)$5(预估)
Claude 3 Opus200K能力最强,贵$15

选择建议:写代码、读文档用 Sonnet,低成本场景用 Haiku。

Gemini 系列(Google)

模型上下文特点输入价格(1M tokens)
Gemini 1.5 Pro1M超长上下文$1.25
Gemini 1.5 Flash1M快,便宜$0.075
Gemini 2.0 Flash1M最新(2025)$0.15

选择建议:需要处理超长文档(整本书)时用 Gemini 1.5 Pro。

国产商用模型

模型厂商上下文特点
GLM-4智谱 AI128K中文对话强,开源
GLM-4-AllTools智谱 AI128K支持函数调用、联网
Spark Desk 3.5讯飞8K中文语音交互强
ERNIE 4.0百度128K中文理解强

开源模型

Llama 系列(Meta)

模型参数量特点
Llama 3.1 8B8B单卡可跑,效果好
Llama 3.1 70B70B接近 GPT-4 能力
Llama 3.1 405B405B开源最强
Llama 3.2 11B11B多模态(视觉+文本)
Llama 3.3 70B70B性能接近 405B,成本更低

部署方式

bash
# 使用 Ollama(最简单)
ollama run llama3.1:8b

# 使用 vLLM(生产推荐)
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-8B-Instruct

Qwen 系列(阿里)

中文能力最强的开源模型之一:

模型参数量特点
Qwen2.5 7B7B中文日常够用
Qwen2.5 72B72B中文接近 GPT-4
Qwen2.5-Coder 7B7B代码专用
Qwen2.5-MaxMoE2025 年最强开源

DeepSeek 系列

性价比极高的国产模型:

模型参数量特点
DeepSeek V3671B(激活 37B)MoE 架构,成本极低
DeepSeek R1671B推理增强,类 o1,开源
DeepSeek R1-Zero671B纯强化学习,无监督

其他值得关注

模型厂商特点
Mistral 7BMistral AI小而强
Mistral Large 2Mistral AI123B,接近 GPT-4
Gemma 2Google轻量级
Yi 1.5零一万物中文好
Yi-Lightning零一万物性价比极高

模型选择决策树

需要中文能力?
├── 是 → Qwen2.5 / GLM-4 / DeepSeek
└── 否 → 继续

需要本地部署(数据隐私)?
├── 是 → Llama 3.1 / Qwen2.5(用 Ollama)
└── 否 → 继续

需要超长上下文(> 100K tokens)?
├── 是 → Gemini 1.5 Pro / Claude 3.5
└── 否 → 继续

需要最强推理能力?
├── 是 → o1 / DeepSeek R1 / Claude 3.7
└── 否 → GPT-4o / GPT-4o Mini

性能排行榜(2025 年)

数据来源:LMSYS Chatbot Arena(基于真实用户投票)

2025 年排名(综合):
1. GPT-4.5 / Claude 3.7 Sonnet
2. GPT-4o
3. Claude 3.5 Sonnet
4. Gemini 2.0 Pro
5. DeepSeek R1
6. Llama 3.1 405B
7. Qwen2.5 72B

相关资源