主题
大语言模型(LLM)概论
大语言模型(Large Language Model)是当前 AI 领域最核心的技术,驱动着 ChatGPT、Claude、Gemini 等应用。
什么是大语言模型
LLM 是一个参数量巨大(数十亿到数千亿)的神经网络模型,通过在海量文本数据上训练,学会了:
- 理解和生成自然语言
- 写代码
- 推理和回答问题
- 翻译、总结、创作
训练数据:书籍、网页、代码...(TB 级别)
训练目标:预测下一个词
结果:一个"理解语言"的模型发展时间线
2017 Transformer 论文(Attention is All You Need)
↓
2018 BERT(Google)/ GPT-1(OpenAI)
↓
2019 GPT-2
↓
2020 GPT-3(175B 参数,Few-Shot 能力)
↓
2022 ChatGPT(GPT-3.5 + RLHF)← 引爆全球
↓
2023 GPT-4 / Claude / Gemini / Llama 2
↓
2024 GPT-4o / Claude 3.5 / o1(推理增强)
↓
2025 GPT-5? / 多模态持续增强主流模型对比
| 模型 | 厂商 | 特点 | 适用场景 |
|---|---|---|---|
| GPT-4o | OpenAI | 多模态,速度快 | 通用 |
| GPT-4 | OpenAI | 推理强,成本高 | 复杂任务 |
| Claude 3.5 Sonnet | Anthropic | 长文本理解强 | 代码、文档 |
| Gemini 1.5 Pro | 超长上下文(1M tokens) | 大文档分析 | |
| Llama 3.1 | Meta | 开源,可本地部署 | 私有化 |
| Qwen 2.5 | 阿里 | 中文能力强 | 中文场景 |
| DeepSeek V3 | DeepSeek | 性价比高 | 代码、推理 |
如何使用 LLM
1. API 调用(开发者)
javascript
// OpenAI API
const response = await fetch('https://api.openai.com/v1/chat/completions', {
method: 'POST',
headers: {
'Authorization': `Bearer ${API_KEY}`,
'Content-Type': 'application/json'
},
body: JSON.stringify({
model: 'gpt-4',
messages: [
{ role: 'user', content: '你好' }
]
})
})2. 网页版(普通用户)
- ChatGPT: https://chat.openai.com
- Claude: https://claude.ai
- Gemini: https://gemini.google.com
3. 本地部署(隐私敏感)
bash
# 使用 Ollama 运行 Llama 3
ollama run llama3
# 使用 Ollama 运行 Qwen
ollama run qwen2Token 和成本
LLM 按 Token 计费(约等于"词"的单位):
1 个 Token ≈ 0.75 个英文单词 ≈ 0.5 个中文字
1000 个 Token ≈ 750 个英文单词 ≈ 500 个中文字| 模型 | 输入价格(每 1M tokens) | 输出价格(每 1M tokens) |
|---|---|---|
| GPT-4o | $2.5 | $10 |
| GPT-4 | $30 | $60 |
| Claude 3.5 Sonnet | $3 | $15 |
| Llama 3.1(本地) | 免费 | 免费 |
局限性
- 幻觉:会自信地说错话(编造事实)
- 无实时信息:训练数据有截止日期
- 无记忆:每次对话是独立的(需要手动管理上下文)
- 成本高:大规模使用成本不容忽视
相关资源
- OpenAI API 文档
- Hugging Face - 开源模型库
- LMSYS Chatbot Arena - 模型排行榜