大语言模型（LLM）概论

大语言模型（Large Language Model）是当前 AI 领域最核心的技术，驱动着 ChatGPT、Claude、Gemini 等应用。

什么是大语言模型

LLM 是一个参数量巨大（数十亿到数千亿）的神经网络模型，通过在海量文本数据上训练，学会了：

理解和生成自然语言
写代码
推理和回答问题
翻译、总结、创作

训练数据：书籍、网页、代码...（TB 级别）
训练目标：预测下一个词
结果：一个"理解语言"的模型

发展时间线

2017  Transformer 论文（Attention is All You Need）
      ↓
2018  BERT（Google）/ GPT-1（OpenAI）
      ↓
2019  GPT-2
      ↓
2020  GPT-3（175B 参数，Few-Shot 能力）
      ↓
2022  ChatGPT（GPT-3.5 + RLHF）← 引爆全球
      ↓
2023  GPT-4 / Claude / Gemini / Llama 2
      ↓
2024  GPT-4o / Claude 3.5 / o1（推理增强）
      ↓
2025  GPT-5？ / 多模态持续增强

主流模型对比

模型	厂商	特点	适用场景
GPT-4o	OpenAI	多模态，速度快	通用
GPT-4	OpenAI	推理强，成本高	复杂任务
Claude 3.5 Sonnet	Anthropic	长文本理解强	代码、文档
Gemini 1.5 Pro	Google	超长上下文（1M tokens）	大文档分析
Llama 3.1	Meta	开源，可本地部署	私有化
Qwen 2.5	阿里	中文能力强	中文场景
DeepSeek V3	DeepSeek	性价比高	代码、推理

如何使用 LLM

1. API 调用（开发者）

javascript

// OpenAI API
const response = await fetch('https://api.openai.com/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'gpt-4',
    messages: [
      { role: 'user', content: '你好' }
    ]
  })
})

2. 网页版（普通用户）

3. 本地部署（隐私敏感）

bash

# 使用 Ollama 运行 Llama 3
ollama run llama3

# 使用 Ollama 运行 Qwen
ollama run qwen2

Token 和成本

LLM 按 Token 计费（约等于"词"的单位）：

1 个 Token ≈ 0.75 个英文单词 ≈ 0.5 个中文字

1000 个 Token ≈ 750 个英文单词 ≈ 500 个中文字

模型	输入价格（每 1M tokens）	输出价格（每 1M tokens）
GPT-4o	$2.5	$10
GPT-4	$30	$60
Claude 3.5 Sonnet	$3	$15
Llama 3.1（本地）	免费	免费

局限性

幻觉：会自信地说错话（编造事实）
无实时信息：训练数据有截止日期
无记忆：每次对话是独立的（需要手动管理上下文）
成本高：大规模使用成本不容忽视

大语言模型（LLM）概论 ​

什么是大语言模型 ​

发展时间线 ​

主流模型对比 ​

如何使用 LLM ​

1. API 调用（开发者） ​

2. 网页版（普通用户） ​

3. 本地部署（隐私敏感） ​

Token 和成本 ​

局限性 ​

相关资源 ​

大语言模型（LLM）概论

什么是大语言模型

发展时间线

主流模型对比

如何使用 LLM

1. API 调用（开发者）

2. 网页版（普通用户）

3. 本地部署（隐私敏感）

Token 和成本

局限性

相关资源