主题
AI Agent 入门
AI Agent(智能代理)是能够自主感知环境、做出决策并采取行动以实现目标的 AI 系统。
什么是 AI Agent
传统 LLM:你问一句,它答一句(无状态、无行动)
AI Agent:可以自主规划、使用工具、循环执行直到完成任务
传统 LLM:
用户 → Prompt → LLM → 回答
AI Agent:
用户 → 目标 → Agent → [思考 → 选工具 → 执行 → 观察结果] → 循环 → 最终答案Agent 的核心组成
┌─────────────────────────────────┐
│ AI Agent │
│ ┌──────────┐ ┌─────────────┐ │
│ │ 大脑 │ │ 记忆 │ │
│ │ (LLM) │ │ (Memory) │ │
│ └──────────┘ └─────────────┘ │
│ ┌──────────┐ ┌─────────────┐ │
│ │ 工具 │ │ 规划 │ │
│ │ (Tools) │ │ (Planning) │ │
│ └──────────┘ └─────────────┘ │
└─────────────────────────────────┘1. 大脑(LLM)
负责理解和决策,通常使用 GPT-4、Claude 等大模型。
2. 工具(Tools)
Agent 可以调用的外部能力:
- 搜索引擎(Google、Bing)
- 代码执行器(Python、Shell)
- 数据库查询
- API 调用
- 文件读写
3. 记忆(Memory)
- 短期记忆:当前对话的上下文
- 长期记忆:跨会话的历史信息(通常用向量数据库存储)
4. 规划(Planning)
- 把大任务拆解成小步骤
- 反思上一步的结果,决定下一步
Agent 的工作流程
1. 接收用户目标
2. 思考:下一步应该做什么?
3. 选择工具并执行
4. 观察执行结果
5. 思考:目标完成了吗?
- 没完成 → 回到第 2 步
- 完成了 → 返回最终结果这个过程叫做 ReAct(Reasoning + Acting)。
典型应用场景
| 场景 | 说明 |
|---|---|
| 代码助手 | 自动写代码、跑测试、修 Bug |
| 数据分析 | 读取数据、生成图表、写报告 |
| 客服机器人 | 查订单、处理退款、回答问题 |
| 研究助手 | 搜索资料、总结文献、生成综述 |
主流 Agent 框架
| 框架 | 特点 |
|---|---|
| LangChain | 生态最丰富,Python/JS 双语言 |
| AutoGen | 多 Agent 对话,适合复杂任务 |
| CrewAI | 角色分工明确,类"团队"模式 |
| OpenAI Assistants API | 官方方案,集成简单 |
一个简单的 Agent 例子
用户目标:帮我分析最近一周的网站访问日志,
找出访问量最高的 5 个页面,
生成一份报告
Agent 执行步骤:
1. 读取日志文件
2. 解析日志,统计每页访问量
3. 排序,取 Top 5
4. 生成 Markdown 报告
5. 返回报告给用户