Skip to content

AI Agent 入门

AI Agent(智能代理)是能够自主感知环境、做出决策并采取行动以实现目标的 AI 系统。

什么是 AI Agent

传统 LLM:你问一句,它答一句(无状态、无行动)

AI Agent:可以自主规划、使用工具、循环执行直到完成任务

传统 LLM:
用户 → Prompt → LLM → 回答

AI Agent:
用户 → 目标 → Agent → [思考 → 选工具 → 执行 → 观察结果] → 循环 → 最终答案

Agent 的核心组成

┌─────────────────────────────────┐
│          AI Agent               │
│  ┌──────────┐  ┌─────────────┐  │
│  │ 大脑     │  │ 记忆        │  │
│  │ (LLM)    │  │ (Memory)    │  │
│  └──────────┘  └─────────────┘  │
│  ┌──────────┐  ┌─────────────┐  │
│  │ 工具     │  │ 规划        │  │
│  │ (Tools)  │  │ (Planning)  │  │
│  └──────────┘  └─────────────┘  │
└─────────────────────────────────┘

1. 大脑(LLM)

负责理解和决策,通常使用 GPT-4、Claude 等大模型。

2. 工具(Tools)

Agent 可以调用的外部能力:

  • 搜索引擎(Google、Bing)
  • 代码执行器(Python、Shell)
  • 数据库查询
  • API 调用
  • 文件读写

3. 记忆(Memory)

  • 短期记忆:当前对话的上下文
  • 长期记忆:跨会话的历史信息(通常用向量数据库存储)

4. 规划(Planning)

  • 把大任务拆解成小步骤
  • 反思上一步的结果,决定下一步

Agent 的工作流程

1. 接收用户目标
2. 思考:下一步应该做什么?
3. 选择工具并执行
4. 观察执行结果
5. 思考:目标完成了吗?
   - 没完成 → 回到第 2 步
   - 完成了 → 返回最终结果

这个过程叫做 ReAct(Reasoning + Acting)。

典型应用场景

场景说明
代码助手自动写代码、跑测试、修 Bug
数据分析读取数据、生成图表、写报告
客服机器人查订单、处理退款、回答问题
研究助手搜索资料、总结文献、生成综述

主流 Agent 框架

框架特点
LangChain生态最丰富,Python/JS 双语言
AutoGen多 Agent 对话,适合复杂任务
CrewAI角色分工明确,类"团队"模式
OpenAI Assistants API官方方案,集成简单

一个简单的 Agent 例子

用户目标:帮我分析最近一周的网站访问日志,
         找出访问量最高的 5 个页面,
         生成一份报告

Agent 执行步骤:
1. 读取日志文件
2. 解析日志,统计每页访问量
3. 排序,取 Top 5
4. 生成 Markdown 报告
5. 返回报告给用户

相关资源