假设可以通过pip安装（请以官方仓库为准）

openclaw 中文openclaw 2026-04-09 2

我将以此为背景，提供一个详细的使用说明，如果指的是其他OpenClaw,请提供更多上下文。

假设可以通过pip安装（请以官方仓库为准）-第1张图片-OpenClaw下载中文-AI中文智能体

OpenClaw (AI-Powered Web Scraper) 使用说明

概述

OpenClaw 的核心思想是利用机器学习模型（如LLM）来理解网页的视觉和语义布局，自动识别并提取目标数据（如产品信息、文章内容、价格等），而无需编写复杂的、易碎的XPath或CSS选择器，它特别适合处理结构复杂、动态变化或JavaScript渲染的页面。

核心特性

智能识别：自动探测列表项、详细信息块等。
自然语言指令：可以用“提取所有产品标题和价格”这样的指令来驱动。
处理复杂页面：对动态加载、不规则DOM结构的网页有更好的鲁棒性。
零样本/少样本学习：理想情况下,无需提供大量标注示例即可工作。
输出结构化数据：直接生成JSON、CSV等格式。

典型工作流程

安装 -> 2. 配置（API密钥等） -> 3. 定义提取任务 -> 4. 运行爬虫 -> 5. 获取结果

详细使用步骤

步骤1：环境准备与安装 通常需要Python环境。

# 或者从源码安装
git clone https://github.com/相关仓库/openclaw.git
cd openclaw
pip install -r requirements.txt
pip install -e .

步骤2：获取并配置API密钥 由于其AI能力常依赖于后端大模型（如OpenAI GPT、Anthropic Claude或开源模型）,你需要配置相应的API。

export OPENAI_API_KEY='sk-your-key-here'  # 如果使用OpenAI
# 或者在代码中配置

步骤3：基本使用示例 以下是一个概念性的代码示例：

from openclaw import Claw  # 导入方式可能因版本而异
# 1. 初始化爬虫实例
claw = Claw(
    llm_provider="openai",  # 指定使用的LLM服务商
    llm_api_key="your_api_key",
    headless=True  # 使用无头浏览器模式
)
# 2. 定义你的提取任务
task = {
    "url": "https://example.com/products",
    "instruction": "提取页面上所有商品卡片的信息，包括商品名称、价格、描述和图片链接。",
    # 可选： 提供少量示例来提升精度（少样本学习）
    "examples": [
        {
            "html_snippet": "...",
            "output": {"name": "...", "price": "..."}
        }
    ]
}
# 3. 执行提取
result = claw.extract(task)
# 4. 处理结果
if result.success:
    data = result.data  # 通常是一个字典或字典列表
    print(f"成功提取到 {len(data)} 条记录。")
    for item in data:
        print(item)
    # 保存为JSON
    import json
    with open('products.json', 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
else:
    print(f"提取失败: {result.error}")

步骤4：高级配置与技巧

控制速度与成本：

claw = Claw(
    llm_model="gpt-3.5-turbo",  # 使用更便宜的模型
    delay_between_requests=1.0,  # 请求间延迟，避免被封
    max_pages_to_crawl=10,       # 限制爬取页面数
    cache_responses=True         # 缓存响应以节省API调用
)

处理分页/导航：

task = {
    "start_url": "https://example.com/products?page=1",
    "instruction": "提取所有分页的商品信息，首先找到‘下一页’按钮，点击它，继续提取，直到没有下一页为止。",
    "navigation_required": True
}

处理登录/认证：可能需要先执行登录脚本。

claw.browser.get("https://example.com/login")
# ... 使用selenium-like的方式自动填充并提交表单
claw.browser.cookies.get_dict()  # 获取cookies用于后续会话

常用命令（如果提供CLI）

# 基础提取
openclaw extract --url "https://news.ycombinator.com" --instruction "提取所有新闻标题和链接"
# 使用配置文件
openclaw run --config task_config.yaml
# 输出到指定格式
openclaw extract --url ... --instruction ... --output-format csv --output-file results.csv
# 限制输出
openclaw extract --url ... --instruction ... --max-items 50

配置文件示例 (`task_config.yaml`)

version: "1.0"
tasks:
  - name: "提取电商产品"
    start_urls:
      - "https://example-store.com/category/laptops"
    instruction: |
      提取每个产品卡片中的：
      1. 产品完整名称
      2. 当前价格（只取数字和货币符号）
      3. 评分（如果存在）
      4. 产品详情页的链接（href属性）
    output:
      format: "json"
      file: "laptops.json"
    settings:
      pagination: true
      pagination_selector: ".next-page"
      max_pages: 5
      delay: 2

注意事项与最佳实践

遵守robots.txt：始终检查并尊重目标网站的爬虫协议。
控制速率：添加延迟,避免对目标服务器造成压力。
错误处理：网络请求和AI解析都可能失败,确保代码有重试和日志记录机制。
成本意识： LLM API调用是计费的，处理大量页面时成本可能显著上升,可以先在小样本上测试指令的准确性。
合法性：仅爬取公开且允许爬取的数据,遵守相关法律法规和网站的服务条款。
备用方案：对于结构极其简单固定的网站，传统的requests + BeautifulSoup组合可能更高效、更稳定,OpenClaw最适合传统方法难以处理的场景。

故障排除

提取结果为空或不准确：
- 优化你的instruction，使其更清晰、更具约束力。
- 提供1-2个清晰的examples。
- 检查目标页面是否成功加载（可能需要处理动态内容）。
速度慢：
- 减少max_pages_to_crawl。
- 增加delay_between_requests。
- 考虑使用更快的LLM模型（如gpt-3.5-turbo vs gpt-4）。
遇到反爬机制：
- 启用headless模式。
- 配置用户代理 (user_agent) 轮换。
- 使用代理IP池。