Firecrawl 把杂乱的网页变成干净、LLM 就绪的数据。给它一个 URL,它返回 markdown 或结构化 JSON;给它一个域名,它爬取或映射整站;给它一个查询,它搜索并返回完整页面内容。它常年在 AI 工具榜前列,原因很朴素:给模型喂好文本是个瓶颈,而 Firecrawl 是这个瓶颈最”开箱即用”的答案。本文谈它强在哪,以及开源版在哪悄悄和云端版分了岔。

它到底做什么

API 是一组小动词,每个把一件事做好:

  • Scrape 单个 URL 成 markdown、JSON、HTML 或截图,经无头浏览器做 JS 渲染。
  • Crawl 递归爬取整站成一组页面。
  • Map 快速发现整站所有 URL。
  • Search 搜索网页并返回完整页面内容,支持域名 include/exclude 过滤。
  • Batch scrape 异步处理成百上千个 URL。
  • Extract 按 schema 抽取结构化数据,越来越被定位成一个 agentic 步骤。
  • Parse(v2.10 线新增)上传本地 PDF/DOCX 等文件,返回 markdown 并保留表格与阅读顺序。

要瞄准的是 v2 重构版(2025 年中);项目现已提供 Python、Node、Go、Ruby、PHP、.NET 等官方 SDK。

安装与接入

有两条路,而两者之间的差距很关键。

云端(firecrawl.dev),docs 默认走这条:

from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
print(app.scrape("firecrawl.dev").markdown)
pip install firecrawl-py      # Python
npm install firecrawl         # Node

自托管走 docker compose:

docker compose build
docker compose up
# API 在 http://localhost:3002

自托管栈是真的:一个 TypeScript API、一个 Playwright 渲染服务、做队列和限流的 Redis、一个 Postgres 存储。它能跑 scrape 和 crawl。但在你以为”它就是云端减去账单”之前,先读下一节。

没人提前告诉你的自托管告诫

这是 README 轻描淡写的判断。开源版(AGPL-3.0)在功能上并不与云端对等。截至 2026-06,从 issue 和自托管文档看,具体是:

  • 反爬和 IP 轮换层(“fire-engine”)不在开源版里,所以防护严的站点表现会不同。
  • agentic 的 Extract 路径依赖未开源的内部服务;自托管者反映即使自带 LLM key 仍需要 Firecrawl API key(#3553)。
  • 部分交互端点依赖 Supabase,而自托管并不完全支持(#3570)。

如果你的场景是”抓一组已知的、配合的页面”,自托管没问题。如果是”从任意防护站点抽结构化数据”,云端做的事比这个容器多。

适合与不适合

适合:RAG 管线、需要新鲜网页上下文的 agent,以及任何本来要手搓 Playwright 加 markdown 清洗的人。不太适合:你需要在自己的语言里写细粒度、有状态的抓取逻辑(抓取库给的控制更多),或者 AGPL 的 copyleft 对你的分发模式是个问题。

横向对比

项目形态备注
firecrawl/firecrawl托管 API + 自托管,动词齐全AGPL-3.0,云端能力更强
D4Vinci/ScraplingPython 抓取库代码优先、逻辑你自己掌控
Jina Reader(jina-ai/reader)URL 前缀转 LLM 文本极简、单一用途

想写抓取代码、掌控每一步,Scrapling 更合适;想要一个 API、丢个 URL 拿回干净数据,Firecrawl 更合适。Jina Reader 是”就给我这页的文本”的轻量中间档。

issue 里的坑

  • Scrape 没有硬超时,慢的或访问不到的页面可能返回难以排查的空响应(#3751)。
  • Redis 抖动时限流器可能 fail-closed、把请求全拒(#3728);一个曾把自托管者打爆的 nuq worker Redis 连接泄漏在 2026-06-10 修复(#3662)。
  • agentic 的 Extract 在重 JavaScript 的 SPA 页面上曾无明确上限地烧光额度(#3552),所以动态目标上要盯花费。

主线是:托管 API 很精致,自托管版需要在 Redis 和渲染上做运维照看。

值得知道的背景

Firecrawl 起初是 Mendable 团队的产品,现在以独立 org 运营、做基于额度的云生意。主仓是 AGPL-3.0,而 SDK 和 UI 部分更宽松。这种双重现实(开放内核 + 能干的云)才是你决定”自己真正采用哪条路”的诚实框架。

相关阅读

要把网页接入模型,可对比 D4Vinci/Scrapling 的代码优先抓取,以及 microsoft/markitdown:拿到本地文档后把它们转成 markdown。