Firecrawl:3.9K+ Star!一键将网站转换为LLM可读的Markdown或结构化数据
来源:互联网
时间:2026-05-30 20:15:24
项目简介

想象一下,你手头有一个网站,想把里面所有能访问的页面内容一股脑儿喂给大语言模型(LLM)。传统做法往往需要手动整理、处理脏数据、还得纠结网站地图。Firecrawl 就是专为这个场景设计的——一个由 Mendable.ai 及其社区共同维护的 API 服务,它能直接爬取整个网站,把所有子页面转换成 LLM 友好的 Markdown 或结构化数据,干净利落,连网站地图都不需要。
使用场景
- :把网页内容批量转成 Markdown 或结构化数据,后续做分析、训练模型都很顺手。
内容转换
- :从页面上精准抓取文章标题、评论、元数据等信息,省去手动复制粘贴的功夫。
数据提取
- :通过提取网站数据结构,分析关键词布局和页面权重,辅助优化策略。
搜索引擎优化(SEO)
- :把多个网站的内容整合到一起,搭建信息平台或知识库。
内容聚合
- :自动生成用户手册、帮助文档这类需要从多个页面提取文本的场景——效率提升不是一点点。
自动化文档生成
使用方法
使用前提
- 先注册 Firecrawl 获取 API 密钥。
- 根据偏好安装 Python SDK 或 Node SDK。
具体操作
1. API 调用
拿到密钥后,可以直接用 cURL 命令行或者 SDK 调用 Firecrawl API,方式很灵活。
2. Python SDK
- 安装:
pip install firecrawl-py - 示例代码:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
print(result['markdown'])
3. Node SDK
- 安装:
npm install @mendable/firecrawl-js - 示例代码:
import FirecrawlApp from "@mendable/firecrawl-js";
const app = new FirecrawlApp({
apiKey: "fc-YOUR_API_KEY",
});
const url = 'https://example.com';
const scrapedData = await app.scrapeUrl(url);
console.log(scrapedData);
API 功能一览
- :爬取一个 URL 及其所有可访问的子页面,会返回一个作业 ID 用于跟踪进度。
Crawling
- :单独抓取一个页面的内容,适合定点采集。
Scraping
- :搜索网络,找到最相关的结果,然后抓取每个页面并返回 Markdown。相当于“搜索+采集”一步到位。
Search(Beta)
- :从已抓取的页面中智能提取结构化数据,比如表格、列表、关键字段。
Intelligent Extraction(Beta)
需要提醒的是:在使用 Firecrawl 进行抓取、搜索和爬取之前,务必遵守目标网站的隐私政策和使用条款——这是基本底线,也是长期稳定使用的前提。