首页 > 教程攻略 > ai资讯 >Firecrawl：3.9K+ Star！一键将网站转换为LLM可读的Markdown或结构化数据

Firecrawl：3.9K+ Star！一键将网站转换为LLM可读的Markdown或结构化数据

来源：互联网时间：2026-05-30 20:15:24

项目简介

想象一下，你手头有一个网站，想把里面所有能访问的页面内容一股脑儿喂给大语言模型（LLM）。传统做法往往需要手动整理、处理脏数据、还得纠结网站地图。Firecrawl 就是专为这个场景设计的——一个由 Mendable.ai 及其社区共同维护的 API 服务，它能直接爬取整个网站，把所有子页面转换成 LLM 友好的 Markdown 或结构化数据，干净利落，连网站地图都不需要。

使用场景

内容转换
：把网页内容批量转成 Markdown 或结构化数据，后续做分析、训练模型都很顺手。
数据提取
：从页面上精准抓取文章标题、评论、元数据等信息，省去手动复制粘贴的功夫。
搜索引擎优化（SEO）
：通过提取网站数据结构，分析关键词布局和页面权重，辅助优化策略。
内容聚合
：把多个网站的内容整合到一起，搭建信息平台或知识库。
自动化文档生成
：自动生成用户手册、帮助文档这类需要从多个页面提取文本的场景——效率提升不是一点点。

使用方法

使用前提

先注册 Firecrawl 获取 API 密钥。
根据偏好安装 Python SDK 或 Node SDK。

具体操作

1. API 调用

拿到密钥后，可以直接用 cURL 命令行或者 SDK 调用 Firecrawl API，方式很灵活。

2. Python SDK

安装：pip install firecrawl-py
示例代码：

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
    print(result['markdown'])

3. Node SDK

安装：npm install @mendable/firecrawl-js
示例代码：

import FirecrawlApp from "@mendable/firecrawl-js";

const app = new FirecrawlApp({
  apiKey: "fc-YOUR_API_KEY",
});

const url = 'https://example.com';
const scrapedData = await app.scrapeUrl(url);
console.log(scrapedData);

API 功能一览

Crawling
：爬取一个 URL 及其所有可访问的子页面，会返回一个作业 ID 用于跟踪进度。
Scraping
：单独抓取一个页面的内容，适合定点采集。
Search（Beta）
：搜索网络，找到最相关的结果，然后抓取每个页面并返回 Markdown。相当于“搜索+采集”一步到位。
Intelligent Extraction（Beta）
：从已抓取的页面中智能提取结构化数据，比如表格、列表、关键字段。

需要提醒的是：在使用 Firecrawl 进行抓取、搜索和爬取之前，务必遵守目标网站的隐私政策和使用条款——这是基本底线，也是长期稳定使用的前提。

Firecrawl：3.9K+ Star！一键将网站转换为LLM可读的Markdown或结构化数据

使用场景

内容转换

数据提取

搜索引擎优化（SEO）

内容聚合

自动化文档生成

使用方法

使用前提

具体操作

1. API 调用

2. Python SDK

3. Node SDK

API 功能一览

Crawling

Scraping

Search（Beta）

Intelligent Extraction（Beta）

相关阅读

相关下载