首页 > 教程攻略 > ai资讯 >Firecrawl:3.9K+ Star!一键将网站转换为LLM可读的Markdown或结构化数据

Firecrawl:3.9K+ Star!一键将网站转换为LLM可读的Markdown或结构化数据

来源:互联网 时间:2026-05-30 20:15:24

项目简介

Firecrawl:3.9K+ Star!一键将网站转换为LLM可读的Markdown或结构化数据

想象一下,你手头有一个网站,想把里面所有能访问的页面内容一股脑儿喂给大语言模型(LLM)。传统做法往往需要手动整理、处理脏数据、还得纠结网站地图。Firecrawl 就是专为这个场景设计的——一个由 Mendable.ai 及其社区共同维护的 API 服务,它能直接爬取整个网站,把所有子页面转换成 LLM 友好的 Markdown 或结构化数据,干净利落,连网站地图都不需要。

使用场景

  1. 内容转换

    :把网页内容批量转成 Markdown 或结构化数据,后续做分析、训练模型都很顺手。
  2. 数据提取

    :从页面上精准抓取文章标题、评论、元数据等信息,省去手动复制粘贴的功夫。
  3. 搜索引擎优化(SEO)

    :通过提取网站数据结构,分析关键词布局和页面权重,辅助优化策略。
  4. 内容聚合

    :把多个网站的内容整合到一起,搭建信息平台或知识库。
  5. 自动化文档生成

    :自动生成用户手册、帮助文档这类需要从多个页面提取文本的场景——效率提升不是一点点。

使用方法

使用前提

  • 先注册 Firecrawl 获取 API 密钥。
  • 根据偏好安装 Python SDK 或 Node SDK。

具体操作

1. API 调用


拿到密钥后,可以直接用 cURL 命令行或者 SDK 调用 Firecrawl API,方式很灵活。

2. Python SDK

  • 安装:pip install firecrawl-py
  • 示例代码:
from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="YOUR_API_KEY")
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})
for result in crawl_result:
    print(result['markdown'])

3. Node SDK

  • 安装:npm install @mendable/firecrawl-js
  • 示例代码:
import FirecrawlApp from "@mendable/firecrawl-js";

const app = new FirecrawlApp({
  apiKey: "fc-YOUR_API_KEY",
});

const url = 'https://example.com';
const scrapedData = await app.scrapeUrl(url);
console.log(scrapedData);

API 功能一览

  • Crawling

    :爬取一个 URL 及其所有可访问的子页面,会返回一个作业 ID 用于跟踪进度。
  • Scraping

    :单独抓取一个页面的内容,适合定点采集。
  • Search(Beta)

    :搜索网络,找到最相关的结果,然后抓取每个页面并返回 Markdown。相当于“搜索+采集”一步到位。
  • Intelligent Extraction(Beta)

    :从已抓取的页面中智能提取结构化数据,比如表格、列表、关键字段。

需要提醒的是:在使用 Firecrawl 进行抓取、搜索和爬取之前,务必遵守目标网站的隐私政策和使用条款——这是基本底线,也是长期稳定使用的前提。

相关下载