首页 > 教程攻略 > ai资讯 >BigSet - TinyFish 开源的多智能体实时网络抓取工具

BigSet - TinyFish 开源的多智能体实时网络抓取工具

来源:互联网 时间:2026-06-10 14:28:06

BigSet到底是什么?简单来说,它是美国初创公司TinyFish推出的一个开源多智能体系统,采用AGPL-3.0协议。用户只需要用自然语言描述自己需要什么数据,系统就能自动推断表结构、派遣智能体从实时网络中抓取数据、去重验证,最终生成可直接导出的CSV或XLSX结构化数据集。更贴心的是,它还支持从30分钟到每周的定时刷新,让数据集始终保持实时更新。

BigSet的主要功能

  • 自然语言建表

    :只需用一句话描述所需数据,AI就会自动推断列名、数据类型和主键,完全不需要手动设计表结构。
  • 多智能体采集

    :编排器智能体负责发现目标实体,子智能体则并行抓取单条数据——每人最多6次工具调用,从发现到填充一气呵成。
  • 自动去重溯源

    :基于主键自动去重,每一行数据都附带来源URL,确保所有数据可以追溯验证。
  • 定时刷新

    :支持30分钟、6小时、12小时、每日、每周这五种频率自动更新,让数据集永远保持同步。
  • 格式导出

    :生成结果支持CSV和XLSX两种格式直接下载,方便你接入Excel或任何数据分析工具。
  • 预置数据集

    :内置9个精选公开数据集,开箱即用。

BigSet的技术原理

  • 多智能体编排架构

    :BigSet基于Mastra框架构建多智能体系统,核心由编排器和子智能体(Worker Agent)组成。编排器负责发现目标实体并生成抓取任务,子智能体并行执行单条数据抓取,每人最多6次工具调用,通过Vercel AI SDK和OpenRouter统一调度Claude Sonnet与Qwen模型。
  • 表结构自动推断

    :系统接收自然语言描述后,由Claude Sonnet分析语义意图,自动推断列名、数据类型和主键约束。整个过程无需人工指定Schema,LLM根据描述中的实体关系和数据特征生成结构化表定义,并作为后续采集的验证基准。
  • 数据采集与去重验证

    :编排器将目标实体拆分为独立任务,分派给子智能体并行抓取。每个子智能体调用TinyFish Search / Fetch / Browser API从实时网络获取数据,返回结果后系统基于主键自动去重,并为每行数据附加来源URL,确保每一笔数据都可追溯。
  • 安全防护机制

    :为了防止提示词注入攻击,数据集ID不通过系统提示传递给LLM,而是采用JS闭包在运行时注入。这样一来,LLM全程无法直接访问或泄露数据集标识,实现了采集逻辑与数据权限的隔离。

如何使用BigSet

  • 环境准备

    :安装Docker和Make,然后前往TinyFish、OpenRouter、Clerk官网注册账号获取API密钥。
  • 克隆仓库

    :执行 git clone https://github.com/tinyfish-io/bigset.git 下载项目代码,并将 .env.example 复制为 .env 文件。
  • 配置密钥

    :在 .env 文件中填入TinyFish、OpenRouter、Clerk三类API密钥,确保服务具备数据采集、模型调用和身份认证的权限。
  • 启动服务

    :运行 make dev 命令,系统会自动安装依赖、启动Postgres和Convex数据库,完成服务部署。
  • 访问使用

    :打开浏览器访问 localhost:3500,注册并登录后,在输入框中用自然语言描述所需数据,系统就能自动生成结构化数据集。
  • 加载预置数据(可选)

    :执行 make seed-public-datasets 命令,可一键加载内置的9个精选公开数据集,快速体验核心功能。

BigSet的核心优势

  • 零配置采集

    :无需编写爬虫、选择器或指定URL,纯自然语言描述即可自动生成结构化数据集。
  • 安全隔离

    :数据集ID通过JS闭包注入,LLM全程无法访问,有效防止提示词注入攻击。
  • 开源可自托管

    :采用AGPL-3.0协议,Docker一键部署,数据完全自主可控。
  • 企业级基建

    :基于TinyFish已处理4000万+智能体操作的企业级搜索与抓取API,稳定可靠。

BigSet的项目地址

  • GitHub仓库

    :https://github.com/tinyfish-io/bigset

BigSet的同类竞品对比

对比维度

BigSet

Firecrawl

产品定位

多智能体驱动的数据集生成平台,从自然语言描述到可导出的结构化数据集API-first 的网页抓取与爬取平台,将网站转换为 LLM-ready 的 Markdown 或结构化数据

输入方式

自然语言描述所需数据主题(如"AI 招聘公司信息")指定 URL 爬取,或通过 /agent 端点用自然语言描述需求(无需 URL)

数据源发现

AI 自动推断表结构并发现实体来源,无需人工提供任何链接/agent 可自主搜索导航,但常规模式需用户指定起始 URL 或站点地图

表结构定义

LLM 自动推断 Schema(列名、数据类型、主键),生成关系型数据集支持 JSON Schema 或自然语言提示定义提取结构,输出为 JSON 对象

采集范围

跨站点聚合多源数据,自动去重生成统一数据集基于给定 URL 递归爬取或单页提取,聚焦已知站点的内容

自动化程度

编排器+子智能体闭环:发现→抓取→去重→验证→建表→导出,全流程自主单链路或 Agent 模式执行抓取转换,需外部工具配合完成数据集管理

定时刷新

原生支持(30分钟/6小时/12小时/每日/每周)支持 Scheduled Jobs 定期执行,但需通过 API 或外部调度配置

输出格式

CSV、XLSX(附带来源 URL,可直接用于 Excel/BI)Markdown、JSON、HTML、截图、链接(面向 LLM/RAG 管道优化)

数据去重

基于主键自动去重,确保数据集唯一性需用户在下游自行处理去重逻辑

BigSet的应用场景

  • 竞品监控

    :自动追踪竞争对手的产品价格、功能更新、招聘信息等,生成可定时刷新的结构化情报表。
  • 市场研究

    :收集特定行业内的公司信息、融资动态、市场份额数据,快速构建行业数据库。
  • 投资分析

    :跟踪股票、加密货币、初创公司融资轮次及估值变化,支持投资决策的数据采集。
  • 招聘情报

    :监控目标公司或行业的职位发布、技能要求、薪资范围,分析人才市场趋势。
  • 电商比价

    :抓取多平台商品的价格、库存、评价数据,建立实时更新的比价数据集。