首页 > 教程攻略 > ai资讯 >BigSet - TinyFish 开源的多智能体实时网络抓取工具

BigSet - TinyFish 开源的多智能体实时网络抓取工具

来源：互联网时间：2026-06-10 14:28:06

BigSet到底是什么？简单来说，它是美国初创公司TinyFish推出的一个开源多智能体系统，采用AGPL-3.0协议。用户只需要用自然语言描述自己需要什么数据，系统就能自动推断表结构、派遣智能体从实时网络中抓取数据、去重验证，最终生成可直接导出的CSV或XLSX结构化数据集。更贴心的是，它还支持从30分钟到每周的定时刷新，让数据集始终保持实时更新。

BigSet的主要功能

自然语言建表
：只需用一句话描述所需数据，AI就会自动推断列名、数据类型和主键，完全不需要手动设计表结构。
多智能体采集
：编排器智能体负责发现目标实体，子智能体则并行抓取单条数据——每人最多6次工具调用，从发现到填充一气呵成。
自动去重溯源
：基于主键自动去重，每一行数据都附带来源URL，确保所有数据可以追溯验证。
定时刷新
：支持30分钟、6小时、12小时、每日、每周这五种频率自动更新，让数据集永远保持同步。
格式导出
：生成结果支持CSV和XLSX两种格式直接下载，方便你接入Excel或任何数据分析工具。
预置数据集
：内置9个精选公开数据集，开箱即用。

BigSet的技术原理

多智能体编排架构
：BigSet基于Mastra框架构建多智能体系统，核心由编排器和子智能体（Worker Agent）组成。编排器负责发现目标实体并生成抓取任务，子智能体并行执行单条数据抓取，每人最多6次工具调用，通过Vercel AI SDK和OpenRouter统一调度Claude Sonnet与Qwen模型。
表结构自动推断
：系统接收自然语言描述后，由Claude Sonnet分析语义意图，自动推断列名、数据类型和主键约束。整个过程无需人工指定Schema，LLM根据描述中的实体关系和数据特征生成结构化表定义，并作为后续采集的验证基准。
数据采集与去重验证
：编排器将目标实体拆分为独立任务，分派给子智能体并行抓取。每个子智能体调用TinyFish Search / Fetch / Browser API从实时网络获取数据，返回结果后系统基于主键自动去重，并为每行数据附加来源URL，确保每一笔数据都可追溯。
安全防护机制
：为了防止提示词注入攻击，数据集ID不通过系统提示传递给LLM，而是采用JS闭包在运行时注入。这样一来，LLM全程无法直接访问或泄露数据集标识，实现了采集逻辑与数据权限的隔离。

如何使用BigSet

环境准备
：安装Docker和Make，然后前往TinyFish、OpenRouter、Clerk官网注册账号获取API密钥。
克隆仓库
：执行 git clone https://github.com/tinyfish-io/bigset.git 下载项目代码，并将 .env.example 复制为 .env 文件。
配置密钥
：在 .env 文件中填入TinyFish、OpenRouter、Clerk三类API密钥，确保服务具备数据采集、模型调用和身份认证的权限。
启动服务
：运行 make dev 命令，系统会自动安装依赖、启动Postgres和Convex数据库，完成服务部署。
访问使用
：打开浏览器访问 localhost:3500，注册并登录后，在输入框中用自然语言描述所需数据，系统就能自动生成结构化数据集。
加载预置数据（可选）
：执行 make seed-public-datasets 命令，可一键加载内置的9个精选公开数据集，快速体验核心功能。

BigSet的核心优势

零配置采集
：无需编写爬虫、选择器或指定URL，纯自然语言描述即可自动生成结构化数据集。
安全隔离
：数据集ID通过JS闭包注入，LLM全程无法访问，有效防止提示词注入攻击。
开源可自托管
：采用AGPL-3.0协议，Docker一键部署，数据完全自主可控。
企业级基建
：基于TinyFish已处理4000万+智能体操作的企业级搜索与抓取API，稳定可靠。

BigSet的项目地址

GitHub仓库
：https://github.com/tinyfish-io/bigset

BigSet的同类竞品对比

对比维度	BigSet	Firecrawl
产品定位	多智能体驱动的数据集生成平台，从自然语言描述到可导出的结构化数据集	API-first 的网页抓取与爬取平台，将网站转换为 LLM-ready 的 Markdown 或结构化数据
输入方式	自然语言描述所需数据主题（如"AI 招聘公司信息"）	指定 URL 爬取，或通过 `/agent` 端点用自然语言描述需求（无需 URL）
数据源发现	AI 自动推断表结构并发现实体来源，无需人工提供任何链接	`/agent` 可自主搜索导航，但常规模式需用户指定起始 URL 或站点地图
表结构定义	LLM 自动推断 Schema（列名、数据类型、主键），生成关系型数据集	支持 JSON Schema 或自然语言提示定义提取结构，输出为 JSON 对象
采集范围	跨站点聚合多源数据，自动去重生成统一数据集	基于给定 URL 递归爬取或单页提取，聚焦已知站点的内容
自动化程度	编排器+子智能体闭环：发现→抓取→去重→验证→建表→导出，全流程自主	单链路或 Agent 模式执行抓取转换，需外部工具配合完成数据集管理
定时刷新	原生支持（30分钟/6小时/12小时/每日/每周）	支持 Scheduled Jobs 定期执行，但需通过 API 或外部调度配置
输出格式	CSV、XLSX（附带来源 URL，可直接用于 Excel/BI）	Markdown、JSON、HTML、截图、链接（面向 LLM/RAG 管道优化）
数据去重	基于主键自动去重，确保数据集唯一性	需用户在下游自行处理去重逻辑

BigSet的应用场景

竞品监控
：自动追踪竞争对手的产品价格、功能更新、招聘信息等，生成可定时刷新的结构化情报表。
市场研究
：收集特定行业内的公司信息、融资动态、市场份额数据，快速构建行业数据库。
投资分析
：跟踪股票、加密货币、初创公司融资轮次及估值变化，支持投资决策的数据采集。
招聘情报
：监控目标公司或行业的职位发布、技能要求、薪资范围，分析人才市场趋势。
电商比价
：抓取多平台商品的价格、库存、评价数据，建立实时更新的比价数据集。

BigSet - TinyFish 开源的多智能体实时网络抓取工具

BigSet的主要功能

自然语言建表

多智能体采集

自动去重溯源

定时刷新

格式导出

预置数据集

BigSet的技术原理

多智能体编排架构

表结构自动推断

数据采集与去重验证

安全防护机制

如何使用BigSet

环境准备

克隆仓库

配置密钥

启动服务

访问使用

加载预置数据（可选）

BigSet的核心优势

零配置采集

安全隔离

开源可自托管

企业级基建

BigSet的项目地址

GitHub仓库

BigSet的同类竞品对比

BigSet

Firecrawl

产品定位

输入方式

数据源发现

表结构定义

采集范围

自动化程度

定时刷新

输出格式

数据去重

BigSet的应用场景

竞品监控

市场研究

投资分析

招聘情报

电商比价

相关阅读

相关下载