首页 > 教程攻略 > ai资讯 >我好像想到了一套完整的 AI 税方案

我好像想到了一套完整的 AI 税方案

来源：互联网时间：2026-06-27 13:27:06

AI税的新思路：从“替代劳动”转向“语料供应链”

这篇文章想探讨一个核心问题：AI税如何从“替代劳动”这个老路上跳出来，转向“语料供应链”这样更合理的税基，为技术治理提供一条新思路。具体来说，我们会聊三个层面：传统“机器人税”的逻辑缺陷与它带来的激励扭曲；大模型训练语料的供应链困境和版权难题；以及从上游投入构建AI税基的可行路径。

先画几个核心判断。2017年，韩国政府搞过一个被媒体称为“机器人税”的东西。严格说，它不是给机器人发税号，也不是让机械臂自己去税务局排队。韩国当时削减的是自动化设备投资抵扣——企业投资工业自动化装置，原本可以按投资额获得3%到7%不等的企业所得税抵扣；政策方案提出把优惠最多下调2个百分点。^[1] 比尔·盖茨同年也谈过类似主张。他的逻辑大概是：机器人替代人类劳动后，原本从工资、社保、个税里来的公共收入会减少，政府应该从自动化里收一点钱，用来支持被替代的人。^[2]

这个说法听起来很有人情味，但逻辑上其实站不住脚。按“替代劳动”来征税，听起来关心工人，实际很容易变成技术进步的罚款。再往下推半步，就像财务部门冲进机房，对着一排显卡说：各位，五险一金了解一下。如果企业用了更高效的工具就该多交钱，那人类文明史上绝大多数工具都可以被拉进税务大厅。Excel让算盘和手工表格退场，叉车减少纯搬运岗位，自动门省掉一部分门童，SaaS吃掉内部IT运维。照此推下去，Excel要不要给算盘交慰问金？叉车该不该替搬运工补社保？餐厅买洗碗机，是不是还得顺手办个工牌？这条路不能走，否则所有企业都会得到一个荒唐的激励：效率越高，越像犯罪。

AI税如果想站住脚，就不能从“少雇了多少人”开始算。少雇人只是结果，不是税基。税基要从工位移到另一张账本上。叉车能搬货，背后有人卖钢材、液压系统、发动机和电池；Excel能算表，靠的是软件工程、函数设计和操作系统。这些投入都在供应链里明码标价，一层层向上游付钱。大模型也有它的上游——显卡、机房、电费、工程团队，这些账单模型公司会付。争议不在这些看得见的成本，而在另一条更难开票的供应链：训练语料。

基础模型看起来聪明，不是因为显卡突然长出了灵魂，而是因为书、代码、论文、教程、网页、问答、新闻、博客、论坛和开源项目，都可能成为它的原料。海量人类知识被压缩进参数和服务接口，最后变成按token收费的商业能力。美国版权局2025年的生成式AI训练报告明确指出：训练会使用巨大规模的数据，其中包含版权作品；权利人同意、补偿、合理使用和许可机制，都是制度难题。^[3]

麻烦也正出在这里。训练语料没有钢材、电力和芯片那样的稳定供应商、合同与账单。来源散、规模大、跨国流动、归因困难。有些材料属于公共领域，有些来自明确授权，有些在用户协议里绕了十八个弯，还有一些处在版权争议里。不能把所有训练都说成违法，也不能把“公开可访问”直接等同于“可以免费商业化训练”。单靠一个作者、一家媒体、一个开源维护者去逐条起诉，根本解决不了这笔账。大型出版商还能坐下来谈授权，普通作者、论坛用户、问答贡献者和代码维护者，多数时候甚至不知道自己是否被用过。大模型最滑稽的一幕，是把一部分原材料仓库改名叫“公开互联网”，推着购物车进去转了一圈，出门说自己是自主研发。

从操作层面看，逐篇追溯几乎不可能。因为没人能逐条证明一个模型到底用了哪篇文章、哪段代码、哪张图片、哪个论坛帖子。就算知道某篇文章进了训练集，也很难证明它对某次回答贡献了多少。但税务系统并非每笔账都靠显微镜。很多时候，它会使用估算、抽样、分级、核定。大模型训练语料规模大、来源散、归因难，反而适合做能力抽检。办法也很土：出卷——法律卷、医学卷、编程卷、新闻卷、文学卷、游戏卷、金融卷、历史卷、艺术卷、中文社区语料卷。模型答得越多、越准、越像在这些领域里住过几年，就越能说明它涉及的知识范围越大。

抽检结果不能直接当成单条版权侵权证据，但可以用来收钱。版权诉讼要证明具体作品、具体复制、具体市场影响，不能因为模型答对一道题，就说它偷了某一本书。抽检管的是税收和准税收意义上的能力估算，比版权诉讼简单很多，也规避了把税务局变成版权法院的风险。它不必把每一篇文章、每一段代码、每一条回答都还原成单独发片，只要确认模型商业能力的形成使用了庞大的公共知识系统，账就有了入口。这就像查酒驾——交警不必追问刚才喝的是哪一瓶酒，吹出来有数就行。一个模型如果在法律、医学、编程、新闻、文学、游戏、金融、历史、艺术、中文互联网烂梗等领域都表现得很熟，这已经足够说明：这些知识不是显卡自己冥想出来的。税务系统不用理解Transformer，会出题就行。

抽检之后，还要有计量单位。这个单位也不用发明，因为大模型厂商已经替所有人想好了：token。2026年，美国众议员Greg Casar发表《Tax AI to Create Jobs》时，就把征税对象放在AI providers上，并提到token与底层算力可以作为计量口径。^[4] 训练规模动辄trillion tokens，窗口长度标成tokens，日处理量折成tokens，API价格按每百万tokens报价。既然行业已经把token做成通用尺子，征管系统没有必要另造单位。训练阶段，按训练tokens规模分档，语料越大，纳入的知识版图越大。商业化阶段，按API和产品实际处理量收取知识回流费，企业级大客户看调用量，普通个人用户和小开发者可以设豁免或低门槛。此外，闭源自研模型用申报规模、算力消耗和营收互相校验——既然不愿意公开训练细节，就接受更粗的估算方式。喜欢黑箱，黑箱也可以有税率。

以前厂商吹“我们训练了10万亿token”，投资人鼓掌，媒体写稿，用户感叹未来已来。现在账务系统来了：好，10万亿是吧，先把资料费结一下。这当然会增加合规成本，也可能让创新变慢。创业公司以后不仅要训练模型，还要准备申报材料、抽检结果和语料说明。听起来很不自由，但制度经常把“变慢”改名叫“规范”。这套方案最让人不舒服的地方，恰恰是它在逻辑上很顺：模型公司可以按token向用户收费，制度也可以按token向模型公司核账。

但钱不能只是用来补财政洞。如果这笔钱最后只是进了财政黑箱，前面那套理由就塌了。政府缺钱，不能自动变成AI欠钱。账要算在另一处：模型吸收公共资料、个人创作和开放协作成果，却没有让收益回到知识生产现场。钱应流向图书馆、数据库、开放语料库，去创作者基金、新闻机构补偿、出版授权，去基础软件维护、教育资源、公共知识平台，也用于训练数据登记、审计和抽样测试。

这套收税逻辑，也正好戳在了“大模型技术平权”叙事最尴尬的地方。大模型确实让很多人第一次用上强大的智能工具——它好用，提高效率，也会让知识服务变得更便宜。这些好处都应该承认。但好用不等于平权。用户拿到的是调用权，不是训练权、控制权、定价权和分账权。大模型没有把生产资料发给大众，只把大众的知识包装成收费接口。技术平权不能缩成“人人都有资格交订阅费”。如果没有回流，模型会在更深处制造垄断。它未必控制某个App，也未必独占社交入口；它控制的是知识被调用、压缩、重新分发的基础能力。等所有人都在同一个接口上工作、写作、开发、搜索和学习，再谈“平权”，就像租户住进房东的楼里，感谢房东发明了住房自由。

到这里，闭环已经出来了：征税对象盯模型提供商和大型部署者，不找普通用户开刀；税基不按少雇人，按训练语料和知识能力商业化；征管不逐篇追溯，用测试集抽检；计量不发明新单位，按token、算力和收入互证；去向不直接补财政洞，而是回流知识生态。机器人不该被当成发薪员工。Excel不欠算盘安置费。叉车也轮不到替旧岗位发工资。大模型欠的是另一笔账。模型公司最爱说自己训练了多少token，那就按token补票。卷子已经发下去了。答完题，按token交钱。

我好像想到了一套完整的 AI 税方案

AI税的新思路：从“替代劳动”转向“语料供应链”

相关阅读

相关下载