我好像想到了一套完整的 AI 税方案
AI税的新思路:从“替代劳动”转向“语料供应链”
这篇文章想探讨一个核心问题:AI税如何从“替代劳动”这个老路上跳出来,转向“语料供应链”这样更合理的税基,为技术治理提供一条新思路。具体来说,我们会聊三个层面:传统“机器人税”的逻辑缺陷与它带来的激励扭曲;大模型训练语料的供应链困境和版权难题;以及从上游投入构建AI税基的可行路径。
先画几个核心判断。2017年,韩国政府搞过一个被媒体称为“机器人税”的东西。严格说,它不是给机器人发税号,也不是让机械臂自己去税务局排队。韩国当时削减的是自动化设备投资抵扣——企业投资工业自动化装置,原本可以按投资额获得3%到7%不等的企业所得税抵扣;政策方案提出把优惠最多下调2个百分点。[1] 比尔·盖茨同年也谈过类似主张。他的逻辑大概是:机器人替代人类劳动后,原本从工资、社保、个税里来的公共收入会减少,政府应该从自动化里收一点钱,用来支持被替代的人。[2]
这个说法听起来很有人情味,但逻辑上其实站不住脚。按“替代劳动”来征税,听起来关心工人,实际很容易变成技术进步的罚款。再往下推半步,就像财务部门冲进机房,对着一排显卡说:各位,五险一金了解一下。如果企业用了更高效的工具就该多交钱,那人类文明史上绝大多数工具都可以被拉进税务大厅。Excel让算盘和手工表格退场,叉车减少纯搬运岗位,自动门省掉一部分门童,SaaS吃掉内部IT运维。照此推下去,Excel要不要给算盘交慰问金?叉车该不该替搬运工补社保?餐厅买洗碗机,是不是还得顺手办个工牌?这条路不能走,否则所有企业都会得到一个荒唐的激励:效率越高,越像犯罪。
AI税如果想站住脚,就不能从“少雇了多少人”开始算。少雇人只是结果,不是税基。税基要从工位移到另一张账本上。叉车能搬货,背后有人卖钢材、液压系统、发动机和电池;Excel能算表,靠的是软件工程、函数设计和操作系统。这些投入都在供应链里明码标价,一层层向上游付钱。大模型也有它的上游——显卡、机房、电费、工程团队,这些账单模型公司会付。争议不在这些看得见的成本,而在另一条更难开票的供应链:训练语料。
基础模型看起来聪明,不是因为显卡突然长出了灵魂,而是因为书、代码、论文、教程、网页、问答、新闻、博客、论坛和开源项目,都可能成为它的原料。海量人类知识被压缩进参数和服务接口,最后变成按token收费的商业能力。美国版权局2025年的生成式AI训练报告明确指出:训练会使用巨大规模的数据,其中包含版权作品;权利人同意、补偿、合理使用和许可机制,都是制度难题。[3]
麻烦也正出在这里。训练语料没有钢材、电力和芯片那样的稳定供应商、合同与账单。来源散、规模大、跨国流动、归因困难。有些材料属于公共领域,有些来自明确授权,有些在用户协议里绕了十八个弯,还有一些处在版权争议里。不能把所有训练都说成违法,也不能把“公开可访问”直接等同于“可以免费商业化训练”。单靠一个作者、一家媒体、一个开源维护者去逐条起诉,根本解决不了这笔账。大型出版商还能坐下来谈授权,普通作者、论坛用户、问答贡献者和代码维护者,多数时候甚至不知道自己是否被用过。大模型最滑稽的一幕,是把一部分原材料仓库改名叫“公开互联网”,推着购物车进去转了一圈,出门说自己是自主研发。
从操作层面看,逐篇追溯几乎不可能。因为没人能逐条证明一个模型到底用了哪篇文章、哪段代码、哪张图片、哪个论坛帖子。就算知道某篇文章进了训练集,也很难证明它对某次回答贡献了多少。但税务系统并非每笔账都靠显微镜。很多时候,它会使用估算、抽样、分级、核定。大模型训练语料规模大、来源散、归因难,反而适合做能力抽检。办法也很土:出卷——法律卷、医学卷、编程卷、新闻卷、文学卷、游戏卷、金融卷、历史卷、艺术卷、中文社区语料卷。模型答得越多、越准、越像在这些领域里住过几年,就越能说明它涉及的知识范围越大。
抽检结果不能直接当成单条版权侵权证据,但可以用来收钱。版权诉讼要证明具体作品、具体复制、具体市场影响,不能因为模型答对一道题,就说它偷了某一本书。抽检管的是税收和准税收意义上的能力估算,比版权诉讼简单很多,也规避了把税务局变成版权法院的风险。它不必把每一篇文章、每一段代码、每一条回答都还原成单独发片,只要确认模型商业能力的形成使用了庞大的公共知识系统,账就有了入口。这就像查酒驾——交警不必追问刚才喝的是哪一瓶酒,吹出来有数就行。一个模型如果在法律、医学、编程、新闻、文学、游戏、金融、历史、艺术、中文互联网烂梗等领域都表现得很熟,这已经足够说明:这些知识不是显卡自己冥想出来的。税务系统不用理解Transformer,会出题就行。
抽检之后,还要有计量单位。这个单位也不用发明,因为大模型厂商已经替所有人想好了:token。2026年,美国众议员Greg Casar发表《Tax AI to Create Jobs》时,就把征税对象放在AI providers上,并提到token与底层算力可以作为计量口径。[4] 训练规模动辄trillion tokens,窗口长度标成tokens,日处理量折成tokens,API价格按每百万tokens报价。既然行业已经把token做成通用尺子,征管系统没有必要另造单位。训练阶段,按训练tokens规模分档,语料越大,纳入的知识版图越大。商业化阶段,按API和产品实际处理量收取知识回流费,企业级大客户看调用量,普通个人用户和小开发者可以设豁免或低门槛。此外,闭源自研模型用申报规模、算力消耗和营收互相校验——既然不愿意公开训练细节,就接受更粗的估算方式。喜欢黑箱,黑箱也可以有税率。
以前厂商吹“我们训练了10万亿token”,投资人鼓掌,媒体写稿,用户感叹未来已来。现在账务系统来了:好,10万亿是吧,先把资料费结一下。这当然会增加合规成本,也可能让创新变慢。创业公司以后不仅要训练模型,还要准备申报材料、抽检结果和语料说明。听起来很不自由,但制度经常把“变慢”改名叫“规范”。这套方案最让人不舒服的地方,恰恰是它在逻辑上很顺:模型公司可以按token向用户收费,制度也可以按token向模型公司核账。
但钱不能只是用来补财政洞。如果这笔钱最后只是进了财政黑箱,前面那套理由就塌了。政府缺钱,不能自动变成AI欠钱。账要算在另一处:模型吸收公共资料、个人创作和开放协作成果,却没有让收益回到知识生产现场。钱应流向图书馆、数据库、开放语料库,去创作者基金、新闻机构补偿、出版授权,去基础软件维护、教育资源、公共知识平台,也用于训练数据登记、审计和抽样测试。
这套收税逻辑,也正好戳在了“大模型技术平权”叙事最尴尬的地方。大模型确实让很多人第一次用上强大的智能工具——它好用,提高效率,也会让知识服务变得更便宜。这些好处都应该承认。但好用不等于平权。用户拿到的是调用权,不是训练权、控制权、定价权和分账权。大模型没有把生产资料发给大众,只把大众的知识包装成收费接口。技术平权不能缩成“人人都有资格交订阅费”。如果没有回流,模型会在更深处制造垄断。它未必控制某个App,也未必独占社交入口;它控制的是知识被调用、压缩、重新分发的基础能力。等所有人都在同一个接口上工作、写作、开发、搜索和学习,再谈“平权”,就像租户住进房东的楼里,感谢房东发明了住房自由。
到这里,闭环已经出来了:征税对象盯模型提供商和大型部署者,不找普通用户开刀;税基不按少雇人,按训练语料和知识能力商业化;征管不逐篇追溯,用测试集抽检;计量不发明新单位,按token、算力和收入互证;去向不直接补财政洞,而是回流知识生态。机器人不该被当成发薪员工。Excel不欠算盘安置费。叉车也轮不到替旧岗位发工资。大模型欠的是另一笔账。模型公司最爱说自己训练了多少token,那就按token补票。卷子已经发下去了。答完题,按token交钱。