首页 > 教程攻略 > ai资讯 >黄宇凯:推动供需协同 建设高质量数据集

黄宇凯:推动供需协同 建设高质量数据集

来源:互联网 时间:2026-06-24 08:02:40

在2026人民数据大会上,海天瑞声CTO黄宇凯的发言给出了一个清晰判断:高质量数据集,正在成为决定大模型能力上限的关键变量。这个看似技术化的议题,其实藏着人工智能产业下一步的核心命题——数据不光要“多”,更要“好”。

黄宇凯:推动供需协同 建设高质量数据集

海天瑞声CTO黄宇凯。人民网记者 翁奇羽摄

黄宇凯把高质量数据集的特点概括为六个词:规模大、质量高、安全牢、观点正、效果好、应用广。这六点不是简单的形容词堆砌,而是直接关系到模型训练的实际效果。换句话说,数据集的水平,某种程度上决定了模型能力的“天花板”。

那么,高质量数据集该怎么建?黄宇凯给出的原则很实际:“总体规划、分步实施,先易后难、先简后繁。”听上去像是一种工程方法论,但背后有深刻的现实考量——数据涉及企业和组织内部的多部门、多系统协同,没有顶层设计,容易各自为政、重复建设。所以,第一步不是埋头生产数据,而是先把蓝图画清楚。

围绕建设路径,黄宇凯特别强调了供需两侧的协同发力。供给侧要站在数据产品和数据服务的角度,在数据生产、处理、供给上加大投入;需求侧则要站在AI赋能行业落地的角度,用应用需求来牵引数据建设、释放数据价值。这两者之间并不天然匹配,需要数据技术、数据服务和数据生态来充当桥梁。

说到这个桥梁,就不得不提可信数据空间。根据国家数据局的推进方向,可信数据空间可以从个人、企业、行业、城市、跨境等不同层面展开。每一种空间面向的应用场景不同,涉及的数据提供方、使用方、服务方、运营方和监管方也需要多方协同参与。这其实是一种制度化的供需匹配机制。

黄宇凯还分享了几个具体的应用案例。在文旅行业,海天瑞声正在多个景区推动多模态伴游助手应用——把景区的文本、图片、视频等数据整合起来,结合具体场景打造高质量数据集,让导览服务从被动响应升级为主动服务,从通用答案转向深度体验。在数字人领域,直播带货、品牌宣传、动画游戏、文化推广等不同场景,也催生了文本、声音、视频等多模态定制化数据需求。

事实上,海天瑞声自2005年成立以来,长期深耕高质量数据集的能力建设和产品服务,至今已累计形成1800多个数据集,服务全球超过1200家客户。这个数字背后,是工程化、规模化的数据生产经验。

一个值得注意的判断是:结合人才资源、数据资源以及工程化、智能化的平台能力,持续构建高质量数据集,将让AI更有效地赋能千行百业。这不仅是技术问题,更是一个生态问题——只有供需两端真正打通,数据才能从“原料”变成“燃料”。