大模型那么多,该怎么选
先讲个WPS海外版大模型选型的故事。

据金山办公全球业务副总经理张宁介绍,金山办公2023年初宣布All in AI。WPS海外版在AI应用上,敲定了两个方向:一是拼写检查,一是自动生成PPT。
方向定了,场景也有了,接下来最关键的一步就是:大模型选谁?
一开始,团队选了个在参数、长文本处理等各项技术指标上都堪称“顶配”的大模型。结果呢?效果差强人意,比如拼写检查会“好心办坏事”,把原文中不该动的内容给改了。
随后,团队又开始轮番测试市面上各大知名模型,每个模型跑下来都要耗费不少精力。
转折点出现在他们遇到亚马逊云科技中国区行业集群总经理沈涛之后。
沈涛的核心观点很直白:当下基础模型层出不穷,没有绝对的最好或最差,关键看是否匹配你的业务场景。
亚马逊云科技正致力于降低生成式AI的技术门槛,推出了全托管的生成式AI服务Amazon Bedrock。企业可以通过API,调用从文本到图像的一系列强大基础模型,快速完成选择与部署,加速AI应用落地。
WPS海外版团队转而采用Amazon Bedrock,这下大模型的测试与选择一下子变得轻松起来。
WPS Office AI应用的选型过程,其实是当下很多AI应用开发团队都会遇到的典型问题。它背后反映出的,是当前AI应用开发商在大模型选择上普遍存在的几个重大误区。
AI应用的大模型误区
当前AI应用开发如火如荼,但海比研究院调查发现,很多团队在选大模型时,绕不开三个坑。
第一个坑:看排名、看参数。谁的评测得分高、排名靠前,谁的参数大、训练数据多、文本窗口长、多模态能力强、版本新,就选谁。
但WPS的经历告诉我们,这么选出来的模型,往往跟自己的应用场景不搭,效果自然不理想。
第二个坑:一家一家地去找大模型厂商谈,通过官方渠道挨个调API、做测试。
这么做的代价是什么?成本高、周期长、人力投入大。更关键的是,时间成本耗不起。
第三个坑:被大模型“不可能三角”困住。所谓不可能三角,指的是通用性、可靠性和经济性,一个模型很难三者兼顾。
很多开发者面对这个看似无解的难题,开始陷入纠结,不知如何决策。
海比研究院认为,这些误区的根源在于,不少AI应用开发者没有搞清楚大模型选择的两大核心问题:
第一,选大模型,应该从哪些维度去综合评估?
第二,选大模型的实施路径,是跟每个厂商单线对接,还是通过MaaS平台一站式完成?
AI应用的大模型选择框架
大模型是一个战略性、基础性的数智化产品,选型必须通盘考虑,不能只看参数或产品本身。
海比研究院在中国软件行业协会、清华大学、北京大学、国家应用软件产品质量监督检验检测中心等机构的支持下,推出了“数智产品六力选型框架”。这个框架同样适用于大模型选型。
数智产品六力选型框架
资料来源:海比研究院
对于任何AI应用来说,选择大模型要综合考虑六大方面:品牌能力、产品能力、技术能力、服务能力、安全能力、价值能力。
品牌能力,看的是大模型厂商的公司实力。最关键的一点是,这家厂商能不能持续发展下去,能不能长久陪伴你的业务成长。如果选了个中途倒闭或停止更新的大模型,对你的AI应用将是致命打击。当前国内大模型市场“百模大战”,未来必然会有不少玩家退出,品牌选择的重要性不言而喻。
产品能力,看的是大模型本身的符合度、性能和体验。别唯技术论、唯排名论,一定要匹配自己的应用场景。排名靠前的模型不一定适合你,每个大模型厂商都有自己的核心能力,而这些能力往往跟特定的应用场景紧密相关。就像WPS的拼写检查,一些技术上很惊艳的模型反而不适用——文档里经常有外语原文引用,原文可能存在语病,但大模型却会自作主张“修正”掉,这显然不对。
技术能力,既要看大模型厂商在技术上的成熟度,能否保证稳定、可靠、支撑商业应用,也要看它对前沿技术的跟进能力,确保不会被新的技术迭代淘汰。
服务能力,重点考察大模型厂商在AI应用开发阶段能否提供深度技术支持。大模型与AI应用对接时,往往需要大量优化、精调等工作,如果没有厂商的深度支持,可能会走很多弯路。
安全能力,关注的是数据保护。AI应用涉及开发者的数据资产和用户隐私,大模型厂商必须严格保护。同时,AI应用的合规要求越来越高,厂商的合规能力也必须重视。
价值能力,包括标杆客户、目标客户匹配度,以及投入产出比。每家厂商都有自己的目标客户群和成本结构。
AI应用开发者可以借助这套“六力”框架对候选模型进行深度比较。当然,每个维度的权重可以根据自身实际情况灵活调整。比如,当前最看重产品快速落地,就可以把产品能力的权重放大,重点考察模型与场景的匹配度。
AI应用的大模型选择路径
除了选什么模型,怎么选也是个关键问题。
海比研究院调查发现,目前主要有两条路径:一是直接对接主流大模型厂商,逐个测试评估后做决策;二是通过MaaS平台,比如亚马逊云科技的Amazon Bedrock,一站式完成测试与评估。
从当前阶段来看,MaaS平台是更优的选择。
原因在于,它能有效化解大模型选型的三大挑战:如何快速部署生成式AI?如何降低技术应用门槛?如何确保数据隐私与安全性?
更重要的是,这条路径能为AI应用开发商大幅节省选型成本,尤其是时间成本。现在的MaaS服务基本涵盖了市场主流大模型,不用一个个去对接;平台提供便捷的API接口,可以快速切换和测试;同时还提供精调、工程化等一系列服务,这些都能帮开发者省下大量时间。