去年3月以来,中国的技术巨头们竞相跟进,相继打造了自家的大模型。这场“百模大战”中,参数量作为一个特别粗暴的指标,但只是参数目的大小不能完全体现大模型的实际能力。另一个常用的评判维度是公开的测评集和榜单打分包装行业对比,这让许多大厂纷纷参与。
比如,腾讯的混元大模型在多个跨模态视频检索榜单中获得第一名的成绩包装行业对比,百度的文心大模型一直稳坐世界GLUE榜单,并在IDC的评定报告中取得七项核心指标的满分和综合评分第一。但是,这种评估方法也会造成发生一些“应试型选手”,测评分数与实际体现相差较远。
这个市场的快速变化造成信息差普遍存在。早期阶段,大家缺少足够的判断力,因此在公布大模型的竞争中,声量较大的公司一般能获取更高的关注度。但是,大厂们发布产品时也会顺应热点、造势、包装,开发布会更多是一个宣传行为,真正的实力则必须在幕后进行。
为了突出自身优势,大厂们经常会对标GPT,并以“中文能力”为主要指标进行对比。然而,从C端用户反馈来看,目前客户量最大、体验最好的依然是。
在商业方式上,大厂们很难将大模型像微信一样包装成大范围使用的付费C端产品,因为算力资源十分稀缺。这造成一些卖算力资源的云厂商相继受益,提前囤积了长期的GPU资源。
现在,大模型赛道还处在初期阶段,大厂们相继公布产品,但抢跑无法形成长期优势。大模型的演进迭代非常快,技术和产品也许随时再次洗牌,所以谁最后能胜出还必须时间来验证。
从年初至今,大家对大模型的了解在逐步出现差异。初始共识是通用大模型是将来,但之后看到通用大模型更像玩具,对于准确场景的应用能力不足。因此,下半年行业逐渐达成新的议题:行业大模型更可靠,要从通用面向行业发展。大厂开始公布面向行业的大模型产品。
针对大厂而言,大模型有两个价值:一是外部节流,把改进的效益转化为收入;二是对外拓客,让其它用户从中盈利,最终推动商业化。因此,asa(MaaS)方式逐步被更多大厂采用。
华为、百度、阿里等大厂除了公布自研大模型产品外,还完成了从芯片到应用的全方位发力,这是其它公司在短期内无法追上的优势。
在谁最有也许胜出的疑问上,大家的看法有所不同。有人觉得在美国做通用大模型的公司最后没法有一家,做个好的比早做起来更有价值。有专家看好字节跳动和腾讯,因为他们的队伍和画面相符合;还有人看好美团、字节跳动和小米,因为他们各自具有超强的优势和素质。
老斜说
总的来说,大厂大模型的竞争刚刚开始,赛道还很长,一时的抢跑无法形成长期优势。未来产业变迁迭代将会更加快,技术、产品等都可能随时出现差异,因此谁能最后胜出还必须时间的检验。大厂们必须按照市场需求和产业变迁来不断改进、拓展自身的大模型能力,以获得更多机遇和挑战。