快报道
百融云花20亿搞了个“AI模型库”?
历史上有很多黑马股,起初都是曝光度不高、媒体流量不大的股票,如果精挑细选,很可能会藏着很大的惊喜。
@百融云-W(6608.HK)就是一个比较低调的AI公司,不太搞宣传和流量,但有一个数据很容易勾起投资人的兴趣:主营业务MaaS 已经有99%的核心客户留存率,但是业绩却还在增长。这种业绩特征,要么是联合下游客户在收入确认上做文章,要么就是这家公司AI业务做得确实很牛。
说实话,看到一家AI公司有这种经营数据,第一反应是怀疑也无可厚非,但研究之后发现,百融云AI业务线给B端客户降低成本的能力真是很夸张,而且AI大模型的KV cache和batch size是核心,目前没看到有任何解读文章把这点说出来。
MaaS这个业务翻译过来叫做模型即服务,商业模式就是给B端一个API接口,然后让客户根据自己的需求来调用各种AI模型服务,收调用费。所以这就涉及两个问题,一个是百融云怎么说服B端客户用的MaaS业务(尤其是金融机构),二是为什么客户调用量那么大却并不在乎成本。
MaaS本质就是一个AI模型库,底层是一个AI大语言模型。百融云的大模型叫BR-LLM,起初国内所有大模型的私有化部署都要几百万一套,客户根本用不起,但算力成本降低之后就不一样了,百融云的技术路径是调整AI大模型中KV cache和batch size的参数权重,推理成本只有ChatGPT的1/20。
KV Cache指的是“键-值缓存”,应用于解码阶段,是一种存储键值对数据的缓存机制,因为在大语言模型的推理过程中,经常需要多次访问相同的数据,这个KV Cache就是通过将这些数据缓存到内存里,就可以提供快速的数据访问速度,也就加速了整个AI的推理过程。
而batch size指的是AI模型训练过程中一次性输入给模型的样本数量,直接影响训练速度、内存使用和整个AI模型的稳定性。比较大的batch-size通常可以加快训练速度,因为在每次迭代中AI模型需要处理更多的样本,这就可以充分利用算力资源(GPU)的并行计算能力。
所以batch size决定了客户使用AI的效果和成本,KV Cache决定了客户需要的前端数据。百融云的选择是:将KV cache的占用调低,同时就可以做大batch size。
因为以金融业为代表的B端客户其实并不需要太多的数据内存,因为本身这类的机构会有自己的数据库,比如涉及到用户的资产、收入、年龄、公积金这些基础私密数据,金融机构不会存托在AI大模型云端的。所以他们需要百融云MaaS解决的问题是:把存在本地的数据输入进去,然后立即进行AI分析和处理,而不是从百融云的AI模型库里调取自己已有的数据集。
所以百融云这个设计非常巧妙,正好根据客户的需求特点,做大batch size,少占用内存,直接节省了算力成本。如果能做到实现每秒5万token的峰值吞吐,按照百融云的API报价、日均3亿次的API调用量,相当于H800的卡能做到80%算力利用率,也难怪百融云的毛利率超72%,所以客户有钱省,百融云有钱赚。
同时还有一个很重要的思路,百融云的BR-LLM大模型是单独训练的,并不是某个GPT模型的分支,所以可以在金融机构和其他B端应用场景:“端到端”地处理文本、数据,这意味着所有输入和输出都是由同一个神经网络处理的,这也是机构客户用百融云MaaS业务算力成本很低的另一个原因。
所以到这儿就先回答了文章开始的第二个问题:“为什么客户调用量那么大却不心疼钱”。至于第一个问题,其实更简单。
百融云怎么说服B端客户用的MaaS业务(尤其是金融机构)?一个重要因素是,中国的金融机构和绝大多数B端领域,必须要把自己的行业和公司信息留在本地的,而且必须要用国产的AI产品及服务,所以在这个层面,哪家AI公司深耕得时间长、积累多,谁的优势就会越来越大。
百融云是2014年成立的,到今年是第十年,总共砸了20个亿的研发费用,如果从本文的分析逻辑来看:AI大模型技术细节完美切合用户需求、B端降成本且应用效果好、本土MaaS厂商吃红利强绑定、99%客户留存率基础上的付费AI功能会越来越多。这10年20个亿砸的很值啊。
(本文纯主观研究,各位轻喷)