快报道
全球大厂头一个 百度敲响大语言模型战鼓
从全球范围的大厂来说,百度可以说创造了奇迹。
作者:李东耳
伴随着ChatGPT的火爆,很多AI创业者都将中国版ChatGPT视作自己的创业目标,然而,两个月过去了,在中国,目前公布具体产品的只有百度一家。
2023年3月16日14时,百度在北京总部召开新闻发布会,介绍其基于百度新一代大语言模型的生成式AI 产品文心一言,展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。
“人工智能会彻底改变我们今天的每一个行业。AI的长期价值,对各行各业的颠覆性改变,才刚刚开始。”百度创始人、董事长兼首席执行官李彦宏在出席发布会的时候表示说。
从全球范围的大厂来说,百度可以说创造了奇迹。
中国版ChatGPT来了 百度文心一言走进现实
文心一言的能力到底如何?
在发布会现场,李彦宏特别对文心一言的中文理解能力进行了展示。在展示过程中,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。
小编也在开放测试之后体验了一下百度的文心一言。可以肯定的说,其逻辑能力及语言表达能力与ChatGPT不相上下——具体来讲,文心一言基本上可以提供和ChatGPT差不多的功能,包括文学创作、商业文案创作、数理推算、中文理解、多模态生成等,综合来看,文心一言在某种程度上已经具备了对人类意图的理解能力,其逻辑性等方面正在逐步接近人类水平,当然,这依旧需要百度文心一言继续在大语言模型当中不断完善。
比如,在文学创作场景中,文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,还准确回答了《三体》作者、电视剧角色扮演者等事实性问题,其准确率颇高,甚至很多与事实相差无几。
“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。”李彦宏表述说。
文心一言能够在短期内推出并且获得“刮目相看”的成就,这跟百度在人工智能领域的长期积累密不可分——众所周知,百度有世界上最大的知识图谱,一直致力于给用户提供唯一答案,这个积累让文心一言回答准确性及生成结果的可信度得到提升,据悉,文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据及5500亿事实的知识图谱,这使得文心一眼大模型涌现出知识和逻辑推理能力,在自然语言问答和创意内容生成上有突出表现。文心一言还可以把问题拆分为子问题,一步步推理,更容易给出正确答案。
不过,上述功能已经算是大模型的标配,而文心一言的真正亮点在于其中文理解能力和多模态生成能力。
尽管刚刚升级到GPT4的ChatGPT让ChatGPT的各项能力再一次提升,但这项世界顶尖大模型无论研发还是应用主要针对的还是英语,在中文理解方面,特别是隐藏在文字背后的中式思维和东方文化方面还有很多不足。尽管百度的文心一言当前还谈不上完美,仍有很大的提升空间,但是其依旧拥有当前中文领域最先进的自然语言处理能力。
与此同时,多模态生成能力作为生成式AI的未来,百度也同样在AI生成文本、图片、音频、视频等方面已经有了非常多的积累,虽然在单独某一项类别上,百度未必是最顶尖的,但在多模态生成方面,目前还鲜有和百度拥有相同能力的公司,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力,也会不断提升。
此外,在基础的搜索领域,文心一言不仅能够对用户提出的问题进行解答,而且还能根据用户的需要做藏头诗这样的需要进一步加工的作品。在商业创作方面,用户只需要提出需求,文心一言就可以自己生成文案、海报、视频等等,乙方公司完全可以将甲方的需求原封不动地转给文心一言,再将生成的作品发给甲方,如果甲方不满意,那就让文心一言接着改。至于数理逻辑这个连ChatGPT都翻过车的领域,文心一言至少已经能够做鸡兔同笼这样的初中难度的数学题,而且还能发现题干中的错误,而不是用错误的题干乱算一通。
这些能力的突破与百度长期积累的研发基础息息相关——客观而言,大模型的研发并非一朝一夕就能完成的事情,能够在几个月里就推出自己的大模型更是天方夜谈,其实,早在2009年的百度技术创新大会上,李彦宏就曾提出“框计算”的概念,即:用户只要在百度的搜索框中输入问题,后台就能对此进行语义分析、人机交互等处理,提供后续服务。但实现这一目标,并将其发布,百度用了近14年。
如何让机器像人一样理解和运用自然语言这是人工智能的核心问题之一,在自然语言处理(NLP)领域,国内还没有一家公司能够达到百度的水平,这主要靠的就是百度很早就开始投入大量资源到NLP的研发中。
相关资料显示,百度在很早的时候就已经开始NLP方面的研发,2010年,百度成立自然语言处理部,对NLP的研发从零散走向系统,之后百度基本上在每年的自然语言处理顶会ACL上展示出最新的研究成果,代表了国内NLP领域的顶尖水平。
正是凭借这么多年来在NLP领域的研究,2019年,百度推出了ERNIE 1.0,也就是文心大模型,并将其投入到百度搜索以及其他各项业务上,这些业务即为ERNIE提供了大量应用场景,同时也为文心大模型最好的训练效果。
为了提高AI的训练效果,百度还自研了飞桨深度学习平台,通过“文心大模型+飞桨深度学习平台”创新了人工智能研发应用范式,可满足市场大规模落地需求,达到行业前端水平。
目前,其已经发展到3.0的ERNIE每天都要接受数十亿用户的搜索请求和其他百度移动生态app的训练。随着时间的推移,文心一言将基于一个庞大的、标注清晰的数据池,实现快速的改进和学习。
AI时代 大厂创新更难
2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。
从此以后,所有人都意识到,人类下一次工业革命将会在人工智能领域爆发,因为人工智能颠覆了两件事情:一是人类难以做到的事情;二是人类难以想象的事情。
而从2017年起,中国就将人工智能上升为国家战略目标,在国家人工智能战略的推动下,新一代人工智能技术、5G、工业互联网等开始融入我们的生活。
然而,在人工智能时代,对于创业公司难,对于全球大厂来讲都一样困难。关于AI研发的费用,百度创始人李彦宏曾表示,研发AI百度在10年的时间里投入超过1000亿元,平均每年就要砸进去100亿元,但当前仍未到收获期。
当然,硬件层面的问题也会制约AI技术的发展水平,即便是一些互联网科技大厂,往往也难以同时兼顾软硬件。
更难的是,AI是一个长期投入的项目,在当前全球各大厂纷纷降本增效的当下,不少大厂已经开始不盈利就有可能砍掉一些项目,是否有耐心持续投入十几年也是个问题,比如,2023年3月14日,美国Meta公司宣布一万名员工规模的裁员,Meta首席执行官马克·扎克伯克宣布,公司管理层将在未来几个宣布重组机会,取消优先级较低的项目,降低招聘率。
这就意味着,全球范围内的大厂如果想要创新,抓住AI这个机会,这就需要大厂们更多一些耐心,而没有耐心的大厂恐怕也免不了被淘汰的命运,然而,如果持续下去,这对大厂来说也是一个挑战。
然而在这个背景下,百度毅然决然的投入到AI这个机会当中,ALL in “AI”,此次文心一言的发布,显然是百度在AI创新领域一次“秀肌肉”的亮相,与此同时,相比较ChatGPT作为一家创业公司保持创新的活力,百度则是全球范围内,唯一一个在AI领域保持创新能力的大厂。
而百度作为大厂能够持续保持创新,这跟百度内部的创新研发机制密不可分。
以AI研发举例来讲。
在过去十年当中,围绕AI,百度搭建起了一个由芯片层、框架层、模型层以及应用层组合起来的四层技术架构,在这四层技术每一层之间,百度都可以通过不断互相反馈,实现端到端优化:
在芯片层,百度昆仑2代云端AI芯片即将量产,并将部署在搜索、工业互联网、智能交通等业务领域;
在框架层及模型层,百度的飞桨深度学习框架可以让任何编程能力的开发者都能低成本开发芯片,目前飞桨平台的开发者数量已经达到535万,创建AI模型超过67万个,位列中国中国深度学习平台市场第一;
在应用层,百度在搜索、智能云、自动驾驶、小度等应用上都有国内领先的技术水平。如今文心一言的正式面世,让百度在模型层的技术高度再上新高度。
值得一提的是,即便是在全球,能够在四个层面都有领先技术的科技公司几乎没有,包括美国硅谷里的传统科技巨头,这是百度目前独一无二的优势。凭借在这四个层面上形成的高效反馈闭环,百度也在推动接下来的科技型创新公司进入新的创业阶段。如对于新兴云计算公司,大模型AI的出现推动其服务模式从IaaS向MaaS转变,对于具体应用层面的创业,能够率先使用通用大模型的创业者将更有机会建立起下一批大厂。
而百度能够做到四层技术创新,这跟百度对创新的理解有关——谈到创新,百度创始人、董事长兼首席执行官李彦宏曾有个很有趣的观点,就是“反馈驱动创新”。简单来说,就是技术创新的核心在于市场,而非技术本身,只有市场有真实的需求,技术创新才会有内在的动力。具体而言,市场对于技术创新的驱动作用主要体现在市场需求上,有需求,才会有创新。
事实上,百度搜索本身就是当前最大的AI应用场景之一,其每天都要响应几十亿次用户需求,需要进行1万亿次深度语义推理与匹配,从应用角度来讲,百度自身对AI的需求就非常大。放眼整个市场,在市场上拥有百度这样AI需求量的单位本来就不多,更不用说能够直接使用的AI了。因此,为了解决自身需求,百度选择了自己研发。
而在研发过程当中,百度的“反馈驱动创新”并不等于盲目追求短期的商业化,特别是在AI这样无法直接通过投入产出比来衡量的新领域,市场在提出需求的同时,也需要给科技创新时间,否则就会陷入急功近利的陷阱,这个时间主要就是让创新主体们实现转型。
在这个方面,包括微软、IBM等全球科技巨头都曾经历过转型的阵痛,这种阵痛体现在业绩、市值、舆论等各个方面,因为大厂转型本就不易,特别是头部大厂,要坚持创新,要转型,就必须做好跨产品周期的准备。
如今,经历漫长的等待,如今的百度也正在跨越这个产品周期:
2016年6月8日,百度正式将AI确定为百度的公司级战略。
如今,7年的时间过去了,百度旗下AI产品经过长期投入正在迎来收获期,文心一言的推出不仅是百度创新能力的证明,正是中国防止软件卡脖子的重要一环,ChatGPT的出现让不少人意识到了在AI领域,软件卡脖子的风险仍然存在。
对此,中国工程院院士,中国科学院计算技术研究所研究员倪光南院士曾表示,软件是新一代信息技术发展的驱动力。因此,防止软件卡脖子同样重要。
如今,伴随着越来越多人意识到这个问题,已经有人开始陆续投入到国产软件的研发中,如阿里云推出了飞天操作系统,华为推出了鸿蒙,如今文心一言的出现则成功填补了基于中文环境的国产大模型的空缺。
或许在AI领域,百度依旧需要“任重而道远,然而,凭借其在AI领域十几年如一日的投入,百度正在迎来其产品的收获期,成为全球大厂创新的典型案例。
资本市场上,美股与港股不约而同的给出了“支持”的态度。
3月16日,百度[BIDU]低开高走,最终报收138.16美元每股,增长3.80%;3月17日,截止午间收盘,百度集团-SW[09888]涨幅扩大到15.67%了,报收144.70元每股。