王小川坐在偌大的沙发中,被记者围在中间,带着他招牌式的笑容不紧不慢地语出惊人:大模型的机会不一定落在大厂里。
这是8月8日百川智能的Baichuan-13B百川大模型发布现场。而王小川的言外之意是,大厂那点玩意儿,我们几个月就能搞定。
确实,从4月宣布下场做大模型后,百川智能太快了——6月发布70亿参数开源大模型Baichuan-7B,7月发布130亿参数开源大模型Baichuan-13B,他说这话的时候才8月8号了,Baichuan-53B的参数已经达到530亿。
不仅叫嚣了大厂,Baichuan-53B发布那天,王小川还顺便提了一句王慧文:他是国内做这么多大模型企业中,唯一一个没有技术背景的。
王小川这句话其实还有后半句:做大模型需要做大量的技术决策,如招什么人、走什么技术路线、需要多少计算资源,没有技术背景做大模型压力会大很多,但是技术足够的话,其实是件挺愉悦的事情。
话说没有技术的王慧文,在今年初ChatGPT大潮涌动时,携千万资金和顶级VC创立了大模型公司北京光年之外,后因抑郁症不得不退出,公司则由好友王兴收购,成为一段互联网兄弟情的佳话。
光年之外同百川智能同属于创业型“小厂”,而王小川和王慧文又都属于清华系毕业。怎么说呢,王小川的这句“王慧文没有技术背景”,在发布会那天实在有些喧宾夺主。
但又因为这句话,让这场平淡的大模型发布会多出一些“色彩”——起码不至于太无聊。
要知道,大模型实在太多了。
今年上半年,从百度发布文心一言开始,国内各互联网、科技公司就排着队的发布大模型产品,开源的、闭源的、通用的、垂直的,到今天“大模型”这三个字足以让人的情绪从新鲜变恶心。
而Baichuan-53B从实测来看,也只能说是一个众多大模型中的合格产品。
从内测生成的结果看来,作诗、写文章、理解语义、逻辑推理以及基础算术,都达到了一个合理的范畴。因为没有联网,近期的信息并不能精准地获取,这一点来说,还需要接下来的版本迭代。
总的来说,Baichuan-53B模型并不会让人眼前一亮,但也没有什么大的纰漏——大模型技术经过这半年的飞速迭代,普遍都能做到不再“胡说八道”, Baichuan-53B亦如此。
但话说回来,排在队尾的“小厂”百川智能,如果不在发布会上喊出什么惊世骇俗的话,Baichuan-53B百川大模型的内测发布,又怎能博得眼球呢?
以下为AI蓝媒汇对Baichuan-53B百川大模型的部分测试:
我们给出“我把肉桂放进冰箱化成小鸟”这样无厘头的题目,Baichuan-53B生成的诗看起来还不错,能将肉桂、冰箱、小鸟这三个毫不相干的词汇联系起来。
很遗憾,Baichuan-53B掌握的信息比较滞后,对于这一届年轻人,上面列出的偶像非常具有“年代感”了。
Baichuan-53B没有接入互联网,并不知道8月14日将举办的雷军演讲,但是这种情况下,大模型不应给出去年的答案来误导提问者。
在做“AI男友”方面,Baichuan-53B很“爽快”和“贴心”,甚至展示了“人性”的一面。
Baichuan-53B准确地分析了《石壕吏》的写作背景和意图,以及作者的核心价值观。
写一篇自测短文,Baichuan-53B开启“自夸”模式。
来源|AI蓝媒汇 作者|黑羊