资深媒体人:细数国产AI行业发展五大误区,我们至少落后美国十年
?演讲人:赵何娟丨钛媒体CEO
近日,由长江商学院主办、汕头大学协办的“2024长江独角兽峰会”上,钛媒体CEO赵何娟发表主题“中国AI追随之路的五大误区”的演讲。
以下为演讲的主要内容:
从AI 1.0的时代,钛媒体就紧密地关注AI领域的发展,与美国相比,我们好像已经有赶超的趋势。但是到了AI 2.0时代,为什么会感到中国一夜之间好像就变得落后了。
今天我听到一位嘉宾提到,为什么GPT火了之后中国的大模型很快就赶上来了,说明跟美国相比,中国的“临门一脚”可能差了一点点。
但其实我现在想泼点冷水,我觉得短期来说我们可能有点太乐观了。不仅对中国AI发展过于乐观,而且可能对全球AI应用爆发也过于乐观了。
我认为,短期内没有大家想象那么快,长期没有耐心,总想着是不是马上能赚钱。
接下来我再详细展开讲一下。
近期,谷歌的AlphaFold 3发布、OpenAI的GPT-5即将发布。
AlphaFold 3是一个生物学领域关于蛋白和生命结构预测的模型。使用了基于Transformer生成式模型和扩散模型的结合,对于蛋白质与其他分子的相互作用,与现有预测方法相比,AlphaFold 3预测精度提高100%以上。
AlphaFold 2预测精度比较初代至少翻了一倍,如今再翻了一倍。这个过程中相关科学家有过对比,这可能为生物研究界带来了数亿年的进步,节省数万亿美元的研发经费。
也就是说如果不用AI大模型,我们靠研究人员自己去研究,可能要花数亿年、花掉数万亿美元才能相同的计算效能。所以,这就是真正AIGC的力量。
但中国在此方面的研究成果几乎是空白的。清华大学生命科学学院颜宁教授前两年表示,AI不可能准确预测蛋白相关结构,如今可以说被打脸了。
第二个就是GPT-5即将发布。
我认为,这件事情带来的震撼力不会低于AlphaFold 3的颠覆性技术影响。
为什么中国能快速发展很多模型,我觉得这个最重要的是感谢开源,因为GPT-3之前OpenAI是开源的,包括谷歌Transformer论文也是开源的,GPT-3之后才转成闭源了。
这意味着,从GPT-3到GPT-4本质上已经是一个巨大飞跃了。而即将发布的GPT-5.将再次实现比GPT-4质的飞跃,解决诸多局限性。
我去年9月见到了OpenAI CEO奥特曼,他说过去一段时间OpenAI一直都在为GPT-5做准备。
而这些令人震撼的进展,在中国我可以悲观一点叫“望尘莫及”,乐观一点就是但凡对手能推出来,我们就有能力找到对标进行改善和追赶。
我接下来要重点谈,为什么现在我们说,中国作为AI领域追随者,要有追随者的自觉,主要好好学习。明确我们目前所处的定位,避免走入发展误区。
我认为很重要的就是,大家每次都谈谈中美AI差距大概是只有1~2年,那是不是真的就是1~2年,为什么会是1~2年?
因为会有很多人说GPT-3发布就在2020年,那可能在2022年ChatGPT出来之后,我们也快速出来了类似于GPT-3相关的模型,GPT-4出来之后,我们也很快能出来一个对标GPT-4水平的模型,就意味着我们相差的时间可能是1~2年,真的是这样吗?
我会觉得所有用这样时间来表述差距的都是“耍流氓”,因为那是人家创新迭代的代际时间,不是我们真实水平的差距时间。
如果说GPT-5现在不能出来,我们可能10年都追赶不上;但是GPT-5出来,我们可能也许花2~3年能赶上。
而GPT-5模型水平只是人家的创新节点、迭代时间水平,不是我们自己能力水平,这一点需要非常清楚,这也是我们本质上的一个差距。
我们要看到,这真的是创新引领的差距,不是努力追赶两年推出一个模型就改变了中美AI差距了。
我们常常会说,尤其是在AI 1.0的时代,中国投资人和创业者到硅谷做相关演讲说,中国AI已经领先于美国了。背后经常会提到的一个指标是,中国是全球最大的AI的专利和人才市场。
我们中国发布AI相关论文和申请AI专利的数量,可以说全球数一数二的,从事AI相关的人员数量,我们可以说全球数一数二。
但事实是什么样的呢?
我们可以看这张图,里面可以看到,新一代全球数字科技领域,大多数都是以AI相关论文的,中国排名确实是很高的。但是到相关顶尖论文的数量,或者说被引用论文次数的数量,我们的排名就掉下来了。
世界公认标准Top1的顶尖论文数量,中国不仅低于美国,我们也低于德国、加拿大、英国等。
与此同时,我们可以看到我们的AI人才密度。
中国确实在大学当中培养出了大量的工程师、计算机领域人才,包括很多硅谷的大企业都到清华北大,直接在中国招聘计算机专业人才。
但是我们可以看到,即便是在2022年顶尖研究人员里面,虽然中国也是排在第二名左右,但是一上到顶级AI研究人员数量,只有美国的1/5左右。如今,2024年可能比两年前更糟糕了。
所以这不是我们想的那样,中国是全球AI人才大国。
中国AI的主要障碍在于“算力卡脖子”。我们认为算力卡了脖子,所以我们只要以各种手段能够买到相关的芯片,那是不是就已经达到相关水平了?
但是我想给大家泼一盆冷水的是,在这一轮AI 2.0的这一轮发展里面,不仅算力很重要,模型创新能力也很重要,数据能力也很重要。
因此,现在的事实是,我们不仅是“算力”是瓶颈,我们的底层模型的创新能力、数据能力都是“瓶颈”。
我先说数据能力,很多人觉得中国是一个很大的应用市场,中国的消费者数据,企业行为数据等等一定是很丰富的,但是我要非常残忍的告诉大家,很多数据都是“无价值数据”,或者是“不可用数据”。
今年初,我跟美国气象的一个华裔科学家,同时也是中国气象科学研究院的顾问,在讲到气象数据的时候,我说我们也有相关的公司推动了相关气象计算预测的模型。
那个科学家就非常直白地说了一句——我们所有的气象数据几乎都是没用的。因为我们缺乏对历史气象数据的整理,缺乏气象数据的归纳,缺乏气象数据相关的整合,变成可计算的数据。
目前对于中国而言,什么“都缺”。
美国AI生态里面最重要的一个就是关于数据市场的建设。但在中国,理论上说是没有数据市场的。这个就是生态建设能力里很重要的,建设一个成熟的数据市场。在国内,目前我们刚刚启动筹建大数据局。
中国的模型公司,可以说在中文的计算能力上相对来说是领先的,但是整个中国的数据市场占全球的数据市场不到1%,以及世界主流的论文数据、研究数据,包括用户数据绝大部分依然是英文数据。
所以如果我们不能很好的利用英文数据,我们如何能形成有足够竞争力的大模型,这个是很难的。
这就是为什么我说我们不要以为美国只是卡了我们的算力脖子,好像只在光刻机上发力就行了,实际上是整个生态能力建设,从算力到底层模型的创新,到数据能力和数据市场的生态的建设,我们整体都是落后的。
前段时间,我们能看到企业家在争论“闭源大模型好,还是开源大模型好”,我觉得这个事情根本不重要,只有哪种大模型更合适场景。
对于很多的应用来说,或者对于我们的场景,我们其实是没有必要每一个模型都算到万亿级那么大的,那么在一定程度上里说,开源模型并非不可以。
作为OpenAI这种领头羊来说,它的目标是要实现AGI通用人工智能这件事情来说,闭源可能会让它有更快,更容易集中更多的资源、资金,更快的实现AGI这个目标。
但是对于要来做全社会普及有更多的应用和更多的迭代的速度来说的话,开源大模型也是非常必不可少的。
不管是哪一个更好,最重要的都是我们是否有自己的创新能力,是否有自己的原创性能力,减少重复造轮子。
假如说百模大战也好,千模大战也好,不能有任何的创新点,只是在低阶段的复制、内卷,那么确实一个也不需要。
在中国我听到最多的都是说,我们马上要进垂直产业的爆发,今年都是大模型应用爆发的元年。
我今年年初就跟一些朋友说,今年不可能是AI垂直产业爆发的元年,可以说是AI应用刚刚开始起步,但不能说爆发,不可能马上爆发,凡事都有基本运行规律,一个产业、行业的发展都是有规律的。
而核心的原因在于,我们整个AI的基础设施建设还没达到产业广泛应用的标准。
如果说产业应用必须要到90%的水平才推动爆发,那你此刻只有50%的水平,哪怕增长到89%的水平,产业都不可能诞生快速爆发级的应用。
大家不要认为只有中国算力被“卡脖子”,而是全世界的算力都被“卡脖子”,美国企业也一样被算力“卡脖子”。
OpenAI在推进GPT-5、GPT-6的过程中速度依然还是很缓慢的,今天的AI大模型就是一个“暴力美学”——以足够大的数据、算力、能源为前提,现阶段明显遇到了增速瓶颈。
有很多企业可能会指望说,中国公司认为在技术创新能力上不如美国,但中国市场规模要比美国大、中国的应用规模能力要比美国更强,那么我是不是集中于创业做应用,从而能快速获得成功或者成果?
但我认为,这件事长期来看是正确的,但短期来看创业公司机会很小。
奥特曼曾经说过,95%创业公司依附在大模型上开发,但是大模型每次大规模迭代就会“消灭”一批企业。AI也不会违背一般的商业定律。
我今年跟AI视频生成工具Pika的创始人在聊的时候,她自认为最大的危机感,并不是竞争对手Runway,她说最大的危机感是来自OpenAI。
基础建设能力还没有达到为这个行业产生质变的时候,它就不可能变成一个爆发式的AI应用时代。
很多人说,中国移动互联网应用就在全球领先,但我们现在所处的历史时间点位置不是对应互联网时代。即AI当下的发展阶段,并不是“后互联网”发展阶段,而是相当于思科公司早期增长的阶段。
今天的英伟达就像当年的思科(英伟达最新股价突破1000美元),当年思科在美国股票市场一骑绝尘,一年能涨60倍,那个时候有什么互联网公司是值得一提的吗?
那时候很多现在的互联网公司可能都还没有出现。后来也是基础设施能力的提升,通信技术从2G到4G、5G的发展,网络技术的提升、移动互联网、长视频短视频的应用逐渐出来。
现在的AI应用,还是在帮助我们怎么提高产业效率,但想要彻底改变这个行业来说还需要时间、需要耐心。
这就是为什么我们说,我认为,目前还是「弱人工智能」,中国的庞大人口市场优势暂时无法发挥。短期内,还是辅助生成内容的AI工具为主,比如搜索、问答、文生图、文生音视频等等。
那么,接下来,我们要如何应对这些?
我觉得我们可能真的要形成一定的社会共识,怎么在一个全球环境和AI发展过程中来做我们应该做的事。
第一个,加大基础创新长期能力建设。
这种生态能力建设非常重要,甚至要从教育开始抓起,比如建立AI普及教育、重新评估高校教育体系的评估标准、相应的学术开放和交流的体系等,需要围绕着AI本身的创新技术能力去重新匹配。同时,我们也要提高大模型研发创新的基础能力,没有这个基础,其他的都是“无源之水”。
第二个,是耐心面对各产业应用场景的AI爆发周期。每个被AI改变的产业都面临要从基础底层技术改变开始的新周期,不会“一蹴而就”或者“一夜爆发”。
我认为每个可能被AI改变的产业,也都要面临从底层基础设施改变,并开启一个产业的新周期,比如我们的媒体行业其实也要从底层周期开始变化,而不是说我马上就在应用层彻底变了,不是这样的。包括相关的机器人行业、制造业、生物制药行业等等都会发生颠覆性影响,但从这一点来说,我们的基础科研能不能跟得上,这就变得非常重要了。
每一个产业都有自己的底层能力、从零开始的地基建设,这个才是我们真正的产业周期。
第三个,是用更开放态度。迎接全球AI建设的竞争与挑战,不能自己卡自己脖子。
很多人都说,美国人卡我们的脖子,但现在我希望,我们自己不要卡自己的脖子。不要重复过去在低阶段的复制式竞争,在AI创新层面更加激进一些,往前多迈一步,要用更开放的态度去做这件事。
我希望,我们AI领域的研究,不要走新能源汽车的“老路”,10年前我们在动力电池方面是有创新的,但看到今天,包括小米SU7的进场,我们却在复制别人的成果,降价“内卷”,这就意味着我们很难向前发展。
所以,我希望我们的基础研究能力、创新能力能够走得更快,能够更耐心一点。