李开复大模型公司「零一万物」口碑爆雷!涉嫌直接抄袭Meta AI模型代码,来龙去脉一篇理清
11月14日下午,AI圈突然爆出一条消息,直接全网炸锅哗然!
抄袭,这事儿可大可小。往小了说,就是道德问题;往大了说,存在欺诈投资人的嫌疑。?
因为事件牵扯到了李开复头上,因此各路大神真的坐不住了。EVA今天尽量用最简单的逻辑线,梳理整个事件的来龙去脉。
首先,来了解一下啥是「零一万物」?
这是李开复今年3月投资创办的一家AI大模型研究公司,从百度、阿里、谷歌、滴滴等等大厂挖了不少AI算法工程师。
李开复何许人也?可是响铛铛的“中国科技创投教父”呀~
就在上周,「零一万物」发布了旗下首款开源大模型“Yi”,包含60亿和340亿两个参数版本。
它很牛,宣称上下文吞吐Tokens达到惊人的200K,能一次处理40万个汉字。换句话说,AI模型能一次性读完整本《三体:死神永生》。要知道,上周同期发布的ChatGPT最新版本GPT-4 Turbo宣布Tokens达到128K,都已经是“超神”了。
根据国外开源模型社区Hugging Face和C-Eval中文测评榜单发布的最新数据显示,Yi-34B成为开源界的“双料冠军”,甚至超越了Meta的LLaMA 2和中东土豪投资的Falcon等开源竞品,成为地表最强!
用“一鸣惊人”形容丝毫不过分。
就是这么一款堪称「国货之光」的大模型产品,马上引发了全球研究者的关注。
但很快就有人发现,Yi-34B基本上直接套用了LLaMA的设计架构,只是重命名了两个张量。
换句话说,就是你抄了班上同学的寒假作业,然后署了自己名字。
帖子还挂出了Yi-34B与LLaMA的代码对比,高度吻合。
帖子作者还继续指出,「零一万物」上传的开源代码并没有遵守业内约定的代码策略,也没有解释模型微调的方法。这就造成其他开发者无法复现Yi-34B的基准测试,让人不禁怀疑排行榜高分的真实性。
因为声量不大,帖子发出去没多久就石沉大海,不了了之。
此外,并非只有一位开发者对「零一万物」提出质疑,Hugging Face评论区的多位网友表示:如果Yi-34B确切使用Meta的架构、代码库和所有相关开源的资源,就应该遵守LLaMA约定的许可协议。
在这里,EVA简单科普一下所谓的“开源许可协议”——
开源,的的确确是免费使用,但并不是让你直接署名。开源代码的使用者务必遵守开源产品作者提及的相关许可要求,但它没有强制约束力。
因为仅限于模型开发者的小圈子讨论,这件事也就这么波澜不惊地度过了一周。一直到昨日,曾在阿里任职的AI界大佬贾扬清在朋友圈发声——出圈了。
贾扬清博士,曾经在Facebook(Meta前身)、阿里巴巴达摩院任职的AI科学家,目前自主创业。
他表示,最近正在为Yi-34B做产品适配,有朋友提醒他,这款模型只需要把LLaMA的名字改成「零一万物」就可以搞定了。
至此点燃了整个AI圈的“怒火”。?
很快,官方就出来回应了……
@机器之心向「零一万物」进行了求证。官方表示:
GPT是一个业内公认的成熟架构,LLaMA在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,同时基于零一万物团队对模型和训练的理解做了大量工作,这是我们首次发布获得优秀结果的地基之一。与此同时,零一万物也在持续探索模型结构层面本质上的突破。
模型结构仅是模型训练其中一部分。Yi开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的AI Infra能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。
在大量训练实验过程中,由于实验执行需求对代码做了更名,我们尊重开源社区的反馈,将代码进行更新,也更好的融入Transformer生态。
我们非常感谢社区的反馈,我们在开源社区刚刚起步,希望和大家携手共创社区繁荣,Yi Open-source会尽最大努力持续进步。
看完这份“公关声明”,不得不说,就很像用GPT写的…“借鉴”这用词,就很灵性。?
没看懂是吧,有好事网友借助GPT对此进行了“翻译”——
这个回应确实对上述的一些问题进行了解释。
首先,他们承认了模型的设计基于GPT,同时也借鉴了行业顶尖水平的公开成果,包括LLaMA。他们强调了自己团队对模型和训练的理解以及在模型结构层面的探索,这是对原创性贡献的一种表述。
其次,他们强调了模型训练不仅仅是模型结构,还包括了数据工程、训练方法、训练过程监测的技巧、超参数设置、评估方法等多个方面的工作,这些都是他们的贡献。
再次,他们承认了在实验执行需求中对代码进行了更名,并表示尊重开源社区的反馈,将代码进行更新,更好的融入Transformer生态,这是对代码提交方式问题的回应。
最后,他们表示感谢社区的反馈,并表示会尽最大努力持续进步,这是对社区的尊重和承诺。
总的来说,这个回应在一定程度上解答了人们对他们贡献的疑问,并表示了对社区的尊重和承诺。然而,对于模型配置、微调数据和基准测试等方面的问题,他们并没有给出明确的回应。因此,他们可能需要在这些方面提供更多的信息和解释,以消除人们的疑虑。
大白话就是:我抄了作业,不仅署名,而且还拿去评比得奖,但竞赛过程是我亲力亲为,我并没有问题。
Emmm…OK。创业成功未知,“一鸣惊人”是兑现了。?
屏幕前的家人们,你们对此怎么看呢?