斯坦福大学学生团队抄袭中国开源模型,致歉之后
一人失联、两人致歉,连日来轰动一时的“斯坦福大学AI团队抄袭中国开源大模型”事件迎来了最新进展。
北京时间6月4日凌晨,两位来自美国斯坦福大学的本科生——席德哈斯·夏尔马( Sharma)和阿克什·加尔格(Aksh Garg)在社交平台X(原“推特”)上主动承认了抄袭行为,并“向原作者们道歉”。
Siddharth和Aksh分别在X上发推致歉。 截图自X平台
但作为三人团队中的关键人物——负责其项目代码部分的穆斯塔法·阿贾德里(Mustafa Aljadery),却“失联”了。“我们原本希望由Mustafa 首发声明,但自昨天以来一直无法联系到他。”Siddharth和Aksh在推文中写道。
美国名校——斯坦福大学的研究团队抄袭来自中国的大模型,这在许多中国网友看来堪称“魔幻”,该事件也被一些网友认为具有一定的标志性意义:“是时候重新认识中国AI的水平了。”
“斯坦福抄袭事件”始末
一切始于5月29日,一款名为“Llama3-V”的多模态大模型在开源社区GitHub上火起来。
来自斯坦福的创始团队声称,仅用500美元成本,就能基于Llama3训练出一个SOTA开源多模态模型。尽管规模不大(80亿参数),但它能在性能上比肩“顶流”的GPT-4v、Gemini Ultra等。
惹眼的宣传和斯坦福大学名校背景,很快就将Llama3-V推至聚光灯下。不出两日,Llama3-V就在HuggingFace的社区榜单(HuggingFace Trending)中跻身前五。
只有真金不怕火炼。国内AI领域的学者“Magic Yang”越看越不对劲,他发现Llama3-V的架构和代码,与一款来自中国团队的大模型几乎一模一样,即清华大学和面壁智能团队基于开源模型Llama3联合开发的MiniCPM-Llama3-V 2.5,该模型于5月中旬发布。
但是,Magic Yang没有看到斯坦福大学团队对中国团队模型表示任何形式的“致敬或感谢”——这在开源项目中往往是必要的。
他随即在GitHub下留言提出质疑,但换来的却是斯坦福大学团队的诡辩或回避,后者甚至声称自己的工作早于中国团队。而当他用模型代码对比、分词器对比等提出实质性质疑,后者竟然直接删除了他的留言。
这彻底激怒了Magic Yang。他转而来到清华大学和面壁智能开发的模型GitHub项目下爆料,并提醒面壁智能团队注意此事。
收到提醒后,面壁智能团队很快展开了调查。在Magic Yang提供证据的基础上,他们得出了同样的结论:“比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5的套壳”。
面壁智能首席科学家、清华大学长聘副教授刘知远给出“套壳”判断的一大理由,是其对于清华简的识别能力。
两模型对清华简的识别几无二致。刘知远 供图 ?
“比较有意思的证据是,MiniCPM-Llama3-V 2.5研发时内置了一个‘彩蛋’,就是对‘清华简’的识别能力。这是我们从清华简逐字扫描并标注的数据集,并未公开,而Llama3-V展现出了一模一样的清华简识别能力,连做错的样例都一样。”刘知远说。
面壁智能CEO李大海介绍,这项工作是团队耗时数月、从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注、融合进模型中的。
刘知远(右)与李大海(左)在分享活动中。 图源:面壁智能 ?
斯坦福教授愤怒,中国作者:选择原谅