【Llama】斯坦福抄袭国产大模型始末

栏目导航

财经热点 > 财经资讯 > 斯坦福抄袭国产大模型始末

【Llama】斯坦福抄袭国产大模型始末

浏览次数：【772】发布日期:2024-6-5 0:03:45 文章分类：财经资讯

专题：【Llama】【MiniCPM】

　　“我们希望团队的好工作被更多人关注与认可，但不是以这种方式。”6月3日，对于连日来备受关注的斯坦福大学AI团队疑似剽窃面壁智能一事，面壁智能总裁李大海作出回应。同一天，面壁智能联合开创人刘知远也发文回应提到，开源共享的基石是对开源协议的遵守，对其它贡献者的信任，对前人成果的尊重和致敬，Llama3-V团队无疑严重破坏了这一点。

　　风波中心的Llama3-V多模态大模型来源于斯坦福大学的一个本科生团队。几天前，该团队发布这一模型，并宣称只需500美元训练，其性能就比GPT-4V、Gemini Ultra、Claude Opus更强，一度成为“HuggingFace Trending”Top5。但随后，该模型被指剽窃面壁智能发布的MiniCPMLlama3-V 2.5，且声浪越来越大。

　　面壁智能是一家“清华系” 人工智能大模型创业公司，建立于2022年8月，今年4月刚刚宣布完成新一轮数亿元融资。面壁智能自研了百亿参数预训练语言大模型CPM，MiniCPM是其端侧模型，也被称为“小钢炮”。

　　今年5月20日，面壁智能推出并开源MiniCPM系列最新的端侧多模态模型MiniCPM-Llama3-V 2.5，支持30+种语言，可实现最强端侧多模态综合性能。

　　对于Llama3-V套壳、剽窃MiniCPM-Llama3-V 2.5的指责，主要聚焦在Llama3-V的模型结构和配置文件与MiniCPM-Llama3-V 2.5完全相同，只是进行了一点重新格式化并将部分变量重新命名，Llama3-V具有与MiniCPM-Llama3—V 2.5相同的分词器，包含MiniCPM-Llama3-V 2.5新定义的特殊符号等方面。

　　Llama-3V团队曾回应，他们只是使用MiniCPM-Llama3-V 2.5的分词器，并在MiniCPM-Llama3-V2.5发布前就启动了这项工作，但并未解释如何做到在MiniCPMLlama3-V 2.5发布以前就获取详细分词器的具体方式。

　　随着事件引发的关注度越来越高，李大海与刘知远先后作出回应，其中最为关键且特别的证据，在于“清华简”。李大海称，经过团队核对，除了社区网友列出的证据外，面壁智能还发现，Llama-3V展现出和小钢炮同样的清华简识别能力，连做错的样例都完全一致，而这一训练数据尚未对外公开。另外，两个模型在高斯扰动验证后，在正确和错误表现方面都高度相似。

　　刘知远提到，比较确信Llama-3V是对MiniCPM-Llama3-V 2.5的套壳，“证据是MiniCPM-Llama3-V 2.5研发时内置了一个彩蛋，就是对清华简的识别能力，这是我们从清华简逐字扫描并标注的数据集，并未公开。而Llama-3V展现出了完全同样的清华简识别能力，连做错的样例都一样”。

　　目前，Llama3-V团队的两位作者已在社交平台上就这一学术不端行为向面壁智能MiniCPM团队正式道歉，并将问题归咎于另一名“无法联系”上的成员，同时表示会将Llama3-V模型悉数撤下。斯坦福人工智能实验室主任ChristopherDavid Manning也发文谴责这一剽窃行为，并对MiniCPM这一中国开源模型表示赞扬。

　　值得强调的是，Llama3-V剽窃风波引发广泛关注的另一面，也在于大模型领域开源、套壳、剽窃由来已久的争议。在接受北京商报记者采访时，香颂资本董事沈萌称，开源就是把源代码公开，公开时都会选择一个遵循的协议，不同协议需遵循不同的规范。套壳还是剽窃的界定，都决定于开源的协议和对方采取了怎样的动作。

　　对于后续安排等许多问题，北京商报记者联系了面壁智能，但截至发稿未收到回复。

手机扫码浏览该文章

● 相关资讯推荐

● 相关资讯专题

上一条 : 深夜惊雷！39亿存款没了？！
下一条 : 假期临近 - 郑州市消保中心发布端午节消费提示

网站首页

主机域名

网站模板

网站开发

软件开发

财经资讯

金融工具

管理中心

栏目导航

关于我们

关于我们

付款方式

售后服务

主机域名

信息资讯

解决方案

网站建设

业务入口

服务支持

信息资讯

移动网站