【Llama】面壁智能CEO发文回应斯坦福某AI团队-抄袭- 感到遗憾

栏目导航

财经热点 > 财经资讯 > 面壁智能CEO发文回应斯坦福某AI团队-抄袭- 感到遗憾

【Llama】面壁智能CEO发文回应斯坦福某AI团队-抄袭- 感到遗憾

浏览次数：【889】发布日期:2024-6-3 21:23:31 文章分类：财经资讯

专题：【Llama】【MiniCPM】

　　最近，斯坦福大学AI团队疑似剽窃中国大模型创业公司的消息引发业内高度关注。

　　6月3日，面壁智能总裁李大海与联合开创人刘知远先后发文，回应开源模型被斯坦福大学AI团队剽窃一事。李大海表示：“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的形式，另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可，但不是以这种方式。”

　　5月29日，一个来自斯坦福的AI团队开始在互联网上宣传500美元就能训练出一个SOTA 多模态模型，该模型名为Llama3-V，作者声称Llama3-V比GPT-4V、Gemini Ultra、Claude Opus 性能更强。公开资料显示，团队两位成员是来自斯坦福大学的本科生，曾发表多篇机器学习领域论文，实习经历包含了AWS、SpaceX等。

　　由于该团队成员拥有斯坦福、特斯拉等亮眼背景，Llama3-V项目很快冲到HuggingFace （一个开发者社区和平台）首页，并引发开发者群体的重视。

　　一位用户在社交平台X 与 HuggingFace 上疑问 llama-3V 是否套壳MiniCPM-Llama3-V 2.5 ，后者为面壁智能推出的开源端侧多模态模型，于 2024 年 5 月 21 日发布。

　　Llama-3V 团队彼时回应，他们只是使用了 MiniCPM-Llama3-V 2.5 的tokenizer（分词器，自然语言处理中的一个重要组成部分），并在 MiniCPM-Llama3-V 2.5 发布前就启动了这项工作。但团队并未解释如何做到在MiniCPM-Llama3-V 2.5发布以前就获取详细tokenizer的具体方式。

　　但随后，关于上述AI团队剽窃的声音越来越多。好比，Llama3-V的模型结构和配置文件与MiniCPM-Llama3-V 2.5完全相同，只是进行了一点重新格式化并将部分变量重新命名，如图像切片、分词器、重采样器、数据加载等变量。Llama3-V也具有与MiniCPM-Llama3V 2.5相同的分词器，包含MiniCPM-Llama3-V 2.5新定义的特殊符号。

　　据HuggingFace 页面显示，最初Llama3-V的作者在上传代码时直接导入了 MiniCPM-V 的代码，然后将名称更改为 Llama3-V。但作为其中一个作者，Mustafa Aljadery（穆斯塔法·阿尔贾德里）其实不认为该行为属于剽窃。他发文称，llama3-v推理存在bug，其实不是剽窃。“我已经指出了架构是相似的，但MiniCPM的架构来自Idéfics，我们遵循Idéfics论文中的那些内容。架构是基于综合研究的，你怎么能说它是MiniCPM呢？MiniCPM代码的视觉部分看起来也是从Idéfics那里使用的。” 清华简识别，圈红为正确答案

　　在李大海看来，另一证据在于Llama3-V同样使用了面壁智能团队新设置的清华简识别能力（清华大学于2008年7月收藏的一批战国竹简），且显现的做错案例都与MiniCPM完全一样，而这一训练数据尚未完全公开。李大海称，这项工作是团队同学耗时数个月，从卷帙浩繁的清华简中一个字一个字扫描下来，并逐一进行数据标注，融合进模型中的。更加微妙的是，两个模型在高斯扰动验证（一种用于验证模型相似性的要领）后，在正确和错误表现方面都高度相似。作者之一解释删库原因

　　目前，上述斯坦福AI团队已对HuggingFace 上的Llama3-V模型进行隐藏处理，作者解释该动作时表示：“我是为了修复模型的推理问题而将其隐藏，因为模型务必有特定的配置运行。”

　　“非常抱歉，我删除了它们，因为推理代码还没有准备好，每个人都有运行错误。我认为人们现在建议不要用。你务必有特殊的配置。我一修好就把它放回去。”上述团队回应。

　　记者向作者团队之一的Siddharth Sharma发送邮件，询问删库动作的具体原因，和后续在满足什么条件后会进行大模型的恢复。截至发稿前，暂未得到回应。

　　刘知远对此事评论称，人工智能的飞速发展离不开全球算法、数据与模型的开源共享，让人们始终可以站在SOTA的肩上持续前进。面壁开源的 MiniCPM-Llama3-V 2.5 就用了最新的Llama3 作为语言模型基座。而开源共享的基石是对开源协议的遵守，对其它贡献者的信任，对前人成果的尊重和致敬，Llama3-V团队无疑严重破坏了这一点。他们在受到疑问后已在Huggingface删库，该团队三人中的两位也只是斯坦福大学本科生，未来还有很长的路，如果知错能改，善莫大焉。

　　刘知远表示，国内大模型团队如智谱-清华GLM、阿里Qwen、DeepSeek和面壁-清华OpenBMB正在通过持续的开源共享，在国际上受到了广泛的关注和认可，“这次事件也算侧面反映出，我们的创新成果也一直受到国际关注。”刘知远说。

手机扫码浏览该文章

2024-6-30【万科A】皖股这一周 - 讯飞星火大模型V4.0整体超越GPT-4 Turbo；华菱精工控制权争夺升级

2024-6-30【大模型】价值研究所 - 国产大模型烧出个未来？

2024-6-30【大模型】国内厂商近期纷纷降价—— - 大模型商用加速洗牌

2024-6-29【MWC】观察 - 从5G-A到大模型今年MWC上海折射出哪些新趋势

2024-6-29【大模型】报告 - 80%的工作岗位将在未来三年内因AI改变

2024-6-29【中控技术】人形机器人+大飞机+数据要素概念股火了 - 透露旗下AI大模型等信息

2024-6-29【谷俊丽】奇瑞汽车谷俊丽 - 芯片和操作系统是智能车生态的核心

2024-6-28【大模型】AI志愿填报 -加钱-能不能办好事？

2024-6-29【人工智能】全国首个司法审判垂直领域大模型在深诞生 -人工智能+审判-深度融合

● 相关资讯专题