安大互联
财经热点 > 财经资讯 > 零一万物回应Yi大模型指控 - 研发大模型结构设计基于GPT,借鉴行业公开成果
【大模型】零一万物回应Yi大模型指控 - 研发大模型结构设计基于GPT,借鉴行业公开成果
浏览次数:【98】  发布日期:2023-11-14 17:49:49    文章分类:财经资讯   
专题:大模型】 【零一万】 【GPT
 

  一周前刚完成大模型处女秀的零一万物,今日被拱上风口浪尖。

  11月14日上午,在零一万物预训练大模型Yi-34B的Hugging Face开源主页上,一位名为ehartford的国外开发者疑问称该模型使用了Meta的当家开源大模型LLaMA的架构,只对两个张量(Tensor)名称进行了更改,分别为 input_layernorm 和 post_attention_layernorm。所谓张量,是深度学习概念中的多维数组,其目标是能够创造更高维度的矩阵、向量。

  针对此番开发者指控,零一万物方面对界面新闻作出了回应。零一万物表示,GPT是一个业内公认的成熟架构,Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常早期,与行业主流保持一致的结构,更有益于整体的适配与将来的迭代。同时基于零一万物团队对模型和训练的领会做了大量工作,也在持续探索模型结构层面本质的突破。

  “模型结构仅是模型训练其中一部分。Yi开源模型在其它方面的精力,好比数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法和对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业卓越的AI infra能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的用处跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。”零一万物表示。

  四个月前,李开复进军大模型创业领域,他于11月6日正式披露了其AI创业公司零一万物成立7个月以来的最新进展。Yi系列两款大模型问世,包含34B和6B两个版本,目前都已开放免费商用申请。据界面新闻的了解,目前零一万物估值已达到 独角兽 级别。

  本次争议性的Yi-34B是一个双语基础大模型,参数量达340亿的Yi-34B,可支持200K超长上下文窗口,可处理约40万汉字超长文本输入,是现今全球最长的上下文窗口,刷新了杨植麟的moon shoot.ai、王小川的Baichuan2-192K的大模型记录。

  据了解,34B的大模型是李开复心目中基础模型的黄金尺寸,其刚好达到了涌现的门槛,但又木有过大,既满足了精度的要求,又对训练推理成本友好。

  零一万物方面称,在大量训练实验进程中,由于实验执行的需求对代码做了更名,其尊重开源社区的反馈,将代码进行更新,也更好的融入Transformer生态。

  零一万物也针对事起源头Hugging Face网站做了公开回应

  普遍而言,开源其实不代表没有版权,任何第叁方使用都应该遵循其开源许可协议,而在法律层面上,大模型所有者可以通过专利、商标、版权等方式保护自己的大模型 知识产权

  7月中下旬,科技巨头Meta开源了Llama 2。Llama2官方网站挂出的相关使用许可和限制声明显示,“该模型可以用于商业用途,除非你的产品的月活跃用户数超过7亿。需要填写一个表格才能获得访问权限,这个表格也会让你从HuggingFace的网站上下载模型。”

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-15【人工智能】服贸会观察 - 大模型遇数据瓶颈、算力不足,电信运营商如何应对
2024-9-14【大模型】智谱AI狂奔!视频通话功能-首秀-,国产大模型解锁新能力 - 聚焦服贸会
2024-9-13【OpenAI】AI新时代揭幕!会-思考解题逻辑-的OpenAI推理大模型登场
2024-9-10【格灵深瞳】视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling - Law
2024-9-7【大模型】当企业都在谈出海 - 鹅厂的这朵云能做啥?
2024-9-7【回购股份】硬科技投向标-十一部门 - 优化布局算力基础设施 大模型独角兽智谱完成新一轮数十亿元融资
2024-9-7【大模型】AI领域多项-首个标准-发布 近百名选手参与开源模型代码接力对抗-深度伪造-
2024-9-7【大模型】AI有无泡沫、卷向何方、风险如何规避...你要的答案都在这
2024-9-4【大模型】数智早参 - 生成式AI之父 - 中国将在几年内缩小硬件差距
2024-9-6【何明科】百度集团资深副总裁何明科 - AI大模型为医疗健康行业带来了哪些新可能?- REAL大会
 ● 相关资讯专题
人工智能】  【中国移动】  【中国电信】  【电信运营商】  【大模型】  【OpenAI】  【GPT】  【思考解题逻辑】  【格灵深瞳】  【多模态】  【汤道生】  【腾讯云】  【回购股份】  【股权激励】  【供应链】  【张朝阳】  【石清华】  【生成式AI】  【何明科】  【医疗健康】  【REAL】 
  • 网络建设业务咨询

   TEl:13626712526