【大模型】零一万物回应Yi大模型指控 - 研发大模型结构设计基于GPT，借鉴行业公开成果

栏目导航

财经热点 > 财经资讯 > 零一万物回应Yi大模型指控 - 研发大模型结构设计基于GPT，借鉴行业公开成果

【大模型】零一万物回应Yi大模型指控 - 研发大模型结构设计基于GPT，借鉴行业公开成果

浏览次数：【98】发布日期:2023-11-14 17:49:49 文章分类：财经资讯

专题：【大模型】【零一万】【GPT】

　　一周前刚完成大模型处女秀的零一万物，今日被拱上风口浪尖。

　　11月14日上午，在零一万物预训练大模型Yi-34B的Hugging Face开源主页上，一位名为ehartford的国外开发者疑问称该模型使用了Meta的当家开源大模型LLaMA的架构，只对两个张量（Tensor）名称进行了更改，分别为 input_layernorm 和 post_attention_layernorm。所谓张量，是深度学习概念中的多维数组，其目标是能够创造更高维度的矩阵、向量。

　　针对此番开发者指控，零一万物方面对界面新闻作出了回应。零一万物表示，GPT是一个业内公认的成熟架构，Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构，借鉴了行业顶尖水平的公开成果，由于大模型技术发展还在非常早期，与行业主流保持一致的结构，更有益于整体的适配与将来的迭代。同时基于零一万物团队对模型和训练的领会做了大量工作，也在持续探索模型结构层面本质的突破。

　　“模型结构仅是模型训练其中一部分。Yi开源模型在其它方面的精力，好比数据工程、训练方法、baby sitting（训练过程监测）的技巧、hyperparameter设置、评估方法和对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业卓越的AI infra能力等，投入了大量研发和打底工作，这些工作往往比起基本结构能起到更大的用处跟价值，这些也是零一万物在大模型预训练阶段的核心技术护城河。”零一万物表示。

　　四个月前，李开复进军大模型创业领域，他于11月6日正式披露了其AI创业公司零一万物成立7个月以来的最新进展。Yi系列两款大模型问世，包含34B和6B两个版本，目前都已开放免费商用申请。据界面新闻的了解，目前零一万物估值已达到独角兽级别。

　　本次争议性的Yi-34B是一个双语基础大模型，参数量达340亿的Yi-34B，可支持200K超长上下文窗口，可处理约40万汉字超长文本输入，是现今全球最长的上下文窗口，刷新了杨植麟的moon shoot.ai、王小川的Baichuan2-192K的大模型记录。

　　据了解，34B的大模型是李开复心目中基础模型的黄金尺寸，其刚好达到了涌现的门槛，但又木有过大，既满足了精度的要求，又对训练推理成本友好。

　　零一万物方面称，在大量训练实验进程中，由于实验执行的需求对代码做了更名，其尊重开源社区的反馈，将代码进行更新，也更好的融入Transformer生态。