安大互联
财经热点 > 财经资讯 > 量化巨头发布第一代大模型 - 免费商用 完全开源
【人工智能】量化巨头发布第一代大模型 - 免费商用 完全开源
浏览次数:【224】  发布日期:2023-11-3 18:20:20    文章分类:财经资讯   
专题:人工智能】 【生成式AI
 

  量化巨头幻方开发的大模型来了!

  11月2日晚间,幻方宣布,探索AGI(通用 人工智能 )的新组织“深度求索(DeepSeek)”在成立半年后,发布第壹代大模型——开源代码大模型DeepSeek Coder,已经开放内测,免费商用,完全开源。

  公告显示,DeepSeek Coder模型有指令Python快速写出程序、更改UI(用户界面)、测试bug(程序错误)和数据分析,学写SQL(数据库语言)等技能。

  据国盛证券研报,在云算力端,当前国内只有商汤、百度、腾讯、字节、阿里和幻方有超过1万张A100芯片储蓄。

  性能优于GPT3.5-Turbo

  11月2日晚间,在成立半年后,幻方宣布,探索AGI(通用 人工智能 )的新组织“深度求索(DeepSeek)”发布了第壹代大模型DeepSeek Coder,已经开放内测。

  在公告中,DeepSeek Coder展示了用Python写一个贪吃蛇游戏,随着屏幕快速输出跳跃的代码,一段可直接运行的游戏代码即可生成;指挥DeepSeek Coder更改UI,轻松写出更难的2048游戏等。另外,DeepSeek Coder还能测试bug;作为数据分析的好帮手,学写SQL也是其必备技能等。

  据介绍,目前DeepSeek Coder已经开放内测。DeepSeek Coder已开源7B,33B全系列模型,包含Base模型和指令调优模型。在国际权威数据集HumanEval编程多语言测试上,DeepSeek Coder在各个语言上的表现都领先已经有的开源模型。

  另外,据介绍,与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先9.3%、10.8%和5.9%。其中DeepSeek Coder的70亿参数版本在代码能力上达到了CodeLlama的340亿参数水平。经过指令调优后的DeepSeek Coder模型更是全面超越了GPT3.5-Turbo。

  今年4月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的 人工智能 技术之中,成立新的独立研究组织,探索AGI的本质。幻方将这个新组织命名为“深度求索(DeepSeek)”。

  公开信息显示,“深度求索”的企业名称是杭州深度求索 人工智能 基础技术研究有限公司,成立日期是2023年7月17日,宁波程恩企业管理咨询合伙公司持股99%,幻方量化实控人梁文锋持股1%,法定代表人为裴湉。

  探索AGI其实其实不是用来炒股

  幻方量化是量化私募中的头部公司,管理规模曾一度突破千亿元大关。幻方官方网站显示,其在2018年就确立以AI为公司的主要发展方向。

  2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心宗旨,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。

  幻方表示,多年以来,该公司坚持把营业收入的大部分投入 人工智能 领域,建设可靠的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,“我们相信基本上所有的创新都是从大胆尝试和点滴积累中孕育而来。”

  梁文锋之前在接受采访时曾表示,幻方的主要班底里,许多人是做 人工智能 的,“那时我们尝试了很多场景,最终切入了足够复杂的金融,而通用 人工智能 可能是下一个最难的事之一。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,因此我们会从这里开始,后边也会有视觉等。”

  曾有传言指出幻方探索AGI是用来炒股,幻方量化总裁陆政哲此前曾表示:“我们探索AGI不是用来炒股的,是做GTP相关的大模型,与金融无关。我们独立于投资新成立了一个团队,相当于二次创业,从事的是科技方向,只是大家习惯把我们局限在投资领域。”

  值得强调的是,幻方量化作为一家头部量化私募,10月26日有传言称该公司宣布暂停渠道募资。不过,幻方量化相关人士当时回应澎湃新闻记者称,募资已经停止很久了,2021年12月就暂停了,幻方量化当前的基金管理规模是400多亿元人民币,这个规模目前看是策略比较适当的规模。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-15【人工智能】服贸会观察 - 大模型遇数据瓶颈、算力不足,电信运营商如何应对
2024-9-14【大模型】智谱AI狂奔!视频通话功能-首秀-,国产大模型解锁新能力 - 聚焦服贸会
2024-9-13【OpenAI】AI新时代揭幕!会-思考解题逻辑-的OpenAI推理大模型登场
2024-9-10【格灵深瞳】视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling - Law
2024-9-7【大模型】当企业都在谈出海 - 鹅厂的这朵云能做啥?
2024-9-7【回购股份】硬科技投向标-十一部门 - 优化布局算力基础设施 大模型独角兽智谱完成新一轮数十亿元融资
2024-9-7【大模型】AI领域多项-首个标准-发布 近百名选手参与开源模型代码接力对抗-深度伪造-
2024-9-7【大模型】AI有无泡沫、卷向何方、风险如何规避...你要的答案都在这
2024-9-4【大模型】数智早参 - 生成式AI之父 - 中国将在几年内缩小硬件差距
2024-9-6【何明科】百度集团资深副总裁何明科 - AI大模型为医疗健康行业带来了哪些新可能?- REAL大会
 ● 相关资讯专题
人工智能】  【中国移动】  【中国电信】  【电信运营商】  【大模型】  【OpenAI】  【GPT】  【思考解题逻辑】  【格灵深瞳】  【多模态】  【汤道生】  【腾讯云】  【回购股份】  【股权激励】  【供应链】  【张朝阳】  【石清华】  【生成式AI】  【何明科】  【医疗健康】  【REAL】 
  • 网络建设业务咨询

   TEl:13626712526