量化巨头幻方开发的大模型来了!
11月2日晚间,幻方宣布,探索AGI(通用 人工智能 )的新组织“深度求索(DeepSeek)”在成立半年后,发布第壹代大模型——开源代码大模型DeepSeek Coder,已经开放内测,免费商用,完全开源。
公告显示,DeepSeek Coder模型有指令Python快速写出程序、更改UI(用户界面)、测试bug(程序错误)和数据分析,学写SQL(数据库语言)等技能。
据国盛证券研报,在云算力端,当前国内只有商汤、百度、腾讯、字节、阿里和幻方有超过1万张A100芯片储蓄。
性能优于GPT3.5-Turbo
11月2日晚间,在成立半年后,幻方宣布,探索AGI(通用 人工智能 )的新组织“深度求索(DeepSeek)”发布了第壹代大模型DeepSeek Coder,已经开放内测。
在公告中,DeepSeek Coder展示了用Python写一个贪吃蛇游戏,随着屏幕快速输出跳跃的代码,一段可直接运行的游戏代码即可生成;指挥DeepSeek Coder更改UI,轻松写出更难的2048游戏等。另外,DeepSeek Coder还能测试bug;作为数据分析的好帮手,学写SQL也是其必备技能等。
据介绍,目前DeepSeek Coder已经开放内测。DeepSeek Coder已开源7B,33B全系列模型,包含Base模型和指令调优模型。在国际权威数据集HumanEval编程多语言测试上,DeepSeek Coder在各个语言上的表现都领先已经有的开源模型。
另外,据介绍,与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先9.3%、10.8%和5.9%。其中DeepSeek Coder的70亿参数版本在代码能力上达到了CodeLlama的340亿参数水平。经过指令调优后的DeepSeek Coder模型更是全面超越了GPT3.5-Turbo。
今年4月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的 人工智能 技术之中,成立新的独立研究组织,探索AGI的本质。幻方将这个新组织命名为“深度求索(DeepSeek)”。
公开信息显示,“深度求索”的企业名称是杭州深度求索 人工智能 基础技术研究有限公司,成立日期是2023年7月17日,宁波程恩企业管理咨询合伙公司持股99%,幻方量化实控人梁文锋持股1%,法定代表人为裴湉。
探索AGI其实其实不是用来炒股
幻方量化是量化私募中的头部公司,管理规模曾一度突破千亿元大关。幻方官方网站显示,其在2018年就确立以AI为公司的主要发展方向。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心宗旨,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。
幻方表示,多年以来,该公司坚持把营业收入的大部分投入 人工智能 领域,建设可靠的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,“我们相信基本上所有的创新都是从大胆尝试和点滴积累中孕育而来。”
梁文锋之前在接受采访时曾表示,幻方的主要班底里,许多人是做 人工智能 的,“那时我们尝试了很多场景,最终切入了足够复杂的金融,而通用 人工智能 可能是下一个最难的事之一。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,因此我们会从这里开始,后边也会有视觉等。”
曾有传言指出幻方探索AGI是用来炒股,幻方量化总裁陆政哲此前曾表示:“我们探索AGI不是用来炒股的,是做GTP相关的大模型,与金融无关。我们独立于投资新成立了一个团队,相当于二次创业,从事的是科技方向,只是大家习惯把我们局限在投资领域。”
值得强调的是,幻方量化作为一家头部量化私募,10月26日有传言称该公司宣布暂停渠道募资。不过,幻方量化相关人士当时回应澎湃新闻记者称,募资已经停止很久了,2021年12月就暂停了,幻方量化当前的基金管理规模是400多亿元人民币,这个规模目前看是策略比较适当的规模。