以“科技,创造可持续发展”为主题的第贰届外滩大会将于下周在上海世博园举行。本届大会聚焦 人工智能 、隐私计算、 区块链 、 Web3.0 等前沿技术探索与创 新产业 实践,并重点关注大模型技术在产业的落地和数据技术的未来探索。
9月1日,外滩大会科创企业走访团第叁站来到达观数据。达观数据开创人兼总裁陈运文对记者表示:“我们将于下周出席2023INCLUSION-外滩大会的科技人才招聘会,届时将开放包含自然语言处理、文本智能处理和目前大热的大模型领域相关技术与研发等多个科技人才岗位的招募,我们很期待能在外滩大会的科创人才招聘会上寻觅到优质的数据技术人才。”
谈到大模型,陈运文指出,大模型存在两大缺陷:一是可靠性和准确性不足,模型无法保证回复结果的可靠性,存在虚假信息,也有可能会给犯错误的结果。
二是模型有偏向性,存在服务合规性问题。陈运文解释道,事实(Facts)是客观的,观点(Opinion)是主观的,可是两者在文本中往往总是杂糅在一起的,因此如果使用具有各自“观点〞的文本训练后,相应的系统也会有各自不一样的”三观,给出不一样的说法甚至出现偏见。
陈运文认为,大模型其实不是是客观和中立的,其结果严重依赖于训练数据本身的偏向性,所以采用其答案时需要谨防。另外,参数规模大只表明系统承载的知识可以更多,但其实不一定代表模型更智能,因为训练数据规模、训练策路好坏、超参数配置等都对模型有更大的影响。
陈运文指出,训练数据是末来的核心竞争力。论文、报告、新闻、书籍等各类文档资料是主要的练习数据,通过特定渠道收集“喂给”模型,模型通过这些文档资料的阅读和建模来吸收知识,高质量的数据会成为最核心的竞争力。
据了解,自达观数据2023年3月宣布研发大语言模型以来,一直积极探索大语言模型的专业化、特长化和产品化,并在7月7日世界 人工智能 大会上,正式推出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。为促使“曹植”大模型在各垂直领域中可以更低成本高效能地落地与应用,达观数据正式推出私有化大模型一体机。