【金融行业】达观数据创始人陈运文 - 训练数据是大模型领域未来核心竞争力

栏目导航

财经热点 > 财经资讯 > 达观数据创始人陈运文 - 训练数据是大模型领域未来核心竞争力

【金融行业】达观数据创始人陈运文 - 训练数据是大模型领域未来核心竞争力

浏览次数：【826】发布日期:2023-9-1 22:41:00 文章分类：财经资讯

　　以“科技，创造可持续发展”为主题的第贰届外滩大会将于下周在上海世博园举行。本届大会聚焦人工智能、隐私计算、区块链、 Web3.0 等前沿技术探索与创新产业实践，并重点关注大模型技术在产业的落地和数据技术的未来探索。

　　9月1日，外滩大会科创企业走访团第叁站来到达观数据。达观数据开创人兼总裁陈运文对记者表示：“我们将于下周出席2023INCLUSION-外滩大会的科技人才招聘会，届时将开放包含自然语言处理、文本智能处理和目前大热的大模型领域相关技术与研发等多个科技人才岗位的招募，我们很期待能在外滩大会的科创人才招聘会上寻觅到优质的数据技术人才。”

　　谈到大模型，陈运文指出，大模型存在两大缺陷：一是可靠性和准确性不足，模型无法保证回复结果的可靠性，存在虚假信息，也有可能会给犯错误的结果。

　　二是模型有偏向性，存在服务合规性问题。陈运文解释道，事实（Facts）是客观的，观点（Opinion）是主观的，可是两者在文本中往往总是杂糅在一起的，因此如果使用具有各自“观点〞的文本训练后，相应的系统也会有各自不一样的”三观，给出不一样的说法甚至出现偏见。

　　陈运文认为，大模型其实不是是客观和中立的，其结果严重依赖于训练数据本身的偏向性，所以采用其答案时需要谨防。另外，参数规模大只表明系统承载的知识可以更多，但其实不一定代表模型更智能，因为训练数据规模、训练策路好坏、超参数配置等都对模型有更大的影响。

　　陈运文指出，训练数据是末来的核心竞争力。论文、报告、新闻、书籍等各类文档资料是主要的练习数据，通过特定渠道收集“喂给”模型，模型通过这些文档资料的阅读和建模来吸收知识，高质量的数据会成为最核心的竞争力。

　　据了解，自达观数据2023年3月宣布研发大语言模型以来，一直积极探索大语言模型的专业化、特长化和产品化，并在7月7日世界人工智能大会上，正式推出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。为促使“曹植”大模型在各垂直领域中可以更低成本高效能地落地与应用，达观数据正式推出私有化大模型一体机。

手机扫码浏览该文章

● 相关资讯推荐

2024-9-21【内幕交易】大数据+人工智能助力监管剑指-守门人-内幕交易

2024-9-19【人工智能】中国式体检20年 - 从例行公事到真的救命

2024-9-17【数据中心】铜价长期将飙升？必和必拓 - AI浪潮将加剧铜短缺

2024-9-14【新能源】携手清华解决可持续挑战 - 远景的又一次零碳试验

2024-9-15【人工智能】服贸会观察 - 大模型遇数据瓶颈、算力不足，电信运营商如何应对

2024-9-14【大模型】智谱AI狂奔！视频通话功能-首秀-，国产大模型解锁新能力 - 聚焦服贸会

2024-9-14【人工智能】人工智能板块，迎利好！

2024-9-14【人工智能】国家网信办 - 任何组织和个人不得恶意删除、篡改、伪造、隐匿人工智能生成合成内容标识

2024-9-14【人工智能】人工智能催收走热 - 面临双重合规挑战

2024-9-13【2024】如此执着做空！兴登堡再度发文狙击印度阿达尼集团