上海 人工智能 实验室今天联合崖州湾国家实验室和中国农业大学,发布了我国首个种业大语言模型“丰登”(SeedLLM)。在上海 人工智能 实验室研发的大语言模型“书生·浦语”2.0基础上,科研团队输入了科技文献、产业实践报告等海量专业数据,训练出具有强大理解和分析能力的种业大模型。它能降低育种领域的学习门槛,提升从业人员的研究和实践效率,也为“ 人工智能 +生物育种”开辟了探索路径,将为我国粮食安全提供科技支撑。
科研团队介绍,科学高效的生物育种对粮食安全和经济创收意义重大,但由于作物和畜类品种的多样性,育种信息一直缺乏统一的平台,数据知识显现出“孤岛式”分布,给育种知识普及造成了壁垒。同时,由于生物育种涉及生物学、遗传学、气象学、土壤学等多学科交叉,专业人员在从事育种工作时不得不查询众多领域的文献和数据,甚至需要编写代码进行数据访问,工作效率受到很大限制。
为此,上海 人工智能 实验室联合团队提出了大模型赋能生物育种这一思路,把“丰登”训练成具有“AI研究员”潜力的大模型。它可通过自主学习,发掘生物、遗传、气象和土壤间的复杂关联,形成新的知识结构。育种领域涉及的知识资源包含学术文献、田间日志和政府公示等,呈分散状态。针对这种情景,科研人员对相关知识进行了深度挖掘,将文本信息中提炼出的知识汇聚到模型权重中,再将分散在不同文献中的同一知识点进行整合归纳,最终使育种专业知识以结构化的形式显现。
我国首个种业大语言模型“丰登”(SeedLLM)问世。
基于“书生·浦语”2.0强大的基座模型能力,科研团队不仅对“丰登”进行了作物学、农学和遗传学等育种专业学科的知识训练,还整合了生物学、遗传学、气象学、土壤学等相关领域的多学科知识。通过提示词的合理运用,“丰登”可对相关领域之间的知识做到融会贯通。
经过联合攻关,这个大模型已具备品种选育、农艺性状、栽培技术、推广区域等4个领域的解释和回答能力。它采用自然语言对话接口,用户可直接提出问题,并获得易于明白的信息。“丰登”未来还可实现语音输入,进一步降低使用门槛。优质的对话体验和易用性,让它有望成为一线农业工作者的贴身“田间助手”,助力提升生物育种的工作效率,加速育种知识的共享和流传。
除了做农民工作中的智能助手,它还可作为专业院校提供教学辅助工具,用于农业人才培养;为育种企业和科研院所提供智能化育种建议,或为政府部门和相关机构提供基于种业 大数据 的政策建议。未来,“丰登”还会在大语言模型的条件上引入图像分析、多组学分析和决策育种能力,针对育种工作场景,进一步提高使用效率。
“丰登”的评测表现超越Claude 3、GPT-4和相关专业本科生。
种业领域的标准化人工评估评测显示,这个大模型在最佳答案个数和综合分数上的表现超出预期,超越了业界公认的高性能大模型Claude 3和GPT-4,其综合得分是相关专业本科生的4.87倍。
“丰登”的评测表现超越Claude 3、GPT-4和相关专业本科生。
目前, 隆平高科 、正大集团、中国科学院、中国农业科学院、上海农业科学院、 广东省 农业科学院、华中农业大学、华南农业大学、复旦大学等单位已加入“丰登”测试。它开放了水稻领域相关知识测试接口申请,邀约种业产学研机构试用并参与研发,感兴趣的机构和从业人员可联系dongnanqing@pjlab.org.cn。