商业热点 > 商业洞察 > 打造粤语语料库,让AI赋能广府文化

【人工智能】打造粤语语料库,让AI赋能广府文化

查看信息来源】   发布日期:12-16 1:30:17    文章分类:商业洞察   
专题:人工智能】 【大模型】 【语料库

  广府新语对话

  粤语作为汉语方言,是粤港澳地区、东南亚甚至全球华人的通行语言之一。如今,方言正在成为大语言模型应用探索的关键领域,建设多模态通用粤语语料库是广州的新使命。广州日报《理论周刊》邀约权威专家学者,聚焦粤语融合 人工智能 创新、为弘扬广府文化点燃新引擎,展开探讨。

  文/广州日报评论员杨博

  采访嘉宾

  荀恩东北京语言大学语言资源高精尖创新中心主任、语言智能研究院院长、教授

  齐佳音广州大学网络空间安全学院教授、粤语语料库建设与大模型评测重点实验室主任

  广州日报《理论周刊》:数字化浪潮汹涌,粤语面向世界流传有哪些槽点?

  荀恩东:方言所涉及的问题主要有四类。一是研究类的,好比研究方言的地域特点、历史变迁。二是应用类的,指借助信息技术、用方言过好语言生活,好比利用计算机合成方言的发音,或把方言转化为通用语言文字。三是保护类的,任何一种方言都代表一种文化、一种历史和一群人,但方言保护在世界范围内其实不乐观。粤语经广东人移民,在海外的发音和表意已和广府地区大不一样,需要通过采样,根据其真实的分布保护起来。四是展示类的,好比建立 线上线下 的语言博物馆,以供展示。

  在大语言模型时代,说方言的人将享受技术进步的成果。从应用方言的视角来看,利用大语言模型,能对方言进行语音合成、语音识别和翻译。方言的应用更多的是接口类的问题,也就是把方言从语音和文字层面转换为通用语言,这是当前的槽点。换言之,把方言转换为通用语言文字,大语言模型本身就能理解这种方言,并具备了通用语言的能力。另外,就合成而言,如果能利用计算机把普通话转换为方言,那么计算机就能以地道的方言发声。

  齐佳音:语言是文化的载体,高资源语言能够借助大语言模型(Large Language Models, LLMs, 以下简称“大模型”)的规模效应进一步强化其影响力,低资源语言却要面对大模型造成的一些负面效应。我国国家通用语言文字在互联网场域是高资源语言,可是我国各地的方言却是低资源语言。假如不提高方言在网络世界中资源的占有量和获取的便捷性,那么大模型的应用将对方言的生存构成空前绝后的要挟。

  粤语在全球范围内有着重要的影响力,已成为使用最广泛的汉语方言之一,全球有上亿人群在平淡日子里使用粤语,可是在网络世界中可供全球共享的专业化粤语数字资源库其实不丰富。“粤语语料库建设与大模型评测实验室”致力于服务 人工智能 应用的粤语语料库资源,这对广州加快实现老城市新活力、“四个出新出彩”,对保障国家或区域的语言文化安全,都具有十分重要的意义。

  广州日报《理论周刊》:法国作家雨果说:语言和太阳都不会停住的,到了语言固定的一天,它就死了。重点实验室作为底层基础设施,将如何为保护粤语“活化石”、解锁传统与现代融合的密码提供支撑?

  荀恩东:通过大语言模型,把寂静的、消亡或半消亡的方言激活,就能使世人知晓、了解这种方言,甚至可以让现代人与古人对话。好比,利用 人工智能 技术,复活失传的文字和语音,并赋予其解释,我们就能和古人对话。另外,利用 人工智能 技术保护方言,也有益于语言生活的多样化。虽然我们提倡使用通用语言文字去交流,但我们也提倡语言的多样化。活化、保护方言,可以增进使用方言的人群可持续地发展,这也有益于中华文明在语言生活方面实现多样化发展。好比,利用大语言模型,帮助不同方言人群的沟通。

  齐佳音:粤语语料库建设与大模型评测重点实验室将通过四个方面的研究,来为粤语文化插上AI的翅膀。一是粤语文化精神标识体系构建。这是整体研究的条件,旨在凝练粤语文化精神标识体系的核心要素,将粤语文化放在中华文化大环境下进行论证,构建中国文化的粤语文化标记系统。二是通用粤语语料库建设,为粤语的 人工智能 应用提供“数据之源”。广泛汇集全球粤语语料,尤其是对国家主流媒体沉淀的粤语数据资源进行语料加工,完成大规模通用粤语语料库建设。三是大模型粤语交互质量评测。这是在前两项研究基础上的应用研究,为所有拥有粤语服务的大模型提供交互质量评测。该平台也可以单独使用,为粤语的文本、图片和视频提供安全合规等方面的内容检测服务。四是大模型粤语言语交互质量提升,旨在基于评测结果,建立大模型粤语全生命周期的言语质量提升优化体系,最终形成一套全面的粤语AI生成内容质量评测及改善的对外服务系统。

  重点实验室将通过开放开源的模式形成良好的政产学研用生态,形成面向 人工智能 应用的粤语文化数据资源基础服务能力和面向 人工智能 粤语服务的内容安全合规评测能力,助力粤语数据化、资源化、服务化和产业化。

  广州日报《理论周刊》:今年6月,国内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型的发布,打破了单一模型识别特定单一方言的困境。那么,如何看待广州建设重点实验室、研发本地语言产品的重要意义?

  荀恩东:从政策制定、数据收集、应用开发、成果落地等方面来看,方言的起源地建立语料库具有多方面的优势。广州建设重点实验室、研发本地语言产品,不仅有政策支持,也有社会需求。在广州本地组织应用开发,有着丰富的场景。立足于粤港澳大湾区,广州面向华人华语世界来做这个事,对保护和传承好粤语、维护文明的多样性具有特殊的意义。

  齐佳音:当前,大模型多语言服务已成发展趋势,如ChatGPT、豆包等都已经支持一百多种语言的文字交互,尽管多数的语言交互品质还不尽如人意。其中的核心原因还是粤语语料库的质量和规模尚无法满足产业界的需求。

  广州专注于支撑粤语 人工智能 应用的粤语语料库建设,优势有三。一是得天独厚的粤语文化资源。依托 广州市 来建设重点实验室可以因地制宜,以最低的成本最大化用好粤语资源。二是强强联手的跨学科合作资源。三是高效配合的机制创新优势。譬如,采用双领导架构,由广州大学与 广州市 社会科学界联合会共建;设立由技术首席专家和语言首席专家担任指导的双首席专家制度。这些组织架构设置,有益于聚集各方资源,保障重点实验室建设。

手机扫码浏览该文章
 ● 相关商业动态
 ● 相关商业热点