广州出现了一个数字化平台,它专门用来处理粤语数据,此平台正式亮相,这就为全球数量上亿的粤语使用者,在人工智能时代的声音留存以及应用,开启了全新的局面。
于12月6日,至12月7日,第十届语言服务高级论坛于广州大学召开,会议期间,一个名为AI-DimSum的多模态粤语语料库平台向公众发布,该平台由与广州大学相关的哲学社会科学重点实验室研发,粤语虽是汉语重要方言,且使用人口众多,然而在当前的互联网以及人工智能领域,可用的高质量数字资源却相对稀缺,这影响了相关技术对粤语的支持。
推出这一平台,恰是为了应对上边说到的那些挑战。广州大学的齐佳音教授表明,平台的搭建回应了“数字中文”建设的倡导,并且顾及到了粤港澳大湾区文化数字化的特定需求。它的研发依照了确立标准、确保数据来源明晰、最终达成服务可用的基本准则。
站在技术层面去看,AI - DimSum平台可不是那种单一的工具,而是一个有着多个部分共同进行工作的复杂系统,它涵盖了语料采集这一部分,还有标注部分,以及大模型对接部分,再加上确权检索部分,质量评估部分,管理部分以及应用商店部分,这总共是七个子系统,这些子系统共同组成了一个完整的工作链条。
该链条对数据处理的整个过程予以了覆盖,起始于最初收集各种各样粤语资料行动,接着历九游娱乐经数据清洗,以及人工或者智能标注,还要确认版权归属并构建检索系统等环节,随后把处理好的语料接入大模型用以开展训练,最终能够于应用商店当中发布基于这些语料所开发的实际程序,这样的模块化设计让平台的扩展以及维护变得更为灵活。
平台价值的根基在于,其集聚的庞大且多样的数据,在文本范畴,它已处理了超百万字语料,这些文字源自新闻报道、文学作品以及社交媒体帖子等诸多领域,保障了语言的鲜活性与覆盖面 。
语音数据积累同样是颇为可观的。平台开展了时长达到三千小时的高保真语音标注工作,此意味着一个人持续说线天。除此之外,还收纳了容量超过1TB的大众生活视频,当中含有大量自然对话场景,这为机器理解真实语境里的粤语供给了珍贵素材。
除了平常的文本以及语音之外,平台格外着重收录具备文化属性的多媒体内容。比如说,它涵盖了《功夫熊猫》,《小猪佩奇》,《哪吒》等诸多国内外较为知名的动画电影的粤语配音还有字幕版本。这些作品颇受不同年龄段观众的喜欢,语料具备很强的代表性。
在影视剧范畴之中、存在着这样一众、诸如《外来媳妇本地郎》、以及《溏心风暴》这般、属于经典或者热播类型的、粤语电视剧、它们也被尽数纳入到了其中。这些剧集、以生动的方式、反映出了粤港澳地区的、社会风貌以及日常生活情况、它们堪称为研究当代粤语使用习惯、还有文化内涵的、鲜活样本、对于AI理解方言文化语境而言、是至关重要的 。
为让AI更具贴近现实生活之感,这个平台特意打造了用于生活场景方面的语料集,它含有超过一万句涵盖各类日常情形的对话,像问路、购物以及餐饮等,每一句这类对话,都有与之相对应的音频和文字记录,这一部分数据能够有效起到训练人工智能去完成实际语音交互任务的作用。
当下,平台对内容安全予以高度重视,构建起专门的粤语安全语料库。该语料库存有将近七千条经由权威审核的核心词条,以及依据这些核心词条而延伸出来的三万条相关词条。并且,它筹备了数量超过二十万道的测试题目,借此能够从多个维度对粤语大模型所生成内容的安全性加以评估,以此避免其输出有害或者不当的信息。
AI - DimSum平台发布,这意味着粤语资源标准化、规模化建设踏出关键一步,它不只是个研究工具,更是面向应用的基础设施,未来,基于此平台,能开发出更精准的粤语语音识别、合成系统,更具智能的粤语聊天机器人,还有丰富的方言教育娱乐应用 。
对于保护语言多样性而言,特别是于数字浪潮里留存以及发展地方语言文化来讲,这具备着积极的示范意义。它使得粤语不再单单只是通过口耳进行传递的声音,而是摇身一变成为能够被计算机所理解、处理以及再创造的数字化资产,为粤语在未来的持续以及创新给予了新的可能性。
你对于人工智能怎样能够更加妥善地保护以及发展我们各个地方的方言文化,持有什么样的看法或者期待呢,欢迎在评论区分享你的观点。