近日,第二十一届中国计算语言学大会(CCL 2022)汉语学习者文本纠错评测落幕。本次测评共140多支队伍参赛,参赛队伍包括高校、科研院所以及相关领域的知名企业等。我院信息科学与技术学部知识工程研究中心郑海涛副教授带领的团队获“多参考多来源汉语学习者文本纠错”赛道冠军。团队成员包括计算机技术项目2022级硕士生叶劲亨、计算机科学与技术专业2020级博士生李映辉、计算机技术项目2021级硕士生马仕镕。
获奖证书
由我院知识工程研究中心自主研发的纠偏学习模型在本次测评中取得重要突破。团队从数据驱动的角度出发,发现多目标训练样本对语法纠错模型没有实质性的提升。团队提出了一种简单且高效的数据清洗策略,通过构建单目标数据集,不仅能使模型训练时间缩短大约50%,还能获得更好的纠错性能。在Seq2Edit和Seq2Seq模型上的实验结果表明,这一发现与模型结构无关。另一方面,团队通过基于规则的损坏方式构建了预训练语料库,显著提升了Seq2Edit模型的性能。最后,团队将两种模型进行集成,形成最后的参赛系统,最终在比赛的两个阶段均获第一名。
“多参考多来源汉语学习者文本纠错”(Multi-reference Multi-source Chinese Learner Text Correction,MuCGEC)赛段提供来自于三个不同文本源的中文学习者语法纠错评测数据,对于每一个句子,MuCGEC评测集提供多个标注质量高且参考答案多样的不同参考,有利于对纠错系统更全面、更真实地评估。
本次参赛作品“自动化文本纠错系统”是智慧教育的重要组成部分,将为智慧教研系统的文本错误检测提供技术支撑。相关成果可以进一步完善中文文本纠错的理论研究基础,推进智慧课堂和智慧考试测评系统的建设,促进在教育领域打造完整的人工智能产业链。
文:李映辉
编辑:林洲璐
审核:陈超群