2024年1月至4月,IEEE ICME 2024挑战赛—中文对话场景唇读比赛(ChatCLR)顺利举行,本实验室硕博士组成的研究生团队以第一名的好成绩荣获唤醒词唇读赛道一等奖。参赛团队成员包括2021级硕士生王浩旭、2024级硕士生李灿灿、2023级博士生苏菲。团队指导教师为刘娟教授和李明教授(昆山杜克大学教授,武汉大学兼职教授)。
唇读任务是通过唇部动作推断发音内容,是计算机视觉和自然语言处理交叉的领域,在日常生活的不同领域中发挥着重要作用。中文唇读任务的高度复杂性源于汉字数量庞大,以及汉字与相应唇部动作之间的复杂映射关系。ChatCLR比赛由中国科学技术大学发起,吸引了国内外学术界与工业界的多家队伍参加。ChatCLR比赛分为唤醒词唇读和目标说话人唇读两个赛道,旨在推动中文唇读任务的研究。实验室参赛团队为ChatCLR比赛开发的唤醒词唇读系统,以预训练前端和基于Transformer后端架构为基础,结合注意力池化和分类器,并引入多层特征聚合技术,获得了ChatCLR比赛唤醒词唇读赛道的第一名,团队比赛论文已被IEEE ICME 2024录用。