徐兢
创新产品研究主管
徐兢现就职于英国剑桥大学出版与考评院(Cambridge University Press & Assessment),担任创新产品研究主管(Head of Propositions Research)一职。他的研究兴趣是前沿技术(尤其是人工智能)在语言测评和学习中的应用以及相关的效度问题。他目前负责的研究项目主要集中于两个方面:(一)为英语写作和口语测评自动评分、(二)对智能对话系统的效度研究。他曾获2017年度杰奎琳罗丝最佳博士论文奖、2012年度国际语言测评协会最佳论文奖和2023年度国际语言测评协会最佳论文奖第二名。他和席小明博士目前担任自动语言测评专项兴趣小组的共同主席。他曾担任Language Assessment Quarterly期刊的编委会成员和英国应用语言学协会测评专项兴趣小组的财务委员一职。他在美国爱荷华州立大学获得应用语言学与技术专业的博士学位,主攻语言测评研究。
演讲主题
在语言测试中使用自动评分:对于最佳实践的一些关键考量

近年来随着机器学习技术的快速进步,自动评分在大规模语言测试中被更广泛使用。面对社会各界对高效率、高信度测试日益增长的需求,自动评分被视为一个充满潜力的解决方案。然而语言测试领域的部分专业人士对自动评分的效度仍持有质疑。这些质疑主要集中在构念代表性、评分准确性、评分系统的可解释性、评分系统对异常答题的处理以及使用自动评分对语言教学的反拨效应等方面。这些专家的一个共同观点是公众对自动评分系统局限性的认知不足可能导致对自动化测试成绩的错误解读以及对此类测试的不当使用。

基于探讨使用自动评分的机遇与风险,本演讲旨在提出关于在语言测试中使用自动评分技术的最佳实践原则,并展示这些原则在剑桥英语以沟通为本的英语能力测试中的具体应用。演讲将概述两项剑桥英语对自动评分系统的评估研究(一项针对口语测试、另一项针对写作测试)。这些研究采用了如 limits of agreement、weighting、earth mover's distance 等具有创新性的评估方法,以提高公众对自动评分系统评估复杂性的认知。此外,演讲将讨论人机混合评分的实践,即通过考官评分来降低自动评分的错误风险。论文呼吁测试开发者在自动评分研究中提高透明度,在评分系统的效度和信度研究中保持一致性,并提倡语言测试与机器学习领域的研究者和从业者之间紧密合作,以提升自动评分的可解释性。

会议日程
会议报名
查看直播