近年来随着机器学习技术的快速进步,自动评分在大规模语言测试中被更广泛使用。面对社会各界对高效率、高信度测试日益增长的需求,自动评分被视为一个充满潜力的解决方案。然而语言测试领域的部分专业人士对自动评分的效度仍持有质疑。这些质疑主要集中在构念代表性、评分准确性、评分系统的可解释性、评分系统对异常答题的处理以及使用自动评分对语言教学的反拨效应等方面。这些专家的一个共同观点是公众对自动评分系统局限性的认知不足可能导致对自动化测试成绩的错误解读以及对此类测试的不当使用。
基于探讨使用自动评分的机遇与风险,本演讲旨在提出关于在语言测试中使用自动评分技术的最佳实践原则,并展示这些原则在剑桥英语以沟通为本的英语能力测试中的具体应用。演讲将概述两项剑桥英语对自动评分系统的评估研究(一项针对口语测试、另一项针对写作测试)。这些研究采用了如 limits of agreement、weighting、earth mover's distance 等具有创新性的评估方法,以提高公众对自动评分系统评估复杂性的认知。此外,演讲将讨论人机混合评分的实践,即通过考官评分来降低自动评分的错误风险。论文呼吁测试开发者在自动评分研究中提高透明度,在评分系统的效度和信度研究中保持一致性,并提倡语言测试与机器学习领域的研究者和从业者之间紧密合作,以提升自动评分的可解释性。