李鸿江 等:数字化转型视域下英语听说机考的创新与实践

来源: 中国考试 2023-05-21 16:55:52

原文刊载于《中国考试》2023年第5期第11—18页。


(资料图片仅供参考)

作 者

李鸿江,北京教育考试院副院长,研究员。

孙利君,北京教育考试院信息化处高级工程师(通信作者)。

摘 要:北京中、高考英语听说机考是顺应教育数字化转型、利用数字化赋能并驱动招考业务改革的创新实践。重点从组考流程、平台设计和实践应用3个方面阐述北京中、高考英语听说机考的改革与创新探索。机考平台在提升音频质量、确保评卷公正公平、强化安全保障和做好异常情况处理等方面进行了诸多有益尝试,有力推动了北京教育考试数字化改革进程。

关键词:数字化转型;英语听说机考;智能评分;实践应用

为有效支撑中、高考英语学科考试内容和考试形式的改革,北京市利用人工智能技术赋能英语听说考试,将二者深度融合,搭建了中、高考英语听说机考平台,为教育考试数字化转型奠定了坚实基础。北京中、高考英语听说机考改革研究始于2013年,2017年11月中、高考英语听说机考平台搭建完成。后经过5年累计20次的组考评分与社会检验,无论考试模式的合理性、支撑平台的稳定性,还是智能评分引擎评分结果的准确性等方面,均达到预期要求。针对中、高考英语学科听说内容的考试形式、考试内容与测评方法的变化,北京教育考试院坚持稳中求进的工作基调重构业务流程,既考虑舆论与社会承受力,也考虑教育教学的衔接与良性导向。新技术引进和平台设计强化数字赋能、全局统筹,既考虑整体业务流程,也兼顾技术实施的可行性。组考流程、平台设计和实践应用之间相互作用、相互影响:组考流程依托平台设计来支撑实现,同时需要在实践应用中进行检验;平台设计既要考虑到组考流程的要求,也需根据实践应用的反馈予以改进优化。本文聚焦北京市中、高考英语听说机考改革实践,重点从组考流程规划、平台设计以及实践应用3个方面展开论述。

1 英语听说机考的流程规划

北京市中、高考英语听说机考的组织实施流程包括考务组考和智能评卷两个方面。

1.1 考务组考流程设计

相较于传统纸笔考试,英语听说机考对考点、考场及计算机设备等有着不同的要求。为确保考试顺利组织,各个环节不出纰漏,考前还要对每个环节涉及的人员进行培训与考核,使其熟悉业务流程、提升组考的管理水平。  整体工作流程及工作内容包括考前、考中和考后3个阶段:考前包括试卷制作、人员培训、平台部署测试、环境检查、编排考场、光盘下发和考生现场培训等环节;考中包括考场环境检查、试题导入、考生信息确认、考生考试、数据备份、考场数据汇总上传等环节;考后包括考生考试数据汇总、加密锁回收、专家定标、模型训练、智能评分、人工评分、异常复审、数据统计及成绩发布等环节。各环节均有现场保障、系统维护和应急保障的支持。  为让每个考点的考务人员熟悉业务流程,每次考试前需要对所有考点系统管理员(每考场1人)进行系统部署和使用培训,对考务人员(每考点至少1人)进行考试组织流程培训。考前考生可以通过在线系统进行英语听说机考体验,考试当天通过讲解、PPT演示、动画视频播放等多种方式在候考室、备考室对考生进行考试流程和操作的现场培训。  2016年,北京市教委印发《关于做好中、高考英语听说计算机考试考点建设的通知》(京教办〔2016〕5号),对英语听说机考的考试环境提出明确的保障要求。同年,北京教育考试院制定并发布《北京市英语听说机考考点建设标准》,对新建标准化考场的计算机、耳麦以及卡座等设备的参数提出统一要求。此后,北京教育考试院每年会印发《关于做好北京市教育考试技术保障工作的通知》,要求考点系统管理员在考前两天和考试当天按照《英语听说机考考场环境准备流程表》对机房环境、监考机和考试机逐项进行检查,为英语听说机考提供电子巡查和视频会议保障支持。

1.2 智能评卷流程设计

智能评卷流程设计直接影响考生的成绩,对考试公平至关重要。智能评卷流程的设计取决于考试题型和评卷方式两个因素:考试题型是评卷的基础,决定评卷的标准,同时影响评卷方式的选择;评卷方式的选择直接决定智能评卷流程的设计。考试题型主要包括听后回答、听后记录、转述、朗读和读后回答。这些题型均经多轮专家论证、小规模试测和大样本测试,证明其适合机考模式。评卷方式的选择基于智能评分算法的准确性。由于基于无文本语音评测技术的智能评分系统已接近人工评分水平,能够满足评卷要求,因此目前北京采用“人工评分+智能评分+人工仲裁”即“一人加一机”的智能协助评卷方式。该评卷方式既大幅提升了评分的效率,又降低了人工评卷的成本,还可以通过质检抽查和仲裁机制来保证评分的准确性,提升了机考评分的科学性、专业性、客观性[1]。智能评分发挥作用的关键在于智能评分算法能够从定标集合的人工评卷结果中进行学习,从而掌握同专家一致的评卷标准。据此,将智能评卷流程设计为计算机预评卷、人工定标评卷、计算机智能评卷和人机协作评卷4个步骤,详见图1。

在介绍具体步骤前,先明确两个概念:定标集合与标杆卷。定标集合是由计算机通过特征分析筛选出的能覆盖不同得分等级全部典型特征的考生答卷。经由评卷教师评阅后,定标集合交付智能评分引擎供其学习并掌握评卷标准。标杆卷是由计算机通过特征分析筛选出的代表不同得分等级典型特征的考生答卷。评卷组组长会按照评卷标准对标杆卷进行评阅并给出理由,用于评卷教师的培训和考核。  步骤1:计算机预评卷。通过通用识别评分模型对本次考生答题语音自动评分,形成机评预评分并进行排序分档,然后基于机评预评分按照试卷、题目筛选标杆卷和定标集合。  步骤2:人工定标评卷。定标评卷员对定标集合进行评分,得到人工定标集合,即具有人工评分结果的定标集合。采用“双人评+组长仲裁”的评卷模式保证评分质量。  步骤3:计算机智能评卷。通用识别评分模型通过分析、学习和记忆人工定标集合,建立符合当次考试人工评分标准的专用识别评分模型,并利用此模型对全部考生答题语音进行自动评分,得到机评分。评分过程中还要进行异常检测,找出异常数据。  步骤4:人机协作评卷。对所有考生答题语音进行人工评分,得到人评分数。计算考生最终成绩时,对于非异常数据,采用“人工评分+智能评分+人工仲裁”的评卷模式;对于异常数据,则采用“双人评+组长仲裁”的评卷模式。

2 英语听说机考平台设计

北京市中、高考英语听说机考能够连续多年稳定、安全、高效地实施,得益于英语听说机考平台合理的框架设计、满足需求的系统功能,以及不断迭代和优化的程序。机考平台的设计基于科学合理的机考流程,遵循需求牵引、应用为王和服务至上的理念,开发遵循行业规范,融合不同时期的网络、数据库、加解密、人工智能、语音识别、语义表征等技术,支撑试卷制作、考务信息管理、考务人员管理、计算机现场考试、机器智能阅卷等全流程考试业务。北京市中、高考英语听说机考平台应用架构见图2。

平台应用架构由应用场景、业务流和数据流3个主要部分组成。应用场景有5个,分别是命题制卷、考务管理、教师监考、考生考试和阅卷与评价。业务流针对各场景中发生的业务活动分别给出具体的活动任务。下面重点介绍系统设计和所涉及的关键技术。

2.1 系统设计

北京市中、高考英语听说机考平台包括命题制卷、考试和阅卷与评价3个系统。  命题制卷系统通过将考试的试卷文字、图片、音频和视频资源进行录入,生成电子化试卷包。试卷包录入考试题目之后要进行完整性和正确性校验。  考试系统是考试平台的主体,其结构也最为复杂。考试系统用于完成考生在英语听说机考考场内的整个考试过程,包括考务、监考和施考3个子系统。考务子系统和监考子系统均部署于管理机上,而施考子系统部署于考试机上。考务子系统负责数据的对接管理,包含用户登录、考试计划管理、考生数据管理、试卷包管理、考试任务管理以及系统加密等功能;监考子系统负责每个考场的考试控制,包含设备检测、考试机管理、智能监考、考试流程控制、试卷解密分发、异常考生处理等功能;施考子系统负责考生现场考试管理,包含考生登录、人脸检测、设备检测、试卷下载、答题、过程身份认证、音质检测、答卷加密、答卷上传等功能。  在考试阶段,管理员通过监考子系统直接对所有施考子系统的状态实时监控,独立显示每个考生登录、试音及答题进度等状态,同时对试音异常、网络中断、耳机脱落、语音质量异常等情况给出不同提示。监考子系统可以对所负责的考试机进行一键锁定,在开考前避免考生做一些与考试无关的操作或者有意无意的破坏行为。系统还为考试中断无法正常完成考试的考生提供断点续考和重考功能:如本考场内有备用机,则可以一键切换完成断点续考;如无备用机可用,考生可选择参加下一场考试。施考子系统是考生直接接触的唯一界面,考生参加考试的整个流程均依托此子系统完成,它会友好地引导考生一步步完成考试,存储考生的答题选择和答题音频,实时加密上传到监考机。  阅卷与评价系统主要完成两方面的功能:一是人工评卷,包括角色管理、试卷管理、过程管理、评卷设置等;二是智能阅卷,包括数据准备与数据标注、定标运算、智能评分、异常处理、成绩发布等。

2.2 关键技术

北京市中、高考英语听说机考平台的实现,得益于自动语音识别、自然语言语义表征和音质检测等智能评分关键技术[2]的成熟与不断演进。其中,自动语音识别和自然语言语义表征两项技术是智能评分的核心,前者用于识别考生作答内容,后者用于语义分析,提取考生答题特征信息。音质检测技术用于考中、考后的考生答题录音音质检测环节,可以检出因录音音质问题导致的人工不可评分和机器不可评分数据,便于及时采取措施降低考试风险。这些关键技术在北京英语听说机考中已完成融合应用,促成了智能评卷的实现,大幅减少了评卷人员工作量,有效保障了考试评分的准确性,同时降低了机考风险。5年英语听说机考实践既验证了关键技术的应用效果,也促进了关键技术的发展和提升。2.2.1 语音识别技术利用基于注意力机制的编解码网络端到端语音识别技术[3],并采用半监督自适应技术[4]适配当次考试环境和考生答题内容,提升对当次考试的考生作答的语音识别性能。端到端语音识别是一种基于深度学习的自动语音识别技术,其目标是直接将输入的语音信号转换为文本输出,而无须使用传统的语音识别系统中的多个模块,如声学特征提取、语音识别和语言模型等,再结合半监督自适应技术进行模型优化,从而达到最佳的识别效果。北京英语听说机考考生音频数据的分析结果表明,端到端语音识别可大幅提升考生音频的语音识别准确率,降低关键词识别误触发的概率。以某次中考听后回答题为例,语音识别率从95%提升至98%,关键词识别误触发率则从10%降至5%。

2.2.2 语义表征技术

在基于语音识别准确率的基础上,依托海量规模数据预训练语言模型Bert[5]实现对所有可能正确回答的泛化语义表征,进而构建端到端的评分模型。该深度神经网络模型将输入数据转化为分数,而无须手动设计规则实现,比传统的机器学习模型具有更好的泛化性能和更高的准确率。对于具有录音短、正确回答语义空间受限、错误回答语义空间大、对错回答易于混淆等特点的听后回答题,该技术可显著提升该题型的评分准确率。以某次中考听后回答题为例,正确回答数据评分准确率由99.1%提升至99.6%,错误回答数据评分准确率则由82.5%提升至88.5%。2.2.3 音质检测技术口语考试过程中考生作答的录音质量与考生评分的准确性息息相关,如能在考试期间和评分时对异常录音样本及时发现和妥善处理,对于确保考生评分的准确性至关重要。采用端到端信噪比估计方案[6],通过对音频的采集和标注,可实现无须识别语音的边界而直接进行信噪比估计的效果。

3 英语听说机考实践应用

在实践应用中,北京市中、高考英语听说机考从多个方面进行了卓有成效的探索,如通过高效的音频检测技术提升音频质量,利用评卷质量保障机制确保评卷公正公平,通过软件安全性设计以强化安全保障,利用异常音频检测等手段完善应急保障机制等。

3.1 提升音频质量

在异常音频检测机制方面,北京市中、高考英语听说机考平台采取录音质量的自适应检测方法,对各类异常数据的检出率达到95%以上,为提升评分质量和考试公平提供了技术保障。导致截幅、信噪比低、降噪失真、音量低和无线路输入等录音异常的原因很多,主要包括硬件参数因素、软件设置因素和人为因素。对于试音、考中和考后的录音异常采用不同的检测原则:试音检测和考中检测的目标是检出人无法评分的数据,需具备较低重考率以保障考试有序进行,检测尺度较松;而考后检测在考中检测的基础上,目标是检出机器无法评分的数据,检测尺度比较严。对于考中发现的异常答题音频及时给予警示,提醒监考老师按照考务流程处理。考后的音频检测结果可用于发现听后回答中虽然存在语法、时态或者语义错误但评分偏高的异常评分数据,对于这些异常评分进行人工复评可以显著提升听后回答题型的整体评分准确率。  在录音质量保障机制方面,项目采用多种措施确保录音质量。首先,完成软硬件环境的统一检查和设置,确保耳机完好,并且声卡录音高级功能中的声卡自动降噪和自动增益控制功能被关闭;其次,在考试流程中增加耳机佩戴引导,引导考生正确佩戴耳机后,再进入试音环节;最后,分别在考前、考中和考后阶段增加音质检测环节。在试音检测环节,考生依据音质检测反馈的结果,调整作答音量和麦克风录音增益到合适值,通过后进入正式考试环节。考试答题过程的环境相对于试音环节的环境有所变化,在当场考试结束后对考生作答录音进行音质检测,筛选出人工无法评分的数据,安排学生进行重考。对于有机器辅助参与评分的题型,在所有考试数据汇总后进行考后检测,筛选出机器无法评分的数据,提交给人工评分。

3.2 确保评卷公正公平

通过人工评卷质量保障机制确保评分准确性。评卷员是人工评分的主体,为了使他们能够正确理解评卷标准,把握相同的宽严尺度,他们必须接受严格的培训,还必须顺利通过试评和考核,从而有效保障评卷质量。评卷员分为评卷组长、定标评卷员和普通评卷员3级:评卷组组长由英语教研组组长承担,具备丰富的评卷经验,负责讲解评卷标准,培训、考核和选拔定标评卷员和普通评卷员,对评卷标准拥有唯一解释权;定标评卷员从高校或者各区县学校的骨干英语教师队伍中遴选,要求英语听说能力强,语言基本功扎实,具备较丰富的评卷经验,评卷质量高,负责定标集合的评卷;普通评卷员由高校或者中学的英语教师队伍构成,具备一定的评卷经验,负责全体考生的人工评卷。在培训环节,评卷组组长依据标杆卷向评卷员讲解评卷标准。在试评环节,随机抽取一定数量考生答卷,所有评卷员同时进行评卷,评卷组组长可以查看本组全部评卷员对同一份试卷的打分情况,对评卷结果不一致情况进行原因分析,改进评卷员的评卷质量。通过以上程序确保定标集合人工评卷的准确性,从而保障计算机学习后评卷以及最终人机协作评卷的准确性。  通过人机评卷结果融合机制,减少了评分误差。对于考生答题音频数据,通过慎重评零分、设置三评、组长仲裁等一系列措施,建立起严谨的人机评卷结果融合机制,最大程度降低评分误差,保障评卷质量。对于每个题目,计算机智能评卷结果作为一评,人工评卷结果作为二评,最终成绩的确定过程是:当一评与二评中任意一个评次分数为零分时,直接进入组长仲裁。当一评与二评分差在设定的阈值范围内,取二者平均分。当一评与二评分差超出阈值范围时,则采取人工三评,三个评分结果两两比较——如果都不在阈值范围内,则直接由组长仲裁;如果均在阈值范围内,当两两分差相同时,则取较高的两评分均值作为最终得分,否则取差值小的两评分均值作为最终得分;如果只有其中一组两评分在阈值范围内,则取该两评分均值作为最终得分。

3.3 强化安全保障

为给考生提供一个公平安全的考试环境,北京市中、高考英语听说机考通过精细化考务管理流程,夯实机考平台网络、软硬件等基础环境,强化各技术细节的安全评估等多项措施,管理与技术并重,确保考生身份安全、考试数据安全和考试过程安全。首先,采用贯穿考试全过程的防作弊技术确保考生身份安全,利用多种生物特征识别技术支持考生在网上报名、考点报到、考试入场以及考试过程的生物特征采集和对比验证;其次,采用加密狗加密、登录密钥、授权码等技术手段保障登录平台安全,将试题拆分加密并通过考务专网分段、分时下发到各考场,利用7Z压缩加密、代码混淆和程序加壳等手段保证考试数据安全,在机考平台采用一卷一密、一人一密、专用压缩算法以及完善的数据库加密机制,确保在考前、考中、考后各个环节试题信息、考生基本信息和考试答题信息等都能安全存储和传输,做到数据不泄露、不被篡改;最后,结合人工智能技术和软件处理机制保证考试过程安全,通过自动检测技术实时发现并处理可能出现的软硬件异常,包括耳机接触不良、网络中断、系统功能异常、考生周边噪声及人为干扰等情况。另外,为了验证机考平台的安全性,检验其是否存在系统逆向破解、压缩包破解、暴力破解密钥、数据库文件破解、答题内容查看或被篡改等技术安全风险,还设计了两组攻击实验和场景进行验证研究测试[7]。结果显示,攻击测试实验在一周内均未完成破解,证明了英语听说机考平台的安全性很高。

3.4 做好异常情况处理

北京市中、高考英语听说机考通过提前制定相应的应急预案和建立异常数据筛选机制来应对异常情况。第一,提前制定相应的应急预案。对于发生的问题,按照及时处理和不出考区考点的原则制定方案和应急处置措施。机考过程中,可能影响考生考试成绩的异常情况主要包括耳机故障、平台软件故障和网络故障。针对可能出现的耳机故障,程序会实时检测耳机信号,一旦发生故障,会自动暂停该生考试流程;如果30秒内设备恢复正常,则自动续考,否则终止考试,安排重考。为应对平台软件故障,提前给各考点下发技术应急方案并进行技术培训、考核,实行考核合格上岗制度。为预防网络故障,程序会通过心跳机制检测考试机在线状态,即监考机周期性地向考试机发送信号,以检测其是否正常工作。只要已下载答题任务包,即使在断网状态下考生也可继续完成考试,待考试结束网络修复后自动完成断点续传;极端情况下无法在短时间内修复网络的,也可通过拷贝方式完成考生答卷信息的收集。第二,建立异常数据筛选机制。在考试和评卷过程中设定异常数据检测环节,将检测出的所有考生答题录音,全部采用人工评卷的方式予以判分。通过对异常数据的研究分析,发现异常数据类型包括录音音质异常、发音不清晰和特殊作答3个类别(两次考试3种异常数据的比例见表1)。其中,录音音质异常为最主要的异常数据类型,包括音量小、截幅、信噪比低:音量小可能是由于话筒朝向不对和距离太远,截幅可能是由于话筒过于贴近考生嘴部,信噪比低可能是由于话筒朝向不对。将发音不易辨识的归入发音不清晰,而诸如非英语作答(如说中文)、无关内容作答、无法理解的作答和不同考查维度之间评判结果差异大的作答等则归入特殊作答。每次考试均有一定数量的作答异常,对比分析发现,声音过低的考生音频,专家对其评分较低,而截幅和信噪比低对评分结果影响不大。及时发现和处理异常数据,有利于追根溯源并采取针对性措施,以提升考生作答质量和评分公平性。

4 未来展望

随着人工智能技术在教育行业中的应用不断深化,其越来越具有渗透性、扩展性和革命性。北京将人工智能技术与英语听说机考业务深度融合,创新构建了英语听说机考流程和平台,在提升音频质量、确保评卷公平、强化安全保障和异常情况处理等方面进行了深入探索。随着多模态融合辅助评测技术和双机评模式的落地应用,英语听说机考的评分效率和智能化水平将得到极大提高,同时也为其他大型语言考试(如英语四、六级口语考试等)提供技术借鉴与模式参考。  为提升机考中包含噪声的考生答题音频的识别率,可以引入多模态信息来进行语音识别。借用标准化考场的设备,利用考试机的前置摄像头记录考生在答题过程中的嘴唇动作、面部表情以及头部姿态等非言语行为形成视频信息,结合答题音频信息融合加工构成答题多模态数据,以提升语音识别的效果。研究发现,对考生答题音频数据进行多模态增强处理后,最终的语音识别结果有明显提升,可有效解决机考场景中人声混叠的问题。另外,利用多模态数据还可实现考生作答行为的检测,及时发现考生的异常动作行为,具体可采用基于考生体态特征的识别与基于视频上下文的识别两种模式。  随着智能评分引擎技术的成熟,“智能双评+人工仲裁”[8]的双机评模式将成为可能,目前北京教育考试院已邀请多家行业内公司共同开展双机评研究。课题组通过梳理单机评模式的具体流程,分析每个环节,按照定标集合的选取原则,将双机评智能评卷模式提炼为经验定标双机评智能评卷模式和初筛定标双机评智能评卷模式,并基于评分准确率和排序准确性两个指标分析双机评的可行性。对于待评分考生,评分准确率通过智能评分算法的评分结果偏离人工基准分的程度进行判断,排序准确性则通过智能评分算法评分结果和人工基准分排序的偏差大小进行判断。如果评分准确率或者排序准确性的偏差较大,则说明双机评的准确率不高,存在评分不公平的风险。北京教育考试院将根据研究结果确定是否在后续考试中开展双机评的试点与推广。

参考文献:

“《中国考试》杂志”

学习强国号

需要本期杂志可长按二维码识别购买

关键词:

你可能会喜欢: