摘要
面向高阶英语学习者的大学一年级学术英语(EAP)课程面临着突出的反馈鸿沟问题:过高的生师比导致教师难以提供及时且实质性的写作反馈。在此背景下,学生往往转向通用人工智能工具寻求帮助,但这类工具给出的反馈往往与课程评分标准脱节。雪上加霜的是,许多学生缺乏有效的自主审校能力,这最终阻碍了其学习进阶与写作能力的发展。针对上述问题,本文提出一种教学解决方案 —— 基于西浦人工智能平台开发的多智能体系统ArgueWell。该系统能够提供基于评分量表的精准反馈、针对性技能训练及修改过程追踪,为学生的自主审校搭建系统化支架。研究结论表明,以教学理论为支撑的多智能体人工智能系统,可有效辅助教师教学工作,缓解反馈鸿沟问题,并提升学生学术写作的自主性。
关键词
写作反馈;生成式人工智能;学术英语;议论文写作;自主调控学习;自动化写作评估
1.引言
及时且实质性的反馈是高效写作教学的核心要素,在学术英语教学语境中更是如此。然而,在大规模教学场景下,这一目标的实现面临巨大挑战。以西交利物浦大学为例,该校一年级高阶学术英语课程的学生,需在学期前半段完成每周一篇议论文段落或短文的写作任务,但受制于教学规模 —— 每位教师通常需指导 70-100 名学生,教师难以提供充足的反馈。这就形成了严重的反馈鸿沟:学生对高质量反馈的需求远超教师的供给能力。而议论文写作在课程考核中占比极高,这一现实进一步加剧了挑战的严峻性,也使得构建科学、有效的教学支持体系变得至关重要。
在缺乏足够教师反馈的情况下,越来越多的学生自发使用豆包、深度求索等通用生成式人工智能工具。这种主动求助的行为虽值得肯定,却也带来了新的问题。既有关于早期自动化写作评估系统和当代大语言模型的研究均表明,这类工具的反馈往往过于笼统,语言表达不符合学术语境规范,且与具体写作任务要求脱节(Mau & Feng, 2025)。其结果是,学生可能被与课程明确考核标准相悖的人工智能建议误导,这不仅会造成学生对评分标准的理解偏差,还会严重限制其有效修改作文、提升学术写作能力的空间。
与此同时,一批学习能力强、积极性高的学术英语学生渴望开展自主学习,但他们中的多数人缺乏对自身写作进行深度审校的程序性知识。有效的自主审校并非与生俱来的技能,而是一种需要元认知策略支撑的习得性能力(Ratnayake et al., 2024)。学生在自主审校时常常陷入困境,因为他们不知道如何系统拆解评分标准、如何客观地用标准衡量自己的习作,也不知道如何制定具体的修改计划(Andrade, 2010; Harris & Brown, 2018)。仅仅提供评分量表远远不够,若缺乏对自主评估步骤的显性教学与干预 —— 包括理解评分标准、诊断写作短板的根源、确定优先改进的方向等,学生的自主审校就只能停留在表面,且难以保证准确性(Al-Nafjan et al., 2025)。因此,当前亟待探索一种既能减轻教师工作量,又能为学生提供符合教学规律、贴合具体语境的可靠反馈,同时助力学生自主学习能力提升的解决方案。
2.文献综述
2.1 学术英语写作反馈的困境与自动化工具的潜力及风险
大班额写作教学中难以提供及时、详尽反馈的问题,已得到学界的广泛关注与充分论证(Blair, 2017; Shi, 2019; William, 2024)。在学术英语教学中,写作既是核心技能,也是主要考核方式,这一困境直接阻碍了学生的能力发展。教师背负着难以持续的工作负荷,导致反馈延迟或流于表面,无法支撑写作教学的迭代优化过程(Haughney et al., 2020)。正是这一现实背景,推动了自动化写作评估系统的发展与应用。早期的自动化写作评估系统,如 Criterion、MY Access!,凭借其基于规则的反馈机制,能针对语法、格式等表层语言特征提供即时反馈,展现出规模化应用的潜力(Du & Nordin, 2025; Saricaoglu & Bilki, 2021)。但这类系统也饱受诟病,其在评估论证质量、语篇连贯度、修辞效果等高阶写作要素时能力有限(Barrot, 2021),给出的反馈往往千篇一律、刻板僵化,且与具体写作任务要求脱节,教学应用价值大打折扣。
生成式人工智能与 GPT-4 等大语言模型的出现,重新点燃了学界对自动化写作反馈的研究热情。相较于早期自动化写作评估系统,这类工具生成的文本与反馈语言更流畅,且具备更强的语境感知能力(Lee & Moore, 2024)。然而,若缺乏精心的教学设计,其反馈内容很可能与教学目标脱节。这类工具可能过度关注语言流畅度,而忽视评分量表的具体要求与学术写作规范,不仅无法有效辅助学生学习,反而可能误导学生,固化其错误认知(Jovic et al., 2025; Irvin et al., 2021)。这一现状凸显了构建基于课程大纲与评估框架的教学型人工智能工具的必要性。对于议论文写作而言,这种贴合教学需求的特性尤为关键 —— 议论文写作的评估需要对逻辑推理、论据支撑、反驳论证及语篇连贯等维度进行精准判断(Hillocks, 2011)。
2.2 自主调控学习与自主审校能力的支架式培养
解决写作反馈困境的关键,不仅在于增加反馈的数量,更在于引导学生有效利用反馈,成长为具备自主写作能力的学习者。这正是自主调控学习理论的核心范畴 —— 学习者需主动监控并管理自身的认知与元认知过程(Zimmerman, 2002)。在写作领域,自主调控学习的核心要素是高效的自我评估与修改能力。然而,正如安德拉德(2010)及杨等人(2025)的系统性综述所指出的,学生 —— 尤其是评估知识储备不足的学生,往往不擅长自我评估,难以准确运用评分标准评判自己的写作(Andrade, 2010; Yang et al., 2025)。这一问题的根源并非缺少评分量表,而是缺乏自主评估的程序性知识,即 “如何做” 的实操能力(Panadero & Jonsson, 2013)。
有效的自主审校能力必须通过显性的支架式教学来培养。根据尼科尔与麦克法兰 - 迪克(2006)提出的形成性评估框架,优质反馈应助力学生成为自主调控学习者。这就要求反馈设计需实现三大目标:第一,帮助学生明确学习目标(如理解评分量表的具体要求);第二,引导学生对比自身表现与目标之间的差距;第三,指导学生采取行动缩小这一差距。这一过程并非单一的评价性评语所能实现,而是需要结构化的指导,将复杂的写作修改任务拆解为可操作的步骤。研究表明,当反馈具备以下特征时效果最佳:贴合具体写作任务、包含可落地的改进策略、并为学生提供练习与再评估的机会(Hattie & Timperley, 2007)。这种设计能够形成完整的反馈闭环,让学生直观看到修改带来的进步,进而增强写作自我效能感与元认知意识。
2.3 多智能体人工智能在教学型形成性反馈中的应用
近年来的研究表明,相较于传统的单智能体生成式模型,多智能体人工智能系统能够提升自动化反馈的针对性与教学适配性,使其更贴合学习目标。例如,AutoFeedback 系统(Guo et al., 2024)采用独立的智能体分别负责反馈生成与反馈验证,有效减少了过度表扬、主观臆断等问题。基于角色分工的多智能体系统(Zhang & Luo, 2025)则协同调度评估智能体、公平性审核智能体与元认知引导智能体,生成具备专业水准且符合教学规律的反馈内容,指导学生开展写作规划与修改工作。此外,多智能体系统能够通过搭建互动支架,帮助学生解读反馈、监控学习进度并高效修改作文,尤其能为基础薄弱的学习者提供差异化学习支持,促进其学习成效提升(Hao et al., 2026)。由此可见,多智能体人工智能技术能够有效弥合自动化反馈与教学指导之间的鸿沟,助力学生成长为具备自主调控能力的写作者。
3.研究方法
前文的文献综述清晰揭示了现实需求与技术应用的契合点。本部分将介绍自主研发的多智能体人工智能系统ArgueWell(访问链接:https://aiagent.xjtlu.edu.cn/product/llm/mall/application/d3vekc16i3uelisj4u0g/chat),该系统旨在解决引言部分提出的三大相互关联的挑战:反馈的及时性与规模化供给难题、通用人工智能工具的局限性,以及学生自主审校能力薄弱的问题。本研究方法阶段的核心目标,是构建一个以教学理论为基础的技术干预方案,并通过迭代优化不断完善其功能。
系统的研发过程围绕三大核心原则展开:(1)在系统架构中嵌入高质量的通用反馈框架;(2)确保所有反馈内容均与课程考核标准明确挂钩;(3)为学生搭建从接收反馈到独立完成修改、自我评估的完整学习支架。
3.1 系统架构与开发平台
ArgueWell 系统基于西浦AI智能体平台进行原型开发,该平台因其模块化的智能体架构、集成化的知识库功能与强大的工作流设计能力而被选中。借助这一平台,研究团队成功构建了一个序列化、任务导向的写作辅导系统,能够模拟专业写作导师的结构化指导过程。系统整合了三种功能各异的专业智能体 ——整体评估智能体、专项写作辅导智能体与修改效果评估智能体,每种智能体在学生的写作流程中承担着独特的角色。这种多智能体设计是针对单一、通用人工智能工具局限性的直接回应(Barrot, 2021),其目的在于避免反馈内容冗长杂乱,转而通过分阶段、结构化的方式,与学生开展递进式的学习对话。
3.2 知识库构建
系统教学有效性的核心基础,是其自主构建的专属知识库。为了彻底解决人工智能反馈 “与具体任务要求脱节” 的问题(Mau & Feng, 2025),该知识库的内容完全来源于 EAP047 课程的专属教学材料。知识库的核心构成是 EAP047 课程的分析性写作评分量表,研究团队将该量表拆解为四大核心维度:
· 任务完成度:涵盖字数要求、观点相关性、观点展开度及批判性推理能力;
· 篇章组织:包括段落结构、语篇衔接、过渡手法及整体逻辑脉络;
· 词汇运用:聚焦学术语体规范、词汇准确性及词汇多样性;
· 语法规范:涉及语法正确性、句式结构及语法运用的丰富性。
这种以评分量表为核心的构建思路,确保了智能体生成的每一条反馈都有据可依,从而使技术输出与课程学习目标及考核标准完全对齐。
3.3 智能体设计逻辑与教学依据
三种智能体按照固定顺序协同工作,遵循尼科尔与麦克法兰 - 迪克(2006)提出的形成性评估原则,为学生构建连贯的学习闭环。这一设计旨在针对性地培养学生目前欠缺的自主审校程序性知识(Andrade, 2010; Panadero & Jonsson, 2013)。每个智能体的交互流程均以一个问题或指令收尾,学生回复 “是” 或 “好的” 等肯定性答案,即可触发下一阶段的流程。例如,整体评估智能体的交互终点为:“是否需要根据写作评分细则文件,获取作文的总分及各项维度得分?” 学生若给出肯定答复,系统将输出基于四大评分维度的详细得分明细,随后进一步询问:“是否需要了解你的写作薄弱环节?” 若学生再次确认,系统将激活专项写作辅导智能体;当学生根据指导完成修改并上传新稿,且收到 “请上传修改后的作文,以便系统评估你的进步情况并生成详细报告” 的指令后,修改效果评估智能体将正式启动。
3.3.1 智能体 1:整体评估智能体
作为流程的首个智能体,其功能定位是模拟教师给出的初始整体性反馈,同时保证评估的一致性与即时性。核心任务是依据四大评分维度,对学生提交的作文进行全面评估(见图 1)。
该智能体生成的反馈内容,严格遵循基于实证研究整合而成的高质量反馈框架(Patchan et al., 2016; Wu & Schunn, 2021),确保反馈具备教学指导价值,而非单纯的纠错性评语。该框架明确要求反馈内容需包含以下五大要素:
· 情感激励要素:通过平衡的表扬肯定学生的写作优势,维持其学习积极性,区别于通用人工智能工具的机械性反馈语气;
· 内容概括要素:用简洁的语言总结作文的核心观点与论证思路,体现系统对学生写作成果的理解,增强学生的学习成就感;
· 问题定位要素:精准指出写作中存在的具体问题(例如:“你的第二段主题句过于宽泛”);
· 原因阐释要素:说明问题产生的影响,并明确关联评分标准(例如:“这一问题削弱了篇章组织维度的得分,因为宽泛的主题句会导致段落核心观点不明确,影响读者理解”);
· 改进指导要素:提供具体、可操作的修改建议(例如:“建议修改主题句,提出一个更具体、具有可辩性的论点,再围绕该论点展开段落论述”)。
图1 基于 EAP047 评分细则与反馈框架生成的智能体 1 反馈样例
此外,应学生要求,整体评估智能体还会输出作文的总分及各项维度得分,且每项得分都需对照评分细则给出明确的赋分依据(见图 2)。这种透明化的评分方式,能够帮助学生理解评分标准的具体内涵与应用方式,直接解决学生难以拆解、解读并运用评分标准的痛点(Andrade, 2010; Harris & Brown, 2018)。
图2 基于 EAP047 评分细则生成的智能体 1 分项得分样例
3.3.2 智能体 2:专项写作辅导智能体
在完成整体评估后,专项写作辅导智能体将解决学生可能面临的认知过载问题,并提供针对性的技能训练。该智能体不会罗列所有可改进的问题,而是基于整体评估智能体给出的分项得分,精准定位学生最薄弱的评分维度(见图 3)。这种聚焦式的设计是基于教学理论的选择,旨在促进学生开展深度学习。
图3 智能体 2 基于分项得分识别的写作薄弱维度样例
随后,该智能体将扮演写作辅导教师的角色,结合学生的原文,生成个性化的微型专题课程与练习任务(见图 4)。例如,若 “词汇运用” 被判定为薄弱环节,智能体会筛选出原文中包含非正式表达的句子,并向学生提出练习要求:“请将句中的非正式词汇或短语替换为更正式的学术表达”。尤为关键的是,智能体还会提供参考范例,供学生对比自查。练习任务的设计遵循布鲁姆教育目标分类学,按照从低阶到高阶思维能力的顺序递进,例如:先要求学生识别句中的错误,再引导学生修改有问题的句子,最后让学生基于所学知识创作新句。这种结构化的练习设计,能够引导学生主动参与针对性训练,逐步掌握诊断并解决自身写作问题的能力。
图4 智能体 2 基于学生原文生成的薄弱维度专项练习样例
3.3.3 智能体 3:修改效果评估智能体
作为整个系统流程的最后一环,修改效果评估智能体的核心功能是培养学生的元认知能力,完成反馈闭环。当学生结合前两个智能体的反馈完成作文修改并提交新稿后,该智能体不会进行简单的重复评分,而是开展新旧版本的对比分析(见图 5)。
智能体 3 生成的 “进步报告” 包含以下核心内容:
· 对比新旧版本在各评分维度的得分变化;
· 详细分析学生取得的进步,并从修改后的文本中提取实证依据;
· 指出仍需改进的薄弱环节,并提供进一步的建设性指导;
· 为学生制定后续持续提升的具体行动计划。
图5 智能体 3 生成的学生写作进步报告样例
这一功能对于培养学生制定修改计划、反思学习进展的能力至关重要(Nicol & Macfarlane-Dick, 2006)。通过将学生的进步可视化、具象化,修改效果评估智能体能够让学生直观看到修改工作的成效,从而增强其写作自我效能感,深化对自主审校价值的认知。
3.4 技术流程与支架式设计
学生使用 ArgueWell 系统的流程为线性、阶梯式的递进结构,具体步骤如下:
· 上传作文:学生提交自己的议论文习作;
· 整体评估:智能体 1 基于评分量表完成全面评估并反馈;
· 专项辅导:智能体 2 定位薄弱环节,提供针对性训练;
· 修改重投:学生整合反馈,完成作文修改并提交新稿;
· 效果评估:智能体 3 对比分析修改成效,生成进步报告。
3.5 多智能体系统的潜在挑战与应对策略
尽管多智能体系统能够提供支架式的个性化支持,但在应用过程中仍可能面临一些挑战。第一,智能体的评估结果可能与评分标准存在偏差,或对薄弱环节的判断出现失误,进而导致反馈误导。针对这一问题,可通过定期人工校准、在智能体之间设置多重验证机制来解决。第二,若系统连续推送过多的指令与任务,学生可能出现认知过载。对此,可采用自适应节奏设计,限制单次交互的任务数量,平衡学习效率与认知负荷。第三,学生可能过度依赖人工智能的指导,阻碍自主调控能力的发展。为规避这一风险,可在系统中嵌入反思性问题,并要求学生阐述自己的修改思路,以此强化其元认知参与度。通过科学的校准机制、自适应的任务设计及自主性培养支架,系统可在保持教学有效性的同时,将潜在风险降至最低。
4.结论
本研究开发的 ArgueWell 系统,为解决学术英语写作教学中的反馈规模化供给难题、通用人工智能工具的不可靠性,以及学生自主审校能力薄弱等关键挑战,提供了切实可行的解决方案。该系统通过构建结构化的多智能体流程,提供基于评分标准的精准反馈、针对性技能训练及修改过程追踪,有效弥合了教学中的反馈鸿沟。尤为重要的是,系统为学生的自主审校元认知过程搭建了系统化支架,助力其成长为具备自主写作能力的学习者。本研究证实,以教学理论为指导的人工智能工具,若定位为教师教学的 “增效器” 而非 “替代品”,将能够构建更具可持续性与实效性的学习生态,在提升学生写作能力的同时,培养其关键的自主调控学习技能。未来的研究将聚焦于开展纵向跟踪研究,量化评估该系统的长期教学影响。
参考文献
Andrade, H. L. (2010). Students as the definitive source of formative assessment: Academic self-assessment and the self-regulation of learning. In Handbook of Formative Assessment (pp. 90–105).
Al-Nafjan, E., Alhawsawi, S., & Abu Dujayn, A. N. (2025). Exploring self-assessment in EFL academic writing: A study of undergraduate Saudi students utilizing a rubric. Language Testing in Asia, 15, 62. https://doi.org/10.1186/s40468-025-00397-2
Blair, A. (2017). Understanding first-year students’ transition to university: A pilot study with implications for student engagement, assessment, and feedback. Politics, 37(2), 215–228. https://doi.org/10.1177/0263395716633904
Du, J., & Nordin, N. R. binti M. (2025). A systematic review of Automated Writing Evaluation (AWE) systems on university students’ English writing performance. Forum for Linguistic Studies, 7(11), 615–. https://doi.org/10.30564/fls.v7i11.11764
Guo, S., Latif, E., Zhou, Y., Huang, X., & Zhai, X. (2024). Using generative AI and multi-agents to provide automatic feedback. arXiv. https://arxiv.org/abs/2411.07407
Hao, Z., Cao, J., Li, R., Yu, J., Liu, Z., & Zhang, Y. (2026). Mapping student-AI interaction dynamics in multi-agent learning environments: Supporting personalized learning and reducing performance gaps. Computers & Education, 241, 105472. https://doi.org/10.1016/j.compedu.2025.105472
Harris, L. R., & Brown, G. T. (2018). Using self-assessment to improve student learning. Routledge.
Hillocks, G. (2011). Teaching argument writing, grades 6–12. Heinemann.
Irvin, M. K., Asaba, M., Stegall, J., Frank, M., & Gweon, H. (2021). “This one’s great! That one’s okay.”: Investigating the role of selective vs. indiscriminate praise on children’s learning behaviors. The Undergraduate Research Journal of Psychology at UCLA, 8, 50–82.
Jovic, M., Papakonstantinidis, S., & Kirkpatrick, R. (2025). From red ink to algorithms: Investigating the use of large language models in academic writing feedback. Language Testing in Asia, 15, 59. https://doi.org/10.1186/s40468-025-00389-2
Lee, S. S., & Moore, R. L. (2024). Harnessing generative AI (GenAI) for automated feedback in higher education: A systematic review. Online Learning, 28(3), 82–104. https://doi.org/10.24059/olj.v28i3.4593
Mau, B.-R., & Feng, H.-H. (2025). Integrating move analysis and sentence reconstruction in automated writing evaluation for L2 academic writers. Assessing Writing, 66, 100984. https://doi.org/10.1016/j.asw.2025.100984
Nicol, D. J., & Macfarlane-Dick, D. (2006). Formative assessment and self-regulated learning: A model and seven principles of good feedback practice. Studies in Higher Education, 31(2), 199–218. https://doi.org/10.1080/03075070600572090
Panadero, E., Jonsson, A., & Strijbos, J. W. (2016). Scaffolding self-regulated learning through self-assessment and peer assessment: Guidelines for classroom implementation. In D. Laveault & L. Allal (Eds.), Assessment for Learning: Meeting the Challenge of Implementation (pp. 311–326). Springer International Publishing. https://doi.org/10.1007/978-3-319-39211-0_18
Patchan, M. M., Schunn, C. D., & Correnti, R. J. (2016). The nature of feedback: How peer feedback features affect students' implementation rate and quality of revisions. Journal of Educational Psychology, 108(8), 1098–1120. https://doi.org/10.1037/edu0000103
Ratnayake, A., Bansal, A., Wong, N., Saseetharan, T., Prompiengchai, S., Jenne, A., Thiagavel, J., & Ashok, A. (2024). All “wrapped” up in reflection: Supporting metacognitive awareness to promote students' self-regulated learning. Journal of Microbiology and Biology Education, 24(1), e00103-23. https://doi.org/10.1128/jmbe.00103-23
Shi, M. (2019). The effects of class size and instructional technology on student learning performance. The International Journal of Management Education, 17(1), 130–138. https://doi.org/10.1016/j.ijme.2019.01.004
Williams, A. (2024). Delivering effective student feedback in higher education: An evaluation of the challenges and best practice. International Journal of Research in Education and Science (IJRES), 10(2), 473–501. https://doi.org/10.46328/ijres.3404
Wu, Y., & Schunn, C. D. (2021). From plans to actions: A process model for why feedback features influence feedback implementation. Instructional Science, 49(3), 365–394. https://doi.org/10.1007/s11251-021-09546-5
Yang, M., Yan, Z., Yang, L., & Zhan, Y. (2025). Using self-assessment to develop student assessment literacy. In Understanding and Developing Student Assessment Literacy (Springer Briefs in Education). Springer, Singapore. https://doi.org/10.1007/978-981-97-9484-3_3
Zhang, C., & Luo, X. (2025). Scaling equitable reflection assessment in education via large language models and role-based feedback agents. arXiv. https://arxiv.org/abs/2511.11772