人工智能驱动的学业适应力:通过提示工程化的大语言模型提高 EAP 重修生的自主学习能力

摘要
 

本研究调查了在基于 Moodle 的学术英语(EAP)课程中整合人工智能驱动的智能体的情况,以解决重修生面临的多重挑战,例如自主学习、参与和动机方面的不足。智能体利用提示工程大语言模型(LLM),提供个性化指导和 SMART 目标设定支持,以满足学习者的个人需求。西交利物浦大学(XJTLU)六名学生的案例研究表明,他们在目标设定频率、元认知策略和自主学习参与度方面都有显著提高。干预后的结果显示,参与者自主学习时间增加了 175%,并且一致采用人工智能工具进行学业自我评估。研究结果强调了人工智能驱动的干预措施在促进学习自主性和参与度方面的作用,并为教育工作者和开发人员利用AI技术为高危学生群体提供个性化学习支持提供了可操作的见解。
 
 
关键词:人工智能驱动,学术英语(EAP) ,自主学习

导言

学术英语(EAP)课程对于培养学生在高等教育中取得成功所需的语言和分析技能至关重要。然而,由于之前的学业困难而重修这些课程的学生往往面临着多重困难,包括自主学习能力不足、参与度低和学习动机减弱等。传统的教学干预往往无法满足这些学生的个性化需求,尤其是在培养自主性和持续参与方面。

本研究在西交利物浦大学(XJTLU)Moodle学习平台的EAP045 课程中引入了AI智能体,通过促进自主学习与提供个性化指导,助力重修的学生完成学业需求。虽然之前的研究已经探讨了人工智能对教育的广泛影响,但本研究侧重于此类系统的实际实施,强调了使人工智能体的培训过程,来促使智能体产出更符合教学目标的回答。通过详细阐述技术和教学方面的关键考量,本研究为教育工作者和开发者如何利用人工智能提供针对性学术支持提供了可落地的实施框架。
 
 
 
文献综述

教育背景下的人工智能
 

近三十年来,人工智能与教育的融合(AIEd)始终是研究热点,其潜力在于彻底革新个性化学习模式并提升教学效率。越来越多的证据表明,人工智能能够通过自适应、数据驱动的干预措施提高教育成果。例如,在语言教育中,以人工智能为工具的系统在提高学习成绩、学习动机和自我调节学习行为方面表现出了巨大的潜力。Wei 等人(2022 年)强调,人工智能工具可以分析学习者数据,生成个性化反馈并动态调整教学内容,进而提高学生的参与度和自主性。此类系统在满足学习者的不同需求方面尤为有效,这在学术英语(EAP)等基础课程中是一个关键优势,因为学生在入学时往往具有不同的水平和学习偏好。

然而,AIEd 的成功取决于它是否符合既定的教学原则。Zawacki-Richter 等人(2019 年)强调,人工智能驱动的干预措施必须明确立足于教育理论,以避免成为单纯的技术创新。他们的综合综述指出,个性化和知识检索是两个关键的策略,当它们被整合到人工智能系统中时,可以提高学习效率。正如 Kirschner 和 Hendrick(2020 年)所阐述的那样,个性化依赖于对学习者特定数据的系统收集和分析,以定制教学。在本研究中,个性化是通过反思性写作任务来实现的:学生提交 200 字左右的反思,阐述他们在语言学习中遇到的挑战和愿望,然后由人工智能代理处理,生成个性化的 SMART 目标。这些目标引导学习者根据自己的独特需求开展有针对性的活动,将抽象的愿望转化为可操作的步骤。

知识检索是有效教学法的另一个基石,它进一步强化了这一框架。检索练习被定义为从记忆中主动回忆信息,而不是被动复习,它能增强长期记忆,加深概念理解,促进知识向新情境的迁移(Karpicke & Aue, 2015; Pan & Rickard, 2018)。从语言习得到 STEM 教育等各学科的实证研究都证实了其优于传统学习方法(Roediger & Butler, 2011)。在本项目中,检索练习被嵌入到智能体的任务建议中。例如,在后续练习中,系统可能会提示学生从记忆中重建关键词汇,或在新的写作任务中应用以前学过的语法结构。通过将检索练习与个性化目标设定相结合,智能体确保学习者不仅能应对眼前的挑战,还能通过积极参与巩固基础知识。
 
 
强化学习与大型语言模型

人工智能系统设计有两种主流模式:强化学习(RL)和大型语言模型(LLM)。强化学习通过试错互动训练智能体优化决策,适用于动态、连续的环境,如基于游戏的学习或机器人领域(Ghamati 等人,2024 年)。相反,LLMs 擅长自然语言的理解和生成,能够进行细致入微的交流,并根据上下文做出反应(Zaraki 等人,2020)。对于需要以对话为基础的指导和个性化反馈的教育环境而言,由于其语言多样性和处理非结构化输入的能力,LLMs 具有明显的优势。  

然而,LLMs 也有其局限性。由于离线(静态)可能与不断变化的现实世界条件不匹配,因此当在静态数据集上训练的代理无法适应新环境时,就会出现挑战(Rannen-Triki 等人,2024 年)。为了解决这个问题,我们需要不断审查学习者的学习反思输入,相应地修改提示和数据集,以确保智能体能根据他们当前的学习水平提供相关的目标。
 

通过提示优化实现 LLM 个性化

为使 LLM 适应特定的教育任务,提示优化已成为一项关键技术。该方法通过结构化提示词来优化 GPT-3.5 等预训练模型,使其输出结果与用户需求相一致(Brown 等人,2020 年)。埃金(Ekin,2023 年)提出了提示词优化方面的关键原则,强调清晰性、上下文相关性和迭代改进。本研究采用了 Ekin(2023 年)的五项策略:  

1.    清晰而具体的指示:提示明确定义了人工智能的角色(如 "充当学术写作导师"),并优先考虑可操作的反馈,而不是一般的建议。

2.    明确限制:输出内容受格式(例如,项目式目标)、长度(例如,3-5 个目标)和范围(例如,重点关注语法或论文发展)的限制。

3.    背景和示例:提示包含匿名的学生反思和范例回答,以真实的学习经历作为输出的基础。

4.    利用系统 1 和系统 2 问题:人工智能平衡了直观、快速反应的提示(系统 1,如 "找出这个句子中的两个语法错误")和分析、反思驱动的任务(系统 2,如 "针对薄弱的论文陈述提出修改策略")。

5.    控制输出词义:根据学习者的水平调整回答,避免过多的细节让新手不知所措,同时为水平较高的学生提供足够的深度。
本研究将Ekin(2023 年)的框架与 EAP045 学习者的独特需求相结合,展示了提示优化如何将通用的 LLM 转化为量身定制的学术指导工具。随后的章节将详细介绍人工智能代理的开发、培训过程以及与 Moodle 平台的整合,为类似的教育环境提供可复制的蓝图。
 

研究方法
 
 
研究设计

本研究采用案例研究的方法,重点关注在 EAP045 课程中整合智能体。研究设计强调人工智能在教育中的实际应用,特别是使智能体符合学习者需求所需的培训过程。研究包括两个主要阶段:(1) 培训智能体;(2) 对学生进行试点研究。培训阶段包括设计提示和知识库、测试和完善提示,以及确保智能体能够有效地回答学生的具体问题。试点研究阶段包括邀请学生使用智能体,收集用户体验数据,分析智能体在促进自主学习方面的有效性。
 

训练智能体
 
根据 Ekin(2023 年)的框架和 EAP045 学习者的独特需求,研究人员设计了提示,以指导智能体提供个性化的学术支持。智能体的训练过程以提示优化原则为指导,这些原则强调了清晰的指令、明确的约束条件和情境示例的重要性。下面将详细介绍训练智能体的综合步骤:
 
 

步骤 1:知识库整合

培训从整合综合知识库开始。这包括整理和上传特定课程的材料,如《西交利物浦大学 EAP 阅读手册》、教案和在线材料,以及包括知识检索和自我调节学习策略在内的教学理论(见图1)。为确保智能体能基于课程内容提出有效建议,我们对资源进行了细致的数据标记,包括关键词、主题和难度级别。此外,每个资源都与特定的学习目标相对应。例如,第 6 单元侧重于略读技巧,与提高阅读理解能力的课程目标相关联,而第 7 周的论文写作课则与学术写作能力相关联。这种情境基础确保了智能体的建议不仅具有相关性,而且与课程的学术目标相一致。
 
 
图1
 
 
 
步骤 2:设计个性化反馈提示
 

随后,我们设计了提示词来促进个性化反馈。这些提示旨在体现学术导师的角色,例如 "充当学术导师。分析下面学生的反思。利用知识库中的资源,找出一个关键挑战并提出一个 SMART 目标"(见图 2)。为了保持清晰度和相关性,我们加入了明确的限制条件。智能体被要求将其回答格式化为 3 至 5 个项目的要点目标,并将建议与具体的课程材料联系起来。例如,提示包括动态参考格式,如 "对于[挑战],推荐[单元/周]中的[活动],并将其与[策略]联系起来"(见图 3)。 此外,还建立了基于规则的触发器。如果学生的反思中提到 "语法错误",智能体就会参考第五周的语法讲习班。同样,如果学生提到 "阅读速度慢",智能体就会推荐第六单元的 "略读技巧"。这种结构化的方法确保了智能体的反馈既具有可操作性,又符合具体情况。
 
 
 
 
 
图2
 
 
 
 
 
图3
 
 
 
步骤 3:实例驱动培训

通过实例驱动训练,进一步丰富了训练过程。带注释的学生反思和相应的模型响应被整合到提示中。例如,如果学生输入 "我很难识别学术文章中的主要观点",智能体就会作出回应:"尝试第 6 单元中的略读练习,重点放在主题句上。将其与第 3 周的'突出关键词'策略搭配使用"。这种方法可以让智能体从具体的例子中学习,从而提高其回答的准确性和相关性(见图 4)。
 
 
 
图4
 
 
 
步骤 4:测试和迭代

初始设置完成后,接下来是严格的测试和迭代。我们模拟了学生的思考样本,以评估智能体的性能。例如,当输入 "我需要提高我的学术阅读能力。你能帮我设定一个周目标吗?"智能体会生成如下回复:"当然可以!根据阅读手册,SMART 目标可以是我将每天使用第 1 单元的材料练习 30 分钟的略读和扫描技巧,旨在提高我的阅读速度和理解能力。这听起来怎么样?你想调整这个目标的任何部分吗?(见图 5)。研究人员仔细评估了这些回答的清晰度、相关性和有效性。根据评估结果,对提示语进行了反复改进。在保留具体性和可衡量性的同时,简化了语言,以便更好地理解。例如,提示语被调整为 "根据阅读手册第 6 单元,一个好的目标是:'我将每天练习 20 分钟的略读技巧,重点是识别主要观点。我的目标是在本周末之前提高对学术文章的理解能力"。这一改进确保了智能体的指导与学生的实际学习需求产生共鸣。此外,智能体的回复反馈也被纳入其中,以进一步优化提示,使智能体能够提供更精确和个性化的支持(见图 6 和 7)。
 
 
 
图5
 
 
 
图6
 
 
 
 
图7
 
 
 
步骤 5:持续适应
 

最后,研究者制定了持续适应的规定。知识库被设计为可根据新资源(如词汇表)进行更新,并对提示进行重新培训,以反映这些变化。利用学生的反馈来加强有效的情境链接。例如,如果学生对第六单元的提示做出了积极回应,智能体就会在今后的互动中继续引用这一单元(见图 8 和图 9)。这种持续的调整确保智能体能够响应学生不断变化的学习需求。
 
 
图8
 
 
 
图9
 
 
试点研究

在完成对人工智能代理的培训后,我们进行了一项试点研究,以评估其在促进学生自主学习方面的有效性。试点研究包括以下步骤:
 

参与者招募

选择标准:研究人员邀请了七名就读于西交利物浦大学 EAP045 课程的一年级学生参与试点研究。研究人员根据学生的学习成绩和自我报告的学习需求来选择参与者,以确保样本的多样性,提高研究的代表性。

招募过程:研究人员通过电子邮件与潜在参与者沟通,介绍研究的目的和过程。有兴趣的学生被要求填写一份简短的调查问卷,以确认他们是否愿意参与,并提供有关其学习背景和挑战的基本信息。最终,七名学生被选中参与试点研究,一位学生中途退出。  
 

智能体的使用和互动

使用说明:研究人员向参与者提供了关于如何使用智能体的详细说明,包括通过 Moodle 平台访问代理、提交问题、 和解释智能体的回答。研究人员鼓励参与者使用智能体设定每周学业目标,反思目标达成情况,并根据需要调整学习计划。
互动过程:在为期两周的试点研究期间,参与者每天都与智能体互动。例如,参与者可能会输入:"我上周没有达到阅读目标。我该怎么办?智能体会回答:"你没有达到目标没关系。让我们一起调整目标。根据你的进步,修订后的 SMART 目标可以是'我将每天练习略读 20 分钟,并专注于识别主要观点,争取在下周之前将我的理解能力明显提高。我相信你可以做到!你觉得这个新目标怎么样?"通过这样的互动,智能体为参与者提供了个性化的指导和支持,帮助他们提高自主学习能力。
 

反思会议

会议安排:在为期两周的试点研究结束后,研究人员组织参与者进行了一次小组反思会议,学生们在会上分享了他们使用智能体的经验和反馈。

讨论主题:在反思会上,研究人员引导参与者反思他们与智能体的互动,重点讨论智能体在帮助他们设定和实现学业目标方面的效果、所提供指导的质量以及智能体对他们学习习惯的影响等话题。研究人员记录了参与者的反馈,以便深入了解智能体的优势和不足(见图片 10)。
 
 
 
 

数据收集


为了全面评估智能体的有效性,研究人员通过前后调查收集了用户体验数据。调查包含 10 个项目,涉及智能体的可用性、回复的相关性和实用性以及对学生自主学习能力的影响等方面。问卷采用李克特量表,从 1 分(非常不同意)到 5 分(非常同意)不等,便于参与者对智能体的满意度进行量化评估。 

 


数据分析


研究人员对收集到的数据进行了定量分析。研究人员计算了平均值和标准差等描述性统计数据,以评估参与者对智能体的总体满意度。研究人员还进行了项目分析,以确定智能体表现良好或需要改进的具体方面。
数据与讨论 


本案例研究招募了 6 名来自 EAP045 的参与者,让他们接受人工智能学习平台的干预。为了了解学生在元认知策略、时间管理和控制以及自学行动等方面对自主学习行为的看法,我们进行了前后调查。干预前,多数参与者(5 人)表示他们很少或从不设定具体的学习目标,仅 2 人表示偶尔会设定目标。目标制定对学生来说是一项重要的学习过程,尤其是那些需要提高学习成绩的重修生。对目标设定行为的研究表明,它在阅读、写作和外语学习等一系列学术领域都能有效地帮助学生(Schunk & Rice, 1989; 1991; Schunk & Swartz, 1993; Moeller, Theiler, & Wu, 2012)。它不仅支持学术科目,还被证明支持自我调节学习,提高学生的内在动力(Ames & Archer, 1988; Pajares, Britner & Valiant, 2000; Murayama & Elliott, 2009)。 

 

干预后的调查结果显示,人工智能嵌入式学习平台干预措施使学生对目标设定的反应发生了显著变化,大多数学生(人数=5)表示,他们的目标设定行为现在更加频繁,只有一名学生偶尔会进行目标设定。这些结果支持继续使用这一干预措施。

 

另一个值得注意的变化是,参与者自我报告说,他们在继续学习之前评估自己对主题理解的频率有所提高。这指的是反思和检查理解等元认知策略,要求学生更加了解自己的学习进度。干预前,所有参与者(6 人)都表示他们很少进行这种元认知练习。干预后,情况有了明显改善:大多数参与者(人数=4)表示经常进行评价,一名参与者表示持续进行这种练习,另一名参与者表示偶尔进行评价。这一变化表明,研究参与者的元认知意识和自我调节能力均得到显著提升。

 

 

问题 调查前平均值 调查后平均值 
在继续学习之前,您多久会评估一下自己对某个主题的理解  1-很少到 4-经常 1(0.00 SD)   3.5 (0.836 SD) 

 

 

为了提高学生的自主学习能力,帮助他们监控自己的学习情况,我们在学习平台中嵌入了一个名为 "Smart Agent "的人工智能聊天机器人。聊天机器人可以帮助学生总结或分解材料,并帮助他们设定目标。调查显示,所有参与者(n=6)都表示使用了人工智能聊天机器人来评估他们对课程材料的理解。这种一致采用的情况表明,研究对象的人工智能素养有了显著提高。将人工智能工具整合到学生的学习过程中,不仅表明学生对此类技术的使用更加得心应手,而且还表明了利用人工智能进行学业自我评估的方法。 

 

在任务管理和控制方面,对自我报告数据的分析表明,参与者的自主学习参与度大幅提高。自主学习活动的平均时长从每周 4 小时的基线上升到干预后的每周 11 小时。这意味着自主学习时间增加了 175%,表明参与者对自主学习实践的投入有了显著提高。

 

调查的最后一部分涉及自学行动,要求学生用 1(非常不同意)到 5(非常同意)的量表对陈述做出回答。对于 "我会完成在线学习材料和任务 "这一陈述,参与者的回答有了明显的变化。干预前,大多数参与者(5 人,83.3%)选择了 "不同意",一名参与者(16.7%)选择了 "中立"(Mdn = 2,IQR = 0)。干预后,出现了明显的积极变化:四名参与者(66.7%)选择了 "同意",两名参与者 (33.3%)选择了 "强烈 同意"(Mdn = 4,IQR = 1)。这一转变表明,参与者完成在线学习任务的意愿显著增强,100% 的受访者表示同意或非常同意这一说法。

 

 

问题 调查前平均值  调查后平均值 
我会完成在线学习材料和任务   1.33 (0.816 SD)     4.33 (0.516 SD) 

 

 

根据我们的研究结果,人工智能驱动的学习平台显然对培养学生的自主学习行为大有裨益。这种干预措施有可能为所有EAP学生提供支持。考虑到西交利物浦大学作为一所中外合作大学,许多学生在适应其学术环境时面临挑战。通过采用这些方法,我们可以对学生的学业成功产生重大影响。

 

 

结论


在EAP045课程中实施人工智能驱动的智能体,凸显了LLMs在应对重修生独特挑战方面的变革潜力。通过将提示工程与教学原则(如检索练习和个性化目标设定)相结合,智能体显著提升了参与者的自主学习行为。干预后的数据显示,参与者在目标设定一致性、元认知反思和自主学习时间方面都有了大幅提高,这与有关自我调节学习和人工智能中介教育的既有理论不谋而合。尽管本研究的样本数量有限,但其结果为那些寻求为过渡性学术环境中的学生提供支持的机构提供了一个可复制的框架。未来的研究应扩大可扩展性测试范围,检查长期行为保持情况,并探索类似人工智能工具的跨学科应用。本研究为人工智能在教育领域的应用提供了助力,强调人工智能的作用不是取代人类教学,而是作为一种补充工具,提升学习者的能力,打破学业成绩不佳的循环。

 

 

 

 

 

 

References 


Ames, C., & Archer, J. (1988). Achievement goals in the classroom: Students' learning strategies and motivation processes. Journal of educational psychology, 80(3), 260.


Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.


Ekin, S. (2023). Prompt engineering for ChatGPT: a quick guide to techniques, tips, and best practices. Authorea Preprints.


Ghamati, K., Zaraki, A., & Amirabdollahian, F. (2024, November). ARI humanoid robot imitates human gaze behaviour using reinforcement learning in real-world environments. In 2024 IEEE-RAS 23rd International Conference on Humanoid Robots (Humanoids) (pp. 653-660). IEEE.


Karpicke, J., & Aue, W. (2015). The testing effect is alive and well with complex materials. Educational Psychology Review, 27(2), 317–326. https://doi.org/10.1007/s10648-015-9309-3


Kirschner, P.A. & Hendrick, C. (2020). How Learning Happens. New York Routeledge.


Moeller, A., Theiler, J., & Wu, C. (2012). Goal setting and student achievement: A longitudinal study. Modern Language Journal, 96(2), 153–169.


Murayama, K., & Elliot, A. (2009). The joint influence of personal achievement goals and classroom goal structures on achievement-relevant outcomes. Journal of Educational Psychology, 101(2), 432–447.


Pajares, F., Britner, S. L., & Valiant, G. (2000). Relation between achievement goals and self-beliefs in middle school students in writing and science. Contemporary Educational Psychology, 25(4), 406–422.


Pan, S., & Rickard, T. (2018). Transfer of test-enhanced learning: Meta-analytic review and synthesis. Psychological Bulletin, 144(7), 710–756. https://doi.org/10.1037/bul0000151


Rannen-Triki, A., Bornschein, J., Pascanu, R., Hutter, M., György, A., Galashov, A., ... & Titsias, M. K. (2024). Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models. arXiv preprint arXiv:2403.01518.


Roediger, H.L. III and Butler, A.C., 2011. The critical role of retrieval practice in long-term retention. Trends in Cognitive Sciences, 15(1), pp.20–27. doi:10.1016/j.tics.2010.09.003.


Schunk, D. H., & Rice, J. M. (1989). Strategy fading and progress feedback: Effects on self-efficacy and comprehension among students receiving remedial reading services. Journal of Special Education, 27, 257–276.


Schunk, D. H., & Rice, J. M. (1991). Learning goals, and progress feedback during reading comprehension instruction. Journal of Reading Behavior, 23, 351–364.


Schunk, D. H., & Swartz, C. W. (1993). Goals and progress feedback: Effects on self-efficacy and writing achievement. Contemporary Educational Psychology, 18, 337–354.


Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.


Zaraki, A., Khamassi, M., Wood, L. J., Lakatos, G., Tzafestas, C., Amirabdollahian, F., ... & Dautenhahn, K. (2020). A novel reinforcement-based paradigm for children to teach the humanoid kaspar robot. International Journal of Social Robotics, 12, 709-720.


Zawacki-Richter, O., Marín, V. I., Bond, M., & Gouverneur, F. (2019). Systematic review of research on artificial intelligence applications in higher education -where are the educators? International Journal of Educational Technology in Higher Education,16(1), 39. https://doi.org/10.1186/s41239-019-0171-0


作者
邵瑛,副语言讲师,英语语言中心,西交利物浦大学语言学院

姚雪,副语言讲师,英语语言中心,西交利物浦大学语言学院

日期
2025年08月25日

相关文章