摘要
本文介绍了西交利物浦大学(XJTLU)物联网学院的一项教学案例研究。本研究详细阐述了 XIPU AI(君谋 Junmou) 在 IOT307TC 大数据分析模块中的应用。研究旨在解决大数据教育中的一个普遍难题:难以向学生提供包含特定复杂特征的、多样化、真实且具实践性的数据集。君谋被用于为毕业班学生生成高度可定制的合成数据集,从而突破了传统静态数据集的局限。基于学生反馈和项目成果,结果表明这种人工智能驱动的方法显著提高了学生的参与度,并增强了他们将理论知识应用于实际“杂乱” 数据的能力。本案例研究为寻求整合人工智能工具以促进技术密集型领域实践技能发展的教育工作者提供了一个可复制的框架。
关键词:人工智能驱动的教学法、合成数据、大数据分析教育、提示工程(Prompt Engineering)、基于问题的学习(Problem-Based Learning)
1. 引言
1.1 课程背景
在大数据分析教育中,一个显著的挑战是缺乏面向学生的多样化、真实数据集。传统的静态数据集往往不包含专业场景中遇到的复杂性,而来自物联网(IoT)设备的真实数据又常常受到专有属性或隐私法规的限制。这一困境亟需教学方法的创新。
在西交利物浦大学,研究人员采用 XIPU AI(君谋 Junmou) 平台来解决这个问题。我们进行了一项研究,记录了君谋集成到 IOT307TC 大数据分析模块的过程,该模块是四年级学生的必修课。核心假设是:通过生成式人工智能创建定制化的合成数据集,能够提供一个更具动态性和实效性的学习环境。鉴于数据科学这一快速发展领域中持续存在的理论与实践差距,这种方法具有尤为重要的现实意义。
学术机构面临着诸多挑战,例如该领域的多学科性质和现代硬件的高昂成本 [1]。生成式人工智能通过生成模拟真实世界属性的新型合成数据,提供了一种解决方案,从而克服了数据稀缺和隐私担忧等障碍 [2]。这项技术提供了丰富的定制化信息,助力动态课程设置和实践能力的发展 [3]。
1.2 数据科学教育中弥合理论与实践差距的挑战
鉴于数据科学(一个正在快速发展的领域)中持续存在的理论与实践差距,这种方法尤其具有现实意义 [4]。学术机构面临着诸多挑战,例如该领域的多学科性质和现代硬件的高昂成本。生成式人工智能通过产生模拟真实世界属性的、新颖的合成数据,提供了适配于真实环境的解决方案,从而克服了数据稀缺和隐私担忧等障碍 [5]。这项技术提供了丰富且适配的定制化信息,支持动态课程设置和实践能力的发展 。
学术机构在弥合这一差距方面面临着诸多挑战。首要难题是数据科学固有的多学科性质,这要求课程整合计算机科学、统计学和数学等领域的知识。使问题更加复杂的是,开设数据科学课程所需的现代硬件和软件环境成本高昂。同时,留住合格的教育工作者也是一个重大挑战,他们往往会被私营部门更丰厚的待遇所吸引。数据的动态和不断演变的性质也要求持续的技能提升,这是学术项目难以承受的负担。因此,现代数据科学教学法的核心要求是超越对理论知识的关注,培养直接应对这些现实挑战
的实践性、应用性能力。
1.3 生成式人工智能在课程设计中的变革潜力
推动这一框架的一项关键创新是将生成式人工智能(AI)应用于教育内容创建。生成式人工智能借助生成对抗网络(GANs)和大型语言模型(LLMs)等模型,正在彻底改变训练数据的生成方式,它能生成模拟真实世界信息统计属性的新型合成数据集[6]。
这项技术为数据驱动型教育中的几个传统障碍提供了强有力的解决方案,包括数据稀缺性、与敏感信息相关的隐私问题,以及收集、准备和标注大规模真实数据集所需的巨大成本和精力 [7]。合成数据提供了一种取之不尽、按需供应的定制化信息,能够在不损害真实个体隐私的前提下加速创新,并实现新教育工具和方法的快速原型开发[8]。通过利用生成式人工智能,教育工作者能够突破静态、预打包数据集的局限性,设计出动态、真实且可扩展的课程。
2. 方法论:用人工智能驱动的框架增强课堂教学
本案例研究以“基于问题的学习”(PBL)原则为基础 [9]。这是一种让学生通过积极参与复杂、现实的问题来进行学习的教学方法。数据分析领域的快速发展不仅要求学生理解理论概念,还要求他们具备应对现实世界数据挑战的实践技能。然而,传统教学方法往往依赖数量有限的公开、预清理数据集。这些数据集缺乏学生在未来职业生涯中将会遇到的特定复杂性,例如缺失值、有偏样本或多样化的数据类型。这种人为的“整洁”会给学生带来一种虚假的安全感,使他们对现实世界数据中无法预料的挑战准备不足。
通过利用 XIPU AI (Junmou) 生成定制的合成数据集,团队创造了一个动态且高效的学习环境,该环境完全符合 PBL 的宗旨。AI 驱动的框架将学习过程从被动练习转变为主动、动手实践和迭代的过程。正如“AI 驱动的学习循环”(图 1)所示,教育者设计一个问题,随后 Junmou 将其转化为“杂乱”的数据集。学生运用数据整理或清洗技能,通过故障排除来清理数据,最终得到解决方案。学生的作业和优化后的解决方案提供了宝贵的反馈,为教育者下一次问题设计提供了参考,从而完成了闭环并促进了学习与改进的持续循环。
这种方法直接解决了理论数据知识与工业数据复杂混乱的现实之间的关键技能差距。AI 生成数据所具备的问题导向性使学习过程更具吸引力和个性化,因为学生们感觉自己是在应对真实的数据科学挑战,而不仅仅是课堂练习。这些数据集在理论概念与其实际应用之间架起了一座关键桥梁,以静态、整洁的数据无法企及的方式巩固了学生的理解。最终,工业数据项目的复杂性在一个安全、受指导的教育环境中得到了成功模拟实现,学生们也被赋予了批判性地应对数据固有复杂性的能力。
2.1 传统方法:认识教学法的局限性
在整合君谋之前,该模块的实践环节依赖于传统教学数据集。其中包括广泛使用的公开数据集,如“泰坦尼克号幸存者数据”或标准化传感器日志。虽然这些数据集对于介绍数据加载、基本可视化和简单统计分析等基础概念表现出色,但它们存在显著的教学局限性。这些数据通常是预先清理好、结构良好且专为直接分析而设计的。这种人为的“整洁性”给学生带来了一种虚假的安全感,使他们没有为现实世界中不可预测的挑战做好充分准备,例如:
• 缺失数据(Missing Data):真实世界的数据集很少有完整的条目。学生需要练习复杂的插值和处理技术。
• 异常值和离群点(Outliers and Anomalies):来自物联网设备的数据可能充满了传感器错误、网络故障或异常事件,这些都表现为异常值。识别和处理这些是关键技能。
• 异构数据类型(Heterogeneous Data Types):一个单一的物联网分析项目可能涉及结构化数值数据、非结构化文本日志和时间序列数据。学生需要练习整合和协调这些多样化格式。
• 数据稀缺性和敏感性(Data Scarcity and Sensitivity):许多相关的真实世界数据集是专有的或包含敏感信息,这使得它们无法用于课堂教学。
这些局限性突出表明需要一种更具活力和可定制性的数据提供方法,一种可以随着每次课的特定学习目标而发展的方法。
2.2 整合君谋:分步实施流程
君谋的实施遵循两阶段方法:准备阶段和课堂执行阶段。图 1 总结了这一方法论,它展示了一个问题设计、人工智能生成和学生驱动分析的持续循环,这个循环反过来又为未来的问题创建提供了参考。

图 1:AI 驱动的学习循环
此图表展示了一个教学框架,其中 AI 君谋(Junmou) 是一个核心工具,用于创建动态且迭代的学习环境。该循环始于教育者设计一个问题提示。随后,君谋会生成一个“杂乱的”数据集,为每个学生带来独特的挑战。接着,学生们参与故障排除和技能应用,以清洗和整理数据。最后,学生的作业提供了宝贵的反馈和新见解,这些信息为教育者的下一次问题设计提供了参考,从而完成了闭环,并促进了学习与改进的持续循环。
阶段 1:准备性提示工程(Preparatory Prompt Engineering)
在每次实验课之前,都会为君谋起草一系列精心构建的提示。这些提示旨在生成具有特定嵌入问题和明确教学目标的数据,而不是简单地生成数据。例如,对于时间序列分析的课程,提示会指定需要一个具有时间特征和特定噪声模式的数据集。图 2 提供了这一过程的直观示例。这种方法将教师的角色从简单的选择数据集转变为“提示工程”设计动态的学习场景,迫使学生应用特定的分析技术并排除一个现实的问题。
时间序列分析的示例提示: “作为一名数据科学家,你正在分析来自智能建筑的大型温度和能耗数据集。生成一个为期一周的、外观逼真的时间序列数据集,数据点间隔15 分钟。数据应显示清晰的周期性模式(每日和每周),但也应包含随机噪声和一些突然、急剧的能耗峰值,以模拟设备故障等异常事件。以 JSON 对象的形式呈现数据。”

图 2:时间序列数据生成的提示工程示例
阶段 2:课堂执行和指导学习
在课堂上,生成的数据集作为案例研究提出。首先回顾君谋的提示,以了解嵌入的挑战。这种协作过程能让学生直接看到数据生成参数与实际编码挑战之间的联系。还鼓励学生自己使用君谋来生成小规模测试数据集,以进行快速原型设计和迭代问题解决。这种完整的数据流在图 3 中有所体现。

图 3:单个问题的数据流图
使用君谋生成带有伴随元数据的数据是这一方法论的关键要素。例如,会要求 AI “生成一个解释每个列及其预期用途的数据字典”。这迫使学生练习数据探索和文档编写,这是另一个经常被忽视的关键技能。
AI 解释数据模式的能力也被利用。在完成分析后,学生会使用君谋提出问题,例如“哪种分析模型最适合这种数据?” 。AI 的回复将作为课堂讨论模型选择和验证的基础。
如图 4 所示,君谋还被用于生成数据文档和协助模型选择,培养了传统课程中经常被忽视的关键技能。该图强调了学生如何要求 AI 解释数据模式或建议合适的分析模型,从而将 AI 君谋的回复转化为课堂讨论的基础。

图 4:君谋作为数据文档和模型选择的工具
这种方法为大数据分析创建了一个受控而真实的模拟环境。它超越了被动学习,实现了一种真正的动手、基于问题的方法,学生们积极地参与塑造自己的数据,进而塑造自己的学习挑战。这种方法的成功之处在于它能够在安全、有指导的教育环境中模拟工业数据项目的复杂性,如图 5 所示,该图直观地展示了学生工作“之前和之后”的影响。

图 5:杂乱数据集的数据清洗过程
该图直观地展示了数据整理的影响,展示了数据集的“之前”和“之后”视图。“之前”的表格突出了常见的现实世界数据问题,例如混合数据类型(例如,“Price”列中作为字符串的“45”)、缺失值(NaN)和不一致的日期格式。“之后”的表格显示了已更正的数据,说明了如何通过系统的清理过程获得一个干净、一致的数据集。这种转变对于准确的分析和建模至关重要。
3. 结果与讨论
将 XIPU AI(君谋 ) 整合到 IOT307TC 大数据分析课程模块中,在学生的学习效果、参与度和实践技能发展方面产生了显著且多维度的提升。这些结果是通过调查和开放式评论的定性反馈,以及与往届学生相比的最终项目成果的定量评估相结合来分析的。
3.1 对学生学习成果的定量影响
最引人注目的成果是学生处理真实世界项目典型的“杂乱”数据的能力得到了明显提高。通过迫使他们面对特定、人工智能生成的挑战,我们观察到他们在大数据分析方法上发生了深刻的转变。
• 高级数据整理熟练度:如图 6 所示,君谋集成班级的学生在数据清理和预处理方面表现出更复杂的理解。例如,超过 85% 的学生小组成功实施了处理缺失值的高级插值策略,这比之前的平均水平(低于 30%)有了显著提高。这表明对何时以及为何应用更复杂的技术有了更深层次的概念性理解。

图 6:高级数据整理技术的比较熟练度
• 稳健的异常检测:在人工智能生成的数据集中特意包含了异常值,这直接让学生为物联网数据分析的一个关键方面做好了准备。今年的项目显示学生使用专用异常检测算法(如 Isolation Forest 或 Local Outlier Factor (LOF))的比例显著提高,而不仅仅是依赖简单的统计阈值。这种带有嵌入问题的动手经验培养了对数据验证的实践直觉。
• 提高的项目复杂性和创新性:生成自己数据集的自由让学生能够探索更具雄心和细微差别的项目想法。项目超越了基本的探索性数据分析,包括了复杂的机器学习模型。例如,一个小组使用君谋生成的时间序列数据集来构建一个预测建筑能耗的预测模型,展现出往年较少见的特定于应用的创新水平。
3.2 定性见解与讨论
除了指标之外,学生的定性反馈突出了他们对模块和学科本身的看法发生了转变。
• 更高的参与度和所有权:人工智能生成数据的“基于问题”性质使学习过程更具吸引力和个性化 。正如一位学生评论的那样,“这感觉不像是一个课堂练习,更像是一个真正的数据科学挑战。数据并不完美,这让工作更有趣”。图 7 展示了人工智能生成数据的“基于问题”性质如何使学习过程更具吸引力,呈现了学生在计算机实验室中协作进行数据科学项目。

图 7:学生在 D-1002-TC 计算机实验室中使用 AI 君谋驱动框架协作进行数据科学项目
• 弥合理论与实践的差距:人工智能生成的数据集是理论概念与其实际应用之间的关键桥梁。学生报告称,看到一个教科书概念(例如“多元时间序列数据”)以一个凌乱的、君谋生成的 JSON 对象形式呈现出来,以阅读干净数据集无法做到的方式巩固了他们的理解。
• 培养协作文化:在面对面的课堂环境中,处理这些复杂的模拟数据集激发了更浓厚的协作氛围。经常可以看到学生们一起讨论处理特定数据问题或调试代码的策略,数据集本身成为讨论和联合解决问题的中心点。这种同伴学习是人工智能驱动方法论直接而积极的结果。
3.3 挑战与局限性
一个重大挑战是确保人工智能生成的数据集既杂乱又具有逻辑上的一致性。最初的提示有时会产生不合逻辑的数据,这需要一个迭代的优化过程。例如,一个简单的销售数据集可能混合了文本和数值,而一个时间序列数据集可能包含毫无意义的能耗值或不一致的时间戳。这种迭代的提示精炼成为了数据验证的一个宝贵教训。
另一个局限性是提示工程所需的时间。精心设计一个复杂的提示以嵌入特定问题,需要重要的教学预见和迭代精炼。
最后,虽然合成数据允许探索各种问题,但它不能完全复制专有数据的真实世界背景。伦理和隐私考量在概念上进行了讨论,但没有在实践中得到解决,这是更高级模块应该关注的关键领域。
4. 结论
我们的案例研究在 IOT307TC 大数据分析课程中明确展示了将 AI(特别是 君谋)整合到教学框架中的变革潜力。通过摆脱静态、预清理的数据集,学生们获得了更真实、更具挑战性且更引人入胜的学习体验。这种植根于提示工程的方法,直接解决了理论数据知识与工业数据复杂混乱的现实之间存在的关键技能差距问题。
本研究的定量和定性结果令人信服。君谋集成班级的学生在高级数据整理技术、异常检测以及设计更具创新性和复杂性的项目方面的熟练度有了显著提高。人工智能生成的、基于问题的数据集培养了所有权和相关性,将被动学习转变为积极、动手和迭代的过程。此外,利用人工智能作为数据文档和模型选择的工具,激发了新的课堂讨论和协作水平。这一经验凸显了高等教育中教学创新的价值,并提供了一个强有力的例子,说明人工智能如何成为课堂中的伙伴。理论与实际应用之间的差距已成功弥合,培养学生不仅要理解数据,还要批判性地处理其固有的复杂性。我们鼓励西交利物浦大学和其它高等教育机构的同事探索人工智能的类似应用,拓展教育交付的边界,并赋能下一代数据专业人才。
参考文献
[1] "Investigating the data science talent gap: Data practitioners' perspectives,"ResearchGate. Accessed: Sep. 22, 2025.
[Online].Available:https://www.researchgate.net/publication/391276552_Investigating_the_data _science_talent_gap_Data_practitioners'_perspectives.
[2] "Data Science Education – A Scoping Review," ResearchGate. Accessed: Sep. 22, 2025. [Online]. Available: https://www.researchgate.net/publication/372531547_Data_Science_Education_-
_A_Scoping_Review
[3] "Big-Data Skills: Bridging the Data Science Theory-Practice Gap in Higher Education and Industry," PMC, Accessed: Sep. 22, 2025. [Online]. Available:
https://pmc.ncbi.nlm.nih.gov/articles/PMC7883353/
[4] "Curriculum, Pedagogy, and Teaching/Learning Strategies in Data Science Education," MDPI, Accessed: Sep. 22, 2025. [Online]. Available: https://www.mdpi.com/2227-
7102/15/2/186
[5] "Challenges and Issues in Data Science Education," IEEE Computer Journal, Accessed: Sep. 22, 2025. [Online]. Available: https://idsc.miami.edu/challenges-and-issues-in-datascience-education/
[6] "How Generative AI Is Revolutionizing Training Data with Synthetic Datasets," Dataversity,
Accessed: Sep. 22, 2025. [Online]. Available: https://www.dataversity.net/how-generative-ai-isrevolutionizing-training-data-with-synthetic-datasets/
[7] "A study of the impact of project-based learning on student learning effects: a meta-analysis study," PMC, Accessed: Sep. 22, 2025. [Online]. Available:
https://pmc.ncbi.nlm.nih.gov/articles/PMC10411581/
[8] K. Misiejuk, S. López-Pernas, R. Kaliisa, and M. Saqr, "Mapping the Landscape of
Generative Artificial Intelligence in Learning Analytics: A Systematic Literature Review," J.
Learn. Anal., vol. 12, no. 1, 2025.
[9] B. Santana-Perera, C. García-Barceló, M. González Arcas, and D. Gil, "Exploring
Predictive Insights on Student Success Using Explainable Machine Learning: A Synthetic Data Study," Future Internet, vol. 16, no. 9, p. 763, 2025.