摘要
继2022年11月首次发布, Chat GPT在一周内获得100万用户注册。该平台与教育环境的快速融合令人印象深刻,为教育工作者和学生提供了传递和获取知识的强大帮助。人工智能技术有助于加快实时反馈、提供个性化建议和评价,与个人导师效果当。 Study.com报告显示,有89%的学生使用人工智能完成家庭作业,这一现象并不令人意外。尽管教育专业人士对此表示担忧,但人工智能的运用显著提升了学生的参与度,促进学生进行自主学习。本文旨在评估教师在创建阅读任务、生成问题和答案时使用人工智能技术的情况,概述潜在的优、劣势,并提供理由。
关键词:Chat GPT、阅读原则、CEFR水平、知识获取、参与度、自主学习、自动化、图表、Flesh Kincaid、问题生成、连贯性、质量。
编写理解性课文是一项繁重的任务。课文通常由两个部分组成:冗长、连贯的段落以及与内容相一致的多样化题型。此外,创作者还需考虑多种因素,包括内容相关性、读者兴趣、动机以及组织结构 (Lipson & Wixson,引用于Ahmad等人,2017)。其他学者则强调了解决宏观和微观技能问题的重要性;这些技能的特点是帮助读者识别主要观点,概括内容、推理并得出结论(Brown 2004,引用于Ahmad等人,2017)。
1.2 文本创作
在创作文本时,Xiao等人(2023)提出了五个主要考虑因素 。首先是可读性问题:学生可能被要求识别词组、语音-字形关联和构词法(Ahmad等,2017)。其次是准确性问题:这涉及以符合语法规范的方式合乎逻辑地表达观点。此外,还需考虑连贯性问题:观点需要前后一致,并以有趣和引人入胜的方式呈现。最后,文本创作者需要确保问题与段落内容一致,答案易于识别。
2. Chat GPT的工作原理
Chat GPT采用两种主要模式生成文本:第一种模式被定义为零样本学习(Xiao等人,2023),它使用特定于上下文的指令,无需示例即可生成响应;第二种方法被称为少样本学习(Xiao等人,2023年),若有范例回答和相关资料供Chat GPT进行参考,它将提供更佳的回答。事实上,Xiao等人(2023)发现,在少样本情境下,由Chat GPT生成的文本内容可以超越教科书文本。
尽管具有这些功能,人工智能生成文本的最大问题之一在于人类和人工智能生成的散文会不同,个体能够区分(Xiao等人,2023),人工智能生成文本的可识别性引发了对其在教育环境中适用性的担忧。因此,目标是促使人工智能生成的文本,尽可能模仿人类创作的文本。事实上,研究表明,Chat GPT能够成功地模仿所提供参考材料的风格和结构(Xiao等人,2023),从而有效地说服读者相信某些文本来源于人类。尽管如此,更为重要的是建立相关机制,以确认人工智能生成文本是否已成功仿效人类创写文本。
本文的灵感源自本科一年级学生撰写的一篇600字议论文,以学习者自主学习为主题,部分思考将会以图形形式呈现。文本针对CEFR标准下的B2熟练水平,目标FK得分为11。CEFR是欧洲语言共同参考框架,作为一个标准化框架,它为欧洲不同语言的能力水平描述提供了一个共同基础。CEFR将语言能力划分为六个级别,从A1(初学者)到C2(能手)。Flesch-Kincaid(FK)易读性测试是一组旨在评估英语书面文本易理解性和可读性的方案,第一组方案计算文本的阅读难度:得分越高,文本越易读;第二组方案是用来预测学生需要具备多高的教育水平才能轻松理解文章的内容,该预测是基于美国学校年级高低。例如,得分为8.0意味着这是八年级学生能够理解的文本。Chat GPT 3.5被用来生成文本,相关问题、答案以及解释,问题类型多种多样:词汇匹配、主要观点识别、句子功能,真/假/不确定问题判别。Chat GPT将根据CEFR框架评估文本,并分配FK易读性分数。
4. 分析
4.1 自动化与CEFR水平
创建文本需要大量时间和精力投入,人工智能的出现使教育工作者能够将大部分工作自动化。然而,教育工作者需谨慎检查人工智能生成的内容,以确保任务符合预期的标准。实现这一目标的有效方法是要求Chat GPT根据CEFR框架评估其输出(见图1)。
4.2 连贯性与FK
在评估生成的文本时,Chat GPT得出的结论是文本呈现连贯一致(图1,标准3)。然而,它似乎有通过阐述要点来过度简化思想的倾向。为了避免这一情况,我们指示Chat GPT重新撰写文本,更多地使用连接词。修订后的文本不仅更具连贯性,也更有学术规范性。
另一个问题涉及FK等级,尽管Chat GPT被要求生成与FK11水平相符的内容,但输出结果似乎与外部FK检查程序并不一致。在这个例子中,Chat GPT错误地将单词长度识别为384个词,而实际数量接近600词,这将导致FK公式计算中使用结果出现偏差。虽然Chat GPT给出了9.6的分数(图3a),但其他计算结果给出了11.4的分数(图3b)。因此,建议文本作者仔细评估输出,以确保其符合所需的标准。
4.3 图形分析-限制和潜在用例
人工智能软件的一个显著局限性是其无法分析图像信息,用于此类任务的特定人工智能软件较少。少数人工智能软件提供此功能作为附加服务,而其他平台则完全省略了此功能。例如,Chat GPT 3.5目前并不支持此功能(图2a),但付费的4.0版本则支持此功能(也被称为Chat GPT Vision)。同样, XIPU AI 4似乎也不支持该功能(图2b);但微软在其Bing.com浏览器中提供类似功能(也称为‘Co-pilot’图2c)。然而,该功能的缺失可以被视为一种优势:通过人工智能来设计评估考核是最为低效的方式,这可能有助于在未来减少利用人工智能来抄袭的问题。
4.4 问题创建
Chat GPT在创建问题时可能是最为有效的:它能够根据标准成功地设计出一系列问题,我们只需进行微小地更改。例如,要求它从文本中识别出十个最具挑战性的单词,并提供相关定义。然而,对于B2等级来说,某些定义过于困难,因此Chat GPT被要求依据该水平重新撰写定义。对于其他类型的问题(识别主要观点、正确/错误判断、定义、句子功能),它都能成功地生成适当的问题。在它完成任务后,我们对所有的内容都进行了合理性和准确性的检查。
4.5 答案与原理
在提示下,Chat GPT 不仅能够提供答案,还能够提供答案背后的基本原理。除其中一个问题需要人类干预以增强连贯性以外,Chat GPT总体能够清晰明了地表明理由,这包括增加与对冲语言有关的想法,并保留重要观点以增强清晰度。
Chat GPT 为文本自动化创作过程提供了重要机会,只要给予恰当的指导并提供适宜的模型,就可以实现与人类写作的无法区分性。尽管使用人工智能进行文本创作具有诸多优势,但其主要好处之一在于可以对一组预定义标准产生的内容进行客观评估,以帮助人类确认其实用性。然而,由于人工智能生成的文本倾向于以要点形式编写,并且偶尔缺乏连贯性,用户需要对其提供的反馈持审慎态度,使用FK进行计算以及平台无法分析图表和图形等视觉数据更会加剧这方面的挑战。尽管如此,Chat GPT的优势在于其生成观点的能力,值得注意的是,其中最有价值的功能包括自动化生成问题、答案以及相应理由。然而,缺点在于并非所有功能都能在人工智能平台上免费使用;并且,不同平台功能的质量良莠不齐。综上所述,人工智能可以作为一种高效有用的资源创造工具;但必须谨慎使用,并建立合适的机制,以确保维持适当的标准。
References
Ahmad, M., Shakir, Dr. A, Aqeel, M. & Siddique, A.R. (2017), ‘Principles for Devising a Reading Comprehension Test: A Library Based Review’, Al-Qalam, December 2017, Available at: www.researchgate.net/publication/339939385 Accessed: February 2024
Xiao, C., Xin Xu, S. Zhang, K. Wang, Y. & Xia, L. (2023), ‘Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Education Applications’, Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023), pages 610–625, Association for Computational Linguistics, Available at https://aclanthology.org/2023.bea-1.52.pdf Accessed: February 2024
附录
图一:Chat GPT使用CEFR进行文本分析
图二(1):Chat GPT在使用图表时的局限性
图二(2):君谋(XIPU AI)4在使用图表时的局限性
图三(3): 使用(Copilot) Chat GPT 4 (Microsoft)进行图形分析
图3(1): Chat GPT 3.5 FK计算公式中的错误
图三(2):由外部FK计算器分析相同文本