西浦学习超市

1. 引言

阅读理解能力对学业成绩至关重要。大量研究表明，雅思和托福等标准化测试所衡量的阅读能力，与非英语为母语的学生，在以英语为教学语言环境下的学业成绩之间存在密切联系(Oliver et al., 2012)。因此，阅读理解能力在语言评估中占据重要的地位。然而，由于此类评估的高风险性以及教师的多职能性，开发阅读测试对于语言教师来说是一项耗时且具有挑战性的任务。

尽管GenAI 的最新发展引发了人们对评估设计的担忧，但它同时也提供了自动评分、即时反馈和任务生成等功能。认识到人工智能在文本和问题生成方面的广泛优势，语言教育工作者可以利用人工智能提高阅读测试开发的效率，尤其是在文本生成和题目制定阶段。然而，每一个阶段都需要仔细关注细节，并对所评估的主题和语言有全面的了解。鉴于 GenAI 与语言教学并不直接相关，其在测试开发中的可靠程度值得仔细研究。本文旨在回顾作者与君谋（XIPU AI）合作开发多项选择阅读测试的经验，同时分享基于Brown(2019)的见解：如何利用GenAI，根据语言评估原则，开发测试。由此得出的启示将有助于未来形成性和总结性阅读测试的开发。

2. 生成阅读文本

2.1 真实性

评估阅读能力的关键要素之一涉及文本生成。Brown （2019)强调 “真实的测试需要尽可能自然的语言”。尽管人工智能生成的内容具有快速、易于获取的特点，但它也具有生成的内容不连贯、不准确、脱离实际、过时、缺乏道德感以及无法提供原创性见解等不足 (Elkhatat, 2023 )。这些局限性阻碍了它与读者进行互动并建立感情、道德和期望反应的能力。虽然 GenAI 可以模仿真实文本的风格和结构，但它可能无法完全捕捉人类撰写的文本的深度和复杂性。作为测试开发人员，我们的目标是坚持真实性原则。因此，当务之急是要利用声誉良好且经过检验的文章，来确保文章具有可靠性、时效性、创造性、个人联系和原创性等特点。

2.2 改编文本

然而，人工智能生成文本的局限性并不会阻碍教师利用人工智能协助开发阅读测试。人工智能可以通过调整可读性，帮助我们制定符合目标学生语言水平（如 CEFR 水平）的文本。该调整在保留文章核心信息的同时，包括简化复杂词汇短语，分解冗长句子，避免使用专业术语或复杂语言。尽管如此，使用 Flesch-Kincaid level、Coh-Metrix 等其他文本分析辅助工具验证人工智能生成的阅读文本仍然至关重要。此外，君谋（XIPU AI）可能无法有效地扩展或压缩文章，以满足指定字数要求。因此，建议手动调整文本长度，以克服人工智能的局限性，并优化原始段落的语气和风格。

3. 生成测试问题

3.1 有效性

有效的阅读测试需考虑课程内容，如主题、学习目标、阅读技能结构（读者有效管理目标语言领域所需的技能）以及适当难度（Brown，2019）。尽管GenAI能够根据提供的文本快速生成问题，包括多项选择题；但由于缺乏对特定模块学习目标、教材和学生语言能力水平的了解，其创建有效测试问题的能力仍有待考证。下图举例说明了将阅读技能结构转化为多项选择题题型的情况。

3.2 完善提示

虽然 GenAI 有其局限性，但出卷者可以通过优化提示，来提高生成题目的质量。图 1 举例如何通过指定问题类型来改善结果。

图 1 由 XIPU AI 生成的示例问题

过往经验表明，除了考虑各种题型外，优化 XIPU AI生成选择题还包括在完善提示时注意各种细微差别。首先，对问题和选项的转述非常关键，恰当的转述可以减少对课文内容直接引用的依赖（例如图 2 中的正确答案 B 就是对课文内容的直接引用），从而提高原创性并减少对记忆的依赖。其次，为帮助学生更好理解问题，测试内容可以根据文本提供的信息顺序来排列，而不仅仅根据问题类型来排列。第三，正确答案需要在选项中随机分配，以增强不可预测性，并有效地挑战读者。最后，为了增强干扰项的可信度，必须确保不能仅凭常识来回答问题。当然，不宜在单个提示语中过多包含所有具体内容。相反，按照渐进提示的方法（Zheng et al.， 2023），才能获得更佳的内容。

图 2 由 XIPU AI 生成的示例问题（选项中包含直接引语）

4. 结论

虽然 GenAI 是辅助人类阅读测试开发的宝贵工具，但其局限性凸显了人类参与测试开发的必要性。产生该必要性的主要原因在于测试开发人员对目标学生的语言能力水平、课程学习成果以及语言评估原则和结构有准确的了解。需注意：本文源自作者在 2024 年 2 月与XIPU AI合作开发阅读测试的经验，随着人工智能技术的不断进步，部分思考可能并不适用于当前情况。

参考文献：

Brown, H. D. (2019). Language assessment : principles and classroom practices (P. Abeywickrama, Ed. Third edition ed.). Pearson Education.

Elkhatat, A. M. (2023). Evaluating the Authenticity of ChatGPT Responses: A Study on Text-Matching Capabilities. International Journal for Educational Integrity, 19(1). https://doi.org/https://doi.org/10.1007/s40979-023-00137-0

Oliver, R., Vanderford, S., & Grote, E. (2012). Evidence of English Language Proficiency and Academic Achievement of Non-English-Speaking Background Students. Higher Education Research & Development 31(4), 541-555. https://doi.org/https://doi.org/10.1080/07294360.2011.653958

Zheng, C., Liu, Z., Xie, E., Li, Z., & Li, Y. (2023). Progressive-Hint Prompting Improves Reasoning in Large Language Models. Retrieved 9 April from http://arxiv.org/abs/2304.09797