基于人工智能的学术英语评估标准设计:利用生成性人工智能提升评估效果
摘要
 
       本文探讨了将人工智能工具整合到学术英语(EAP)课程评估标准设计与实施中的应用。通过利用人工智能提示,教育工作者能够简化评估标准的创建过程,确保其与课程目标的一致性,并改善教学与学习效果。文章分析了评估标准的优势和挑战,并提供了利用生成性人工智能开发整体性和分析性评估标准的详细步骤。研究结果强调,采用人工智能驱动的方法论在评估实践中对促进公平性、可靠性和效率具有重要意义。
 
关键词:人工智能评估标准设计,学术英语(EAP),整体性评估标准,分析性评估标准。
 
 
引言

       评估标准是用于衡量表现是否达到预期及其方式的一系列标准,是教育评估中的重要工具。评估标准通过列出具体标准、质量等级和评分策略(Reddy and Andrade,2010),为评分提供了结构化框架,从而提高评估过程的透明度和公平性。
 
       使用评估标准对教师和学生都有诸多益处。对教师而言,评估标准通过提供统一的评估框架,确保对学生表现的评价保持一致性(Chen et al.,2013),有助于减轻评分中的偏见和主观性,进而促使评估更为公平。评估标准还为教师提供客观评估基础,使教师能够依据具体、透明的标准解释评分决定(Campbell,2005)。这不仅提升了公平性,还增进了教师与学生之间的信任。此外,评估标准通过明确连接学习目标与评估标准,增强了课程目标、教学和评估之间的协调性(Jonsson,2014),帮助教师设计出能够准确测量预期学习成果的评估方法。此外,重复使用评估标准来评估相似的作业,为教师提供跟踪学生进步有效的工具。这种持续的应用使教师能够识别学生的表现趋势,并调整相应教学策略(Allen & Tanner,2006)。
 
       对于学生而言,评估标准通过清晰地阐明期望,提供不同表现水平所需的详细大纲,从而减少投诉并提升满意度(Barney et al.,2012)。通过列出具体标准,评估标准降低了模糊性,帮助学生理解评分依据,有助于减少对成绩的误解和争议。此外,评估标准还通过讨论作业和反馈的共同参考点,增强了教师与学生之间的沟通(Menendez-Varela and Gregori-Giralt,2016)。这种沟通促进了更具合作性的学习环境,使学生更好地了解自己的优势和需要改进的领域。此外,评估标准通过鼓励自我调节与反思,提升了学生的学习表现。当学生根据评估标准获得详细反馈时,他们能够更好地评估自己的作业、设定学习目标并做出有针对性的改进(Panadero and Romero,2014)。这种自我评估和目标设定的过程促进了高阶思维技能的发展,最终提升学业表现。
 
       尽管评估标准具有诸多优势,但对于教育工作者而言,开发有效的评估标准仍是一项耗时且具有挑战性的任务。主要难点之一在于精确表述不同质量水平的期望。这一任务要求清晰而严谨的措辞,以确保每项标准能够被学生理解并有效实施。教育工作者必须在细节与简洁之间取得平衡,既要让学生能够准确理解每项评估标准,又要避免使用过于复杂或模糊的语言。这个过程通常涉及反复修订和同行反馈,以达到理想的的具体性和可理解性。
 
       此外,正如Felder and Brent(2016)所建议的,评估标准的开发需要对四个关键指标给予仔细关注:有效性、可靠性、公平性和效率。有效性意味着评估标准能够准确测量预期的学习成果,并与课程目标保持一致。可靠性则关注评估标准在不同评估者或不同评估场合下的一致性,确保其评估结果稳定。公平性要求评估标准具有透明性和无偏性,使用清晰易懂的标准和语言,确保所有学生在基于其表现的情况下拥有平等成功的机会。效率则涉及指评估标准在施用、评分和解释过程中的简便性与速度,使教育工作者能够快速准确地评估学生作品,而不影响评估的细致性。在这些指标之间取得最佳平衡需要深思熟虑的设计以及持续的评估和改进,以完善评估标准并增强其支持教育目标的有效性。
 
       随着人工智能(AI)的进步,评估标准的创建过程可以得到显著简化与优化。本文探讨了在学术英语(EAP)课程中,使用人工智能提示生成评估标准的潜力。通过自动化评估标准设计过程的部分流程,教育工作者可以专注于微调与优化评估标准,以更好满足学生的具体需求,从而提升评估质量和学生整体学习体验。
 
 
演示:案例研究
 
       以下部分概述了如何基于Nolen(2024)提出的框架,利用人工智能提示创建整体性和分析性评估标准,并针对学术英语(EAP)课程进行调整。整个过程采用了免费的ChatGPT生成性人工智能工具。为了演示人工智能驱动的评估标准设计的实际应用,本文呈现了两个来自EAP课程的案例研究。
 
 
案例研究1:课堂测试(ICT)的整体性评估标准(EAP047)
 
       整体性评估标准通过将学生作品作为一个统一的整体进行评估,得出一个综合分数。当对表现做出一般判断即可时,这种评分标准非常有用,例如在大规模评估或时间限制较大的情况下。
 
       在EAP047 ICT课程中,基于以下人工智能提示生成了一个整体性评估标准,在每个提示部分中考虑了四个关键指标。生成评估标准的过程分为以下三个主要步骤。
 
步骤1:定义任务和学习目标
 
  • 人工智能提示:
       “为学生创建一个精心制作且清晰的整体性评估标准,以表格形式使用学生友好的语言。该评估标准适用于以下学生任务描述:[粘贴任务描述]。”
 
       在我们的案例中,任务是:“撰写一篇关于考试中提供的阅读文本和讲座的综合总结,类似于TOEFL综合任务的风格。对比和比较阅读和讲座中的主要观点。阅读中有三个主要观点,听力中有三个主要观点。”
 
       评估标准中使用的语言和术语应与课程目标相一致,因此我们在提示中包含了课程学习目标:
 
  • 人工智能提示:
      “该评估标准应包含一个评分标准和描述,与以下课程目标对齐:[粘贴课程学习目标]。”
 
       在我们的案例中,我们使用的目标包括:
 
      “A) 运用适合水平的听力策略,从分级的非学术和学术听力材料及口头互动中提取意义。

        B) 运用适合水平的阅读策略,从分级的非学术和学术阅读材料中提取意义。

        D) 针对非学术和学术任务,生成具有适合水平的连贯性、复杂性和准确性的书面回应。

        E) 展示对适合水平的语言形式的意识和理解。

        F) 展示对多种学术技能和惯例的意识及运用能力。”

 
步骤2:生成评分标准和标准
 
      接下来,我们指定所需的评估标准类型:
 
  • 人工智能提示:
       “使用以下评分标准进行评估:[粘贴评分标准]。对于每个评分标准,根据我提供的课程目标生成一个描述。请确保描述侧重于描述工作的质量,而不仅仅是数量。例如,描述应突出xx、xx、xx、xx和xxx。”
 
在我们的案例中,我们可以说:
 
     “0、1、2、3、4和5
 
  • 5分:优秀
  • 4分:非常好
  • 3分:好
  • 2分:一般
  • 1分:不佳
  • 0分:不足
 
       为上述每个评分标准的每个元素包含以下标准:主要观点和支持观点的包含和准确性、阅读与讲座之间的联系、释义能力、组织、连贯性和衔接,以及语言(词汇和语法)。”
 
步骤3:请求人工智能生成我们想要的评估标准
 
       最后,我们要求人工智能以表格形式生成评估标准:
 
  • 人工智能提示:
 
      “以表格形式生成评估标准。第一行标题应包括 ‘分数’和‘描述’。第一列应显示评分标准和分数。每个分数的描述应列在相应的行中。确保描述侧重于描述工作的质量,而不仅仅是数量(可靠性)。”
 
        当我们将所有人工智能提示整合到一个提示中(见图1)时,我们生成了以下评估标准(见图2)。
 

 

(图1:整体性提示)

 

 

(图2:生成的评估标准)


        从这个基础上,我们可以根据具体需求进一步细化评估标准或调整提示。例如,在本案例中,通过请求人工智能使用项目符号简化评估标准,我们有效地简化了评估标准的描述。相比于手动为每个作业耗费大量时间创建评估标准,利用生成性人工智能代替显著提升效率。

 

案例研究2:研究报告的分析性评估标准(EAP121


       在EAP121课程中,开发了一种分析性评估标准,用于评估学生研究报告。分析性评估标准将任务分解为多个独立标准,每个标准单独评估,提供更详细且具体的的反馈。这种评估方式特别适用于复杂任务,使学生能够识别具体的改进领域。由于语言部分已经从ELC提供的Y2主描述符中获得,以下演示将重点关注剩余的三个标准:任务1(思想发展)、任务2(来源使用和应用)以及组织结构。

 

步骤1:定义任务和学习目标


        在生成评估标准之前,必须明确定义学生任务及相应的学习目标。这一基础信息确保人工智能生成的标准与课程目标和评估标准评估标准高度一致。


人工智能提示:


       “
为学生创建一个清晰的分析性评估标准,格式为表格。评估标准适用于以下任务:[粘贴任务描述]

 

        在EAP121的例子中,我们可以将任务框定为:每位学生需要提交一份个人最终报告,该报告将进行正式评估。

 

        学生必须按照《报告写作指南》中规定的格式撰写报告,即摘要、引言、方法、结果、讨论和结论。

 

        研究目标和相关假设必须清晰陈述。


        来源:您必须包含至少6个来源;您的来源必须是英语文献,并且通常适合学术工作(例如,学术期刊文章、信誉良好的新闻/杂志文章和学术讲座/视频)。

 

        报告必须包含2-4个自制图表,代表结果部分收集的数据。

     

        字数为1,300字(+/- 10%)。标题、摘要、参考文献列表和附录不计入字数。


人工智能提示:


       “
评估标准应包含三个部分:评分和等级、标准和描述符。评估标准应与以下课程目标完全一致:[粘贴课程学习目标]

 

        在EAP121的例子中,我们可以说:展示一系列学术阅读技能,包括定位相关来源材料和选择适当信息以完成学术任务的能力。

 

        展示一系列学术研究技能,包括选择和完善研究问题、进行小规模研究以及展示和分析这些研究。

 

       展示一系列学术写作技能,包括遵循学术任务的结构大纲(例如,研究报告)、使用学术语言和应用学术诚信要求。

 

步骤2:生成评分等级和标准


       下一步是生成评分等级并定义用于评估任务的标准。人工智能提示应指定表现水平的数量,并确定需要评估的任务的具体方面。


人工智能提示:


       “
使用以下评分等级生成评估标准:[粘贴评分等级]。为上述每个评分等级的每个元素包含以下标准:[粘贴所需标准/组成部分] 。为每个标准和每个评分等级生成一个基于提供的目标的描述符。

 

        在EAP121的例子中,我们可以说“[0, 5, 10, 15, 2025]

 

        为我刚刚提到的每个评分等级的每个元素包含以下标准(总计):[任务1、任务2和组织结构]”

 

步骤3:为每个表现水平开发描述符


       每个表现水平的描述符应强调工作质量,而不仅仅是数量。这种方法确保评估标准提供有意义的反馈,从而使学生能够在表现中做出明智的改进。


人工智能提示:


       “
为每个标准和每个评分等级生成一个描述符,强调理解的深度、沟通的清晰度、遵循惯例的程度以及信息的准确性等定性方面。

 

EAP121的例子中,我们可以说:对于任务1,请特别关注与思想发展相关的以下要素:


研究目标
假设
使用的来源数量
包含的图表

任务1得分为10的描述示例如下


思想/信息/数据发展得当,但可能缺乏清晰度。
研究目标和相关假设被陈述。
使用了6个来源提供想法;其中至少3个具有合理的学术质量。
报告必须包含2-4个图表。

 

对于任务2,请特别关注以下要素:


来源使用
改写准确性
报告技巧
使用报告动词

 

任务2得分为10的描述示例如下:


来源证据在一半的时间内清晰有说服力。一些改写是准确的。
未使用虚假或错误来源。
来源整合技巧重复。

对于报告的组织结构,请特别关注以下要素


报告的整体组织
各部分之间及内部的连贯性
连接词的使用

 

组织结构得分为10的描述示例如下:


报告包含建议的所有主要部分。
大多数时间连接适当的报告部分的连贯性良好。
使用了一系列连接特征,但存在一些过度、欠缺或误用的情况,但错误并未降低清晰度。

 

当我们将所有的人工智能提示合并为一个提示时,生成了以下评估标准(见图片3)。

 

 

(图片3:生成的评估标准)


        在这一阶段,我们可以根据需要调整评估标准或修改示。人工智能生成的描述符并非即插即用的。教育工作者应修改语言,以确保其准确符合课程的具体标准和期望。

 

步骤4:定制和完善评估标准


       一旦人工智能生成了评估标准,审查和完善描述符,以确保其与具体任务和学习目标的一致性尤为重要。评估标准应通过样本学生作品进行试点测试,以识别需要进一步调整的方面。

 

       以EAP121为例,我们可以说:请将评分等级152025中的想法描述替换为一些想法大多数想法所有想法

 

       “请确保评分等级15中的想法发展描述比评分等级10中的更具挑战性。

       

        有关改进版本,请参见图片4

 

 

(图片4:改进版EAP121评估标准)

 

AI提示分析:有效性、可靠性、公平性和效率

 

        用于创建EAP047和EAP121整体评估标准的AI提示旨在确保遵循有效性、可靠性、公平性和效率四项原则:

 

  • 有效性:提示明确纳入课程学习目标,确保评估标准与课程预期成果的一致性。通过将标准与课程的具体目标相联系,评估标准准确衡量学生应达到的目标。
  • 可靠性:提示指示AI生成关注工作质量而非仅仅是数量的描述符。这种关注促进了不同评估者在解释和应用评估标准时的一致性,从而减少评分的变异性。
  • 公平性:提示强调使用学生友好的语言和清晰、透明的标准。这确保所有学生理解期望,从而创造一个公平的评估环境。
  • 效率:通过以表格形式生成具有特定描述符的评估标准,AI提示简化了评估标准的创建过程,节省了教育者的时间,同时保持准确性和细节。

 

        当这些组件有效整合时,AI生成的评估标准与这四个指标高度一致。教育者可以进一步完善评估标准,以确保其满足学生的具体需求。

 

结论

 

        在评估标准设计中整合AI驱动的工具具有显著优势,如提高效率、增强一致性和改善与学习目标的对齐。然而,有效实施AI生成的评估标准需要教育者仔细定制并进行持续评估,以确保其满足学生和教育者的具体需求。此外,将AI生成的评估标准与现有的成熟评估标准进行比较,以确保与经过验证的标准和实践的一致性同样至关重要。在最终确定评估标准后,教育者应收集学生和同事的反馈,以评估其有效性并进行必要的调整。

 

 

 

参考文献

 

Allen, D. and K. Tanner (2006). Rubrics: Tools for making learning goals and evaluation criteria explicit for both teachers and learners. CBE – Life Sciences Education 5: 197-203.

 

Barney, S., Khurum, M., Petersen, K., Unterkalmsteiner, M., & Jabangwe, R. (2011). Improving students with rubric-based self-assessment and oral feedback. IEEE transactions on Education55(3), 319-325.

 

Campbell, A. (2005). Application of ICT and rubrics to the assessment process where professional judgement is involved: the features of an e‐marking tool. Assessment & Evaluation in Higher Education30(5), 529-537.

 

Chen, H. J., She, J. L., Chou, C. C., Tsai, Y. M., & Chiu, M. H. (2013). Development and application of a scoring rubric for evaluating students’ experimental skills in organic chemistry: An instructional guide for teaching assistants. Journal of chemical education90(10), 1296-1302.

 

Felder, R. M., & Brent, R. (2016). Teaching and learning STEM: A practical guide. San Francisco: Jossey-Bass.

 

Jonsson, A. (2014). Rubrics as a way of providing transparency in assessment. Assessment & Evaluation in Higher Education39(7), 840-852.

 

Menéndez-Varela, J. L., & Gregori-Giralt, E. (2018). Rubrics for developing students’ professional judgement: A study of sustainable assessment in arts education. Studies in Educational Evaluation58, 70-79.

 

Nolen, A., (2024). AI-Powered Rubrics. Presented at the Georgia Tech Symposium for Lifetime Learning, Georgia Institute of Technology, Atlanta, GA.

 

Panadero, E., & Romero, M. (2014). To rubric or not to rubric? The effects of self-assessment on self-regulation, performance and self-efficacy. Assessment in Education: Principles, Policy & Practice21(2), 133-148.

 

Reddy, Y. M., and H. Andrade. (2010). ‘A Review of Rubric Use in Higher Education.’ Assessment & Evaluation in Higher Education 35(4):435–48.

 

 

 

 

 


作者
王佳石,王岸瑛
英语语言中心
西交利物浦大学

日期
2024年10月11日

相关文章