B) 运用适合水平的阅读策略,从分级的非学术和学术阅读材料中提取意义。
D) 针对非学术和学术任务,生成具有适合水平的连贯性、复杂性和准确性的书面回应。
E) 展示对适合水平的语言形式的意识和理解。
F) 展示对多种学术技能和惯例的意识及运用能力。”
(图1:整体性提示)
(图2:生成的评估标准)
从这个基础上,我们可以根据具体需求进一步细化评估标准或调整提示。例如,在本案例中,通过请求人工智能“使用项目符号简化评估标准”,我们有效地简化了评估标准的描述。相比于手动为每个作业耗费大量时间创建评估标准,利用生成性人工智能代替显著提升效率。
案例研究2:研究报告的分析性评估标准(EAP121)
在EAP121课程中,开发了一种分析性评估标准,用于评估学生研究报告。分析性评估标准将任务分解为多个独立标准,每个标准单独评估,提供更详细且具体的的反馈。这种评估方式特别适用于复杂任务,使学生能够识别具体的改进领域。由于语言部分已经从ELC提供的Y2主描述符中获得,以下演示将重点关注剩余的三个标准:任务1(思想发展)、任务2(来源使用和应用)以及组织结构。
步骤1:定义任务和学习目标
在生成评估标准之前,必须明确定义学生任务及相应的学习目标。这一基础信息确保人工智能生成的标准与课程目标和评估标准评估标准高度一致。
• 人工智能提示:
“为学生创建一个清晰的分析性评估标准,格式为表格。评估标准适用于以下任务:[粘贴任务描述]。”
在EAP121的例子中,我们可以将任务框定为: “每位学生需要提交一份个人最终报告,该报告将进行正式评估。
学生必须按照《报告写作指南》中规定的格式撰写报告,即摘要、引言、方法、结果、讨论和结论。
研究目标和相关假设必须清晰陈述。
来源:您必须包含至少6个来源;您的来源必须是英语文献,并且通常适合学术工作(例如,学术期刊文章、信誉良好的新闻/杂志文章和学术讲座/视频)。
报告必须包含2-4个自制图表,代表结果部分收集的数据。
字数为1,300字(+/- 10%)。标题、摘要、参考文献列表和附录不计入字数。”
• 人工智能提示:
“评估标准应包含三个部分:评分和等级、标准和描述符。评估标准应与以下课程目标完全一致:[粘贴课程学习目标]。”
在EAP121的例子中,我们可以说: “展示一系列学术阅读技能,包括定位相关来源材料和选择适当信息以完成学术任务的能力。
展示一系列学术研究技能,包括选择和完善研究问题、进行小规模研究以及展示和分析这些研究。
展示一系列学术写作技能,包括遵循学术任务的结构大纲(例如,研究报告)、使用学术语言和应用学术诚信要求。”
步骤2:生成评分等级和标准
下一步是生成评分等级并定义用于评估任务的标准。人工智能提示应指定表现水平的数量,并确定需要评估的任务的具体方面。
• 人工智能提示:
“使用以下评分等级生成评估标准:[粘贴评分等级]。为上述每个评分等级的每个元素包含以下标准:[粘贴所需标准/组成部分] 。为每个标准和每个评分等级生成一个基于提供的目标的描述符。”
在EAP121的例子中,我们可以说“[0, 5, 10, 15, 20和25]
为我刚刚提到的每个评分等级的每个元素包含以下标准(总计):[任务1、任务2和组织结构]”。
步骤3:为每个表现水平开发描述符
每个表现水平的描述符应强调工作质量,而不仅仅是数量。这种方法确保评估标准提供有意义的反馈,从而使学生能够在表现中做出明智的改进。
• 人工智能提示:
“为每个标准和每个评分等级生成一个描述符,强调理解的深度、沟通的清晰度、遵循惯例的程度以及信息的准确性等定性方面。”
在EAP121的例子中,我们可以说:“对于任务1,请特别关注与思想发展相关的以下要素:
• 研究目标
• 假设
• 使用的来源数量
• 包含的图表
任务1得分为10的描述示例如下:
• 思想/信息/数据发展得当,但可能缺乏清晰度。
• 研究目标和相关假设被陈述。
• 使用了6个来源提供想法;其中至少3个具有合理的学术质量。
• 报告必须包含2-4个图表。
对于任务2,请特别关注以下要素:
• 来源使用
• 改写准确性
• 报告技巧
• 使用报告动词
任务2得分为10的描述示例如下:
• 来源证据在一半的时间内清晰有说服力。一些改写是准确的。
• 未使用虚假或错误来源。
• 来源整合技巧重复。
对于报告的组织结构,请特别关注以下要素:
• 报告的整体组织
• 各部分之间及内部的连贯性
• 连接词的使用
组织结构得分为10的描述示例如下:
• 报告包含建议的所有主要部分。
• 大多数时间连接适当的报告部分的连贯性良好。
• 使用了一系列连接特征,但存在一些过度、欠缺或误用的情况,但错误并未降低清晰度。”
当我们将所有的人工智能提示合并为一个提示时,生成了以下评估标准(见图片3)。
(图片3:生成的评估标准)
在这一阶段,我们可以根据需要调整评估标准或修改示。人工智能生成的描述符并非“即插即用” 的。教育工作者应修改语言,以确保其准确符合课程的具体标准和期望。
步骤4:定制和完善评估标准
一旦人工智能生成了评估标准,审查和完善描述符,以确保其与具体任务和学习目标的一致性尤为重要。评估标准应通过样本学生作品进行试点测试,以识别需要进一步调整的方面。
以EAP121为例,我们可以说:“请将评分等级15、20和25中的想法描述替换为‘一些想法’、‘大多数想法’和‘所有想法’。”
“请确保评分等级15中的想法发展描述比评分等级10中的更具挑战性。”
有关改进版本,请参见图片4。
(图片4:改进版EAP121评估标准)
AI提示分析:有效性、可靠性、公平性和效率
用于创建EAP047和EAP121整体评估标准的AI提示旨在确保遵循有效性、可靠性、公平性和效率四项原则:
当这些组件有效整合时,AI生成的评估标准与这四个指标高度一致。教育者可以进一步完善评估标准,以确保其满足学生的具体需求。
结论
在评估标准设计中整合AI驱动的工具具有显著优势,如提高效率、增强一致性和改善与学习目标的对齐。然而,有效实施AI生成的评估标准需要教育者仔细定制并进行持续评估,以确保其满足学生和教育者的具体需求。此外,将AI生成的评估标准与现有的成熟评估标准进行比较,以确保与经过验证的标准和实践的一致性同样至关重要。在最终确定评估标准后,教育者应收集学生和同事的反馈,以评估其有效性并进行必要的调整。
参考文献
Allen, D. and K. Tanner (2006). Rubrics: Tools for making learning goals and evaluation criteria explicit for both teachers and learners. CBE – Life Sciences Education 5: 197-203.
Barney, S., Khurum, M., Petersen, K., Unterkalmsteiner, M., & Jabangwe, R. (2011). Improving students with rubric-based self-assessment and oral feedback. IEEE transactions on Education, 55(3), 319-325.
Campbell, A. (2005). Application of ICT and rubrics to the assessment process where professional judgement is involved: the features of an e‐marking tool. Assessment & Evaluation in Higher Education, 30(5), 529-537.
Chen, H. J., She, J. L., Chou, C. C., Tsai, Y. M., & Chiu, M. H. (2013). Development and application of a scoring rubric for evaluating students’ experimental skills in organic chemistry: An instructional guide for teaching assistants. Journal of chemical education, 90(10), 1296-1302.
Felder, R. M., & Brent, R. (2016). Teaching and learning STEM: A practical guide. San Francisco: Jossey-Bass.
Jonsson, A. (2014). Rubrics as a way of providing transparency in assessment. Assessment & Evaluation in Higher Education, 39(7), 840-852.
Menéndez-Varela, J. L., & Gregori-Giralt, E. (2018). Rubrics for developing students’ professional judgement: A study of sustainable assessment in arts education. Studies in Educational Evaluation, 58, 70-79.
Nolen, A., (2024). AI-Powered Rubrics. Presented at the Georgia Tech Symposium for Lifetime Learning, Georgia Institute of Technology, Atlanta, GA.
Panadero, E., & Romero, M. (2014). To rubric or not to rubric? The effects of self-assessment on self-regulation, performance and self-efficacy. Assessment in Education: Principles, Policy & Practice, 21(2), 133-148.
Reddy, Y. M., and H. Andrade. (2010). ‘A Review of Rubric Use in Higher Education.’ Assessment & Evaluation in Higher Education 35(4):435–48.