在教育领域使用 ChatGPT 一年有感
       自从去年 (2023 年) 年初以来,我使用ChatGPT 将近一年,见证了它从3.0升级到3.5版本,然后过渡到4.0版本。我从最初使用时的惊讶、困惑,到现如今波澜不惊的熟练运用,期间经历了一段难忘的历程。本文分享一些我对这段历程中的看法和收获。
 
惊人的体验
 
       正如很多人描绘的那样,这个产品震撼人心。让我最为吃惊的有三点:
 
       第一,不管中文还是英文,GPT生成的文字都具有非凡的自然性和流畅性。我原以为它只不过是一个升级版的搜索引擎,只是更好的整合了搜索结果,但是用起来就发现远非如此。它通过了图灵测试,给出的是以假乱真的人类对话。日常生活里,我们常接到机器打来的推销或者问卷调查电话,在经历了多次后,就很容易能判断出对面并不是真人来电,即使不等对方说完就挂断电话也不会有心理负担。但跟ChatGPT 聊起来,感觉它与真人并无差异。 它名字里的字母 T,意思是 Transformer——我们最熟悉的 Transformer是变形金刚,所以与ChatGPT聊天的感受可以参考电影里变形金刚们的聊天模式。
 
        第二,GPT的聊天是 “生成型” 的,输出的内容具有原创性。这就是它名字里 G 的含义,Generative。它生成的句子和段落是本来不存在的,在网络上无法搜索到完全相同的内容。为此,我做了下面几个测试:
 
  • 我让ChatGPT根据特定主题写一份基金申请书,它在几秒钟内迅速生成了一份。暂且不论质量,它确实符合项目提案的形式,结构全面,逻辑连贯。

 

  • 当我辅导我的小儿子做家庭作业时,我让ChatGPT以三年级水平写一篇《寒假趣事》的文章,它转眼间就完成了。我把它展示给孩子们,讨论其优缺点。

 

  • 我还让 ChatGPT 写了一些中英文诗歌,例如以 “斜塘元宵节” 为题,它写了一首英文诗:

 

        In Xietang's lantern-lit embrace,
        The spirit of tradition finds its place.
        A timeless celebration, a vibrant display,
        The Lantern Festival in Suzhou, a wondrous array.
 
        这首诗读起来非常令人回味,但不免有些许生硬。而中文版实在是令人惊艳:
 
        追忆缅怀,怦然心动。
        蹉跎转眼,即是华灯。
 
       短短几行字就让欢度元宵佳节的画面浮现在眼前。不仅如此,诗中还有情绪的递  进,使人感觉身临其境。

 

  • 我讲授大三的 “环境统计学”,学生有一项作业,是根据一些环境科学的数据写个分析报告,要求包含 R 代码的数据分析过程。我把这项作业布置给 ChatGPT,它也在几秒内就完成了,而这篇报告与学生们写的报告相比,甚至比大多数学生的都略胜一筹。我的学生们提交作业时,会经过 “查重”,查询与已有的文献、网上的资源以及本校学生之前提交的作业相比有多大的重复率。但是由于 ChatGPT 输出的文字具有原创性,查重这一方法实行起来就变得较为困难了。这可能会给我们将来评定学生的作业成绩时带来较大的困难。
 
       第三,ChatGPT的对话具有连贯性,并且有一定的自我纠正能力。。当我们使用搜索引擎搜索查询信息时,往往不能对查到的结果进行进一步搜索,而 ChatGPT 对一个问题给出答案后,我们可以继续追问,让他对前面的答案进行补充或修正,并不需要我们重复上一个问题,这让我非常惊喜。在教学中,有时学生会通过邮件向我询问问题,但由于邮件的局限性,学生可能无法清晰表达出真正想问的问题。就像我们在统计之都的论坛经常遇到的一些提问,因为表述不清楚,导致回答者给的答案并不是提问者想要的,于是提问者重新问,别人重新答,几个回合下来,双方都失去了耐心。有了 ChatGPT 这种连贯性的对话,这个问题就好办了,因为 AI 不会产生不耐烦的情绪(至少目前不会)。比如,我跟 ChatGPT 有这样一段连贯的对话:
 
第一回合:
 
        我:用 R 语言写一段代码, 输出 1000 以内所有的质数。
 
        ChatGPT: (代码略。用了一个双重循环)
 
第二回合:
 
        我:能不能给我一个没有双重循环的代码?
 
        ChatGPT:好(代码略。用了一个单循环, 还解释说这样能提高代码的效率)。
 
       它这句解释让我吃惊,因为我并没有说为什么不要双重循环,而它的解释恰恰是我心里想的原因——它猜中了我内心的想法!
 
第三回合:
 
        我:我连单循环也不要,你能不能做到?
 
        ChatGPT:能(代码略。给了个没有循环的代码)。
 
第四回合:
 
        我:有没有现成的包可以用?
 
        ChatGPT:有(给出了包和函数)。
 
       在这个互动过程中,我逐渐发现,其实最初我就是希望用一个现成的函数来解决问题,但连自己都没有意识到这个意图。在跟 ChatGPT 一来二去的对话中,通过提出越来越精细的问题,我内心的真实想法也逐渐清晰。
 
隐藏的陷阱
 
       不过,经过更多的测试,我发现以上三方面处处隐藏着陷阱。
 
       ChatGPT 语言自然流畅,加上它似乎无所不知。跟它聊起来,会非常消磨时间。如果社恐的话,由于跟它聊天没有任何思想负担,可能更容易上瘾而无法自拔。只要不是系统繁忙,人可以跟它一直聊下去。殊不知它看似是一个夸夸其谈的真人,言语健谈,其实谈话的内容中有很多谬误,这也是我下面想说的。
 
       尽管ChatGPT输出的内容颇具原创性,但在创建这些有趣内容的同时也伴随许多错误的产生,它们鱼龙混杂在一起,难以辨别真假。比方说,它可以写一个项目建议书,引用了一些参考文献,而这些文献中有很多是它自己编出来的。文献的作者确有其人,期刊也真实存在,格式的模样也严格符合学术规范,但实际上这些文章根本不存在。这让我想起来关于ChatGPT 3.5的一个段子:
 
甲:我口算非常快。
 
乙:是吗?那么 28 乘 46 等于多少?
 
甲:等于 196。
 
乙:…… 你这算得不对呀!
 
甲:我说我算得快,并没说我算得对啊。
 
       ChatGPT 就像段子里的甲,让它做一个事情,是能做出来,但不一定是对的,很容易浑水摸鱼。尽管GPT的新版本已经大大改进了这一点,但在这个问题上我们还是不能掉以轻心,并始终应该对输出的结果进行双重检查。
 
       ChatGPT 有自我纠正的能力,但有时候会过度纠正。我曾看到过一个关于GPT3.0的例子:
 
甲:3 加 4 等于几?
 
ChatGPT:等于 7。
 
甲:我老婆说等于 8。
 
ChatGPT:您夫人可能算错了。
 
甲:我老婆永远是对的。
 
ChatGPT:抱歉,我的数据是 2021 年之前的,有可能是错误的。如果您夫人总是对的,那就等于 8 吧。
 
GPT 4.0 给出了类似的答案,但更具有幽默感:
 
       ChatGPT:大多数数学场景下,3加4等于 7。但是,我可以理解在某些场合下,个人或幽默的因素会改变这个结果。在这种场合下,如果您夫人说3加4等于8,那它就等于8!
 
       末尾的感叹号给这个回答增添了不少趣味。
 
       我做了一个类似的测试,就是胡编乱造了一个地名,问它这个地方是否存在。它说不存在。我说我知道这个地方是存在的。ChatGPT 就改变答案了,说 “那就存在吧”。真是缺乏原则。
 
       当然,我们回过头来想,它姓 Chat,本质上是个聊天工具;如果只把它当成一个很会夸夸其谈的人来看待,就可以理解它的这些行为了。
 
学界的冲击
 
      我们学校(西交利物浦大学)从2023年2月开始,带领所有教职员工进行了一系列的讨论,议题就是如何应对ChatGPT 对高校教育的冲击。此次讨论异常激烈,讨论过程中不乏出现了众多不同的声音。会议期间,教师们对是否应该同意学生使用 ChatGPT 进行了投票表态。在禁止、限制使用、开放三者之间,大部分老师选择了限制使用。有一个老师提出了一个非常有趣的说法:我们对待学生使用 ChatGPT 的态度,就像对少年儿童的性教育一样:他们迟早会知道,现在的问题就是,应该由谁在什么时候让他们知道。我认为,与其让学生们从良莠不齐的渠道了解GPT,还不如我们用合理的教育方法来引导他们。
 
       这次会议还有一个环节,就是让我们设计一个无法在AI 帮助下完成的学生作业。这项任务对于我们生化环材专业来说非常简单:只需要进行实验,比如说分析化学的滴定操作,或者野外观测和调查等需要学生亲自去到现场才能完成的任务,这些目前 超出了AI的能力范围。然而,这些方法可能并不适用于其他专业。有些考核形式是写报告或论文这类基于写作的作业,如果学生用 ChatGPT 去完成,我们就难以辨别出来它们。可能未来我们会增加口头报告、辩论、小组讨论等作业的比重。而我教的环境统计学,以前为了节省时间,会让学生使用R 语言包自带的一些数据集进行分析,未来我会将它们替换成自己科研中的数据文件,这是没有办法上传到的 ChatGPT 上的,从而在最大程度上避开 AI 的帮助。
 
       但是,与其千方百计避开 AI,不如顺势而行,设计一个让 AI 来帮助学生完成的作业,然后我们把学生的表现剥离出来进行评价。这或许会成为我们将来考虑的方向。目前,我们正在开展一项由教学发展基金(TDF)支持的项目,该项目旨在将AI纳入评分过程中。与其将AI定位为我们的对立面,不如从更高的层面看待它,把 它 当作一个工具,就像学生用计算器代替笔算、用搜索引擎代替字典一样,为我们所用。
 
适合的场景
 
       我认为 ChatGPT 最适合这样的场景:
 
  • 从无到有地生成一个东西。它生成的文章,逻辑框架是比较好的。有时候我们写文章感觉很难落笔,那么先让它生成一个大致的骨架,我们再进行调整,而后往里充实血肉,就会容易很多。此外,它的语言流畅,对于我们这种非英语母语者写英文文章来说,它就像一位私人秘书,可以给予我们很大帮助。

 

  • 辅助学习。上文提到 ChatGPT 写代码来列出质数,我从它对代码的改善过程中,一步一步学到如何去把代码写得更好。在辅导孩子做功课上,能解决家长们的一块心病。
 
      那么,它不适合哪些场景呢?
 
  • 涉及你自身的想法,或原创作品时。如果你有诺奖级的想法,不要去问它,也不要允许它为这个想法的描述而修改英文的语法。它就像个很八卦的人,你永远不知道它可能会把你说给它的话转述给谁。

 

  • 涉及专业的东西。外行人可能会觉得 ChatGPT 很正经,但在专业人士听来它就是胡说八道。当然,ChatGPT 本身是通用型聊天 AI,不能奢求太多。我认为这样的工具迟早会细化到各个专业的。
小结
 
       总的来说,ChatGPT 的使用体验是令人惊叹的。这类 AI 工具是时代发展的大势所趋,无论好坏与否都会是未来的浪潮。不管我们对他们是欢欣雀跃还是忧心忡忡,AI都无动于衷。未来已来, 让我们为他们的到来提早做准备吧。
 

作者
赵鹏博士
助理教授
健康与环境科学系
理学院
西交利物浦大学

日期
2024年06月20日

相关文章