文汇报|徐默凡:人工智能评判学生作文,靠谱吗?

作者:     信息来源: 文汇报     发布时间: 2017-12-22
字体大小:A A A

在中考、高考这样的高利害考试中,套题写作是一个突出问题。实际评分时,有时难以认定并客观给分。

  今后,如果有统计型的人工智能参与,那就可以找出相似度很高的作文进行对比、评判,并且给出精确的重复率百分比。在记叙文评价时,甚至可以更精细地通过自动摘要技术、关键词技术找出同样事例来一起评分。

  这些技术处理,无疑将为防范抄袭、套题等不良行为提供有效措施。


  近来,人工智能成了炙手可热的话题:在“阿尔法围棋”横扫人类顶尖棋手之后,又被自己的升级版本“阿尔法元”无情碾压;一个名叫索菲亚(Sophia)的“女性”机器人被授予沙特阿拉伯国籍;而著名科学家霍金则表示,人工智能的崛起可能是人类文明的终结……

  在这样一种背景下,我们不禁想要探讨一下:对于语文教育,人工智能可以做什么?


深度学习目前最接近人类智能


  要回答上述问题,需要先了解一下人工智能在自然语言处理中的工作模式。

  所谓自然语言处理,简单点说,就是利用计算机对人类语言进行分析,以完成自动分词、词性标注、语音识别、自动文摘、机器翻译、人机对话等一系列由简到繁的语言任务。在自然语言处理技术的发展过程中,经历了三种研发模式:

  第一种是基于规则的自然语言处理模式,主要通过对话语进行语法分析和语义分析,然后转换成计算机程序以实现自然语言的理解和表达。这种工作模式是最容易想到也是最早进行广泛研究的,它依赖于语言学家和计算机专家的通力合作。但是,这种模式很快就遇到了无法突破的瓶颈,因为人类的语言理解过程实在太复杂,而语言学家对自然语言的分析很不充分,无法提供充足的语法规则和语义规则,计算机专家就陷入了“巧妇难为无米之炊”的窘境。

  第二种是基于统计的自然语言处理模式,主要是对语言表达进行概率统计。这种模式下的人工智能,不需要了解话语的句法结构和语义关系,只需考察它被人类说出的可能概率就行,被说出的概率越大,相关话语就越合理。而概率的计算,可以通过大语料库基础上的词频统计来实现。这种工作模式不需要语言学家提供复杂的规则,让计算机搞统计正是它最拿手的工作。统计模式的广泛运用,在语音识别、机器翻译等领域产生了革命性变化,使很多技术从实验室走向了实际应用。

  第三种是深度学习的自然语言处理模式。深度学习依赖的是大规模人工神经网络,也就是利用大量电脑处理单元对人类大脑的神经元系统进行模拟,然后让这个人工神经网络通过不断自我学习和自我调整来完成相应的工作。这可能是目前最接近人类智能的一种人工智能模式,目前的发展态势惊人,全面超越“阿尔法围棋”的“阿尔法元”利用的主要就是深度学习技术。


把作文评分交给电脑?高利害考试中无法实施


  三种工作模式下的不同人工智能能不能应用于语文教育呢? 我们不妨以作文评分为例来分别加以说明。

  如果让人工智能给学生作文评分,按照基于规则的工作模式,就必须把评价一篇作文好坏的要素都找出来,如语言、结构、内容、思想等等。最关键的工作还要把这些评分因素量化,比如给一篇作文的“语言”项目打10分,你就得告诉电脑,这10分的依据是什么?是词汇量多少,还是句子的复杂度,还是句式的不同类型? 在第二语言教学中,类似的评分系统已经得到较为广泛的应用,因为仅是“语言”项目的话还比较容易量化,但在母语作文评价中其可行性显然不大。因为对于母语作文评分来说,结构、思想等项目更为重要,之前人类阅卷者的评价主要依赖整体感知,但这种感觉很难分解,更无法量化。因此,基于规则的人工智能模式很难在作文评分上有用武之地。

  如果是基于统计的工作模式,那我们就必须掌握足够数量的作文语料,然后构建大型语料库,分析其中各类型作文的各种数据。比如,优秀作文和一般作文在词汇量和句子结构上有什么统计差异;比如,议论文平均用几个例子,平均引用多少句名人名言;又比如,记叙文写了几个细节,每个细节平均多少字……在统计的基础上,把每篇作文在各方面的表现与平均值进行比对,然后评分数。

  显然,基于统计的人工智能模式可以详细描写作文的各方面数据,也可以根据这些数据对作文进行等级排序,但是统计哪些数据、这些数据的解释意义,这些数据与作文分数之间的关系,仍然需要语文专家提供意见,而这方面的研究仍然非常薄弱的。

  如果是深度学习的工作模式,那就需要有大量事先标注好的作文对机器进行训练,这些已经精准给分的学生作文,被称为“训练语料”。将训练语料输入到人工神经网络,由其分解为一组向量,再通过分层计算得出评分,然后将机器评分与已经标注好的得分相比较,得到误差值。再根据误差值,调整人工神经网络的计算方法和各个向量的权重,这样反复训练后最后可以达到理想效果:人工神经网络的评分结果和事先标注的作文分数高度一致。这样,就算在训练语料的封闭环境里获得了成功,然后就可以推向开放环境,也就是提供没有正确评分的陌生作文,直接由机器打分。如果经验证后和人类专家的评分结果一致,那么我们就得到了一个能自动评分的人工智能。

  深度学习的自动评分在理论上是有可能获得成功的,但是问题也很多。首先,即使评分结果可用,过程的可解释性也很差。人工神经网络把输入的作文仅当作一个数据序列,不考虑这篇作文的语言表现、思想内容,只是通过各种复杂计算的调试获得理想的结果。机器的分析过程是没有理据的,准确地说是和人类评价作文优劣的理据截然不同——它只是把活干了,但是它是以机器的方式干成的,人类无法理解。其次,我们刚才对研发过程的说明其实是过于轻描淡写了,真正要获得实用的理想结果,训练复杂度以及因此而要耗费的精力和财力在目前技术条件下恐怕是没法想象的。更重要的是,这里还存在一个“智能伦理”问题,如果把代表人类智能结晶的作文交给机器去评分,而这机器又是以人类无法理解的方式评阅的,这恐怕会大规模引发公众的质疑甚至恐惧,在高利害考试中是根本无法实施的。

  根据以上分析,要在作文评价领域完全使用人工智能,不说完全不可能,至少要走的路还很长很长。


作为语文教育的辅助工具人工智能将大有作为


  那么,在语文教育领域,人工智能是否毫无作为呢? 当然不是。我们认为,人工智能可以成为一个很好的辅助工具,在诸多领域大有可为。

  在阅读教学中,人工智能可以全面统计阅读材料的各种表现,为阅读材料的难度分级提供可量化的标准,从而为教材选文、编制课外阅读书目等教学实践提供有效的帮助。在写作教学中,人工智能可以通过自动摘要、自动校对等技术对学生作文进行辅导,从而提升一些基本的语言技能和写作技术。在练习系统中,人工功能可以构建封闭的专家系统,对一些有标准答案的知识自动出题、自动测试、自动讲解,极大提高参与性和趣味性……

  在评价领域,我们还是以之前分析过的作文评分来详细谈谈人工智能的可能应用吧。在中考、高考这样的高利害考试中,套题写作是一个非常严峻的问题,在实际评分时,有时难以认定并客观给分。今后,如果有统计型的人工智能参与,那就可以找出相似度很高的作文来对比、评判,并且给出精确的重复率百分比。在记叙文评价时,甚至可以更精细地通过自动摘要技术、关键词技术找出同样事例来一起评分。这些技术处理无疑为杜绝抄袭、套题等不良行为提供了有效的防治措施。

  此外,可以通过计算作文语句在大数据库中出现的概率值来对作文语言的规范性进行评价。作文语言的出现概率值越高,说明其用法越常规,越符合大众的语言规范。而概率值特别低则提示了两种可能性,一个是语言不规范,应给予负面评价,一个是语言新颖,应给予正面评价,机器初步筛选后的具体判断工作可以交给人类专家来执行,从而使作文语言项目的评分更加准确规范。

  还有,统计型人工智能还可以对学生作文的整体表现进行系统评估。通过对历届考试作文的统计分析,可以得出一系列大数据,如作文平均词量和字量、平均句长和句法复杂度、虚词使用情况等进行统计分析,为基层的作文教学提供充足的科学数据。

  最后想强调的是,人工智能除了在实际应用中对语文教育有多方面的辅助作用,其开发和研究中遇到的一些问题也在倒逼语文教育工作者思考一些最基本的语文问题:要解决阅读材料难度分级的问题,就必须搞清楚构成阅读材料难度的因素有哪些;要解决人工智能自动命题自动训练的问题,就必须搞清楚语文学科必备的知识点有哪些;要解决作文自动评分的问题,就必须搞清楚作文的可操作的评价量表是怎么样的……这些基本的语文难题以前都是含混处理掉了,这些问题不解决,人工智能再先进也不可能对语文教育产生决定性的影响。


阅读原文


作者|徐默凡(我校中文系副教授)

来源|文汇报

编辑|吴潇岚


浏览次数: 532

更多
回到顶部