在高考評分中,作文往往是最耗費工作量,也最具爭議的一項。近年來,由于高考作文評價體系屢遭質(zhì)疑,相關(guān)領(lǐng)域的專家學(xué)者開始思考運用機器評分,來取代準(zhǔn)確度不高且耗時耗力的人工批改。11月26日,華東師范大學(xué)中文系副教授徐默凡,在華東師范大學(xué)一場有關(guān)“應(yīng)試作文寫作質(zhì)量的計量和計算”的研討會上,就機器在作文評分中的實現(xiàn)可能性進(jìn)行了探討,并對當(dāng)下的應(yīng)試作文評分進(jìn)行了反思。
研討會現(xiàn)場。
通過數(shù)據(jù)統(tǒng)計可找出背題套題的作文
據(jù)徐默凡介紹,目前有望運用于機器評分的自然語言處理模型有三類,分別是基于規(guī)則識別、數(shù)據(jù)統(tǒng)計和神經(jīng)網(wǎng)絡(luò)的自然語言處理。
所謂基于規(guī)則識別的自然語言處理,是基于一定的規(guī)則對作文進(jìn)行句法分析和語義分析,從而掌握對語言的理解和表達(dá)。徐默凡認(rèn)為,這條路對于作文機器評分是走不通的。因為首先,人類自身并未建構(gòu)起準(zhǔn)確的作文評分標(biāo)準(zhǔn);其次,作文評價標(biāo)準(zhǔn)涉及到的因素比句子理解更多,思想、邏輯、結(jié)構(gòu)、語言等要素難以規(guī)則化。
第二種模型則是基于神經(jīng)網(wǎng)絡(luò)的自然語言處理。它的原理在于運用腦科學(xué)和仿生學(xué),模仿人腦對信息的處理方式。然而在徐默凡看來,這種模型也不適合用于機器評分。除了訓(xùn)練復(fù)雜度高,費時費力之外,無法對它的信息處理過程進(jìn)行探測和評估,因而結(jié)果的可解釋性差。
更重要的是,這種模型牽涉到了關(guān)鍵的智能倫理問題。AlphaGo的橫空出世令人驚詫,而相比圍棋,作文更是人類智能的體現(xiàn)。如果將作文評分交給人工智能,很容易引起倫理上的反感甚至恐慌。高考這一事關(guān)很多人前途的重大考試,若完全交由人工智能去判斷評分,很有可能會造成“機器將會主宰人類社會”的聯(lián)想。
于是相比之下,基于數(shù)據(jù)統(tǒng)計的自然語言處理才是更適合機器評分的模型。這種數(shù)據(jù)統(tǒng)計的基本原理是,一個句子是否合理,不必了解它的句法語義,只需要考察它在人類說過的話中出現(xiàn)的可能性大小如何:出現(xiàn)的可能性越大,即越合理;可能性越小,則越不合理。理論上,進(jìn)行這種自然語言處理時,需要把人類講過的所有話都統(tǒng)計一遍;然而在現(xiàn)實中,進(jìn)行詞頻統(tǒng)計就已綽綽有余。“詞頻統(tǒng)計現(xiàn)在已經(jīng)是比較成熟的研究成果了,”徐默凡說,“在實際中,也可以考慮到前后文的關(guān)聯(lián)和影響。只是考慮的詞越多,意味著計算也會越復(fù)雜。”