大模型能不能批改主观题?一文读懂:公平,才是 AI 评分的生死线
你有没有想过:
未来的考试卷子,会不会是 AI 来批?其实,这件事已经不是遥远的幻想:大学课堂、在线写作平台、甚至一些省级考试试点,都在悄悄使用大模型进行“主观题评分”。
但问题随之而来:AI 给的分,到底公不公平?
本文基于多篇真实论文和实测数据,把复杂的研究讲明白,让你一次读懂——
大模型评卷,到底可不可行?又如何做到公平?
一、AI 评分真的不靠谱吗?研究怎么说?
先说结论:
未经训练的大模型,确实很不可靠。
一个很典型的研究来自 Gaggioli 等人的 2025 年论文:
● GPT-4、Claude 3.5 给大学作文评分
● 与老师评分的相似度“几乎为零”
● 同一篇作文让它打两次,成绩还不一样
来源:
这意味着什么?
大模型会“情绪化评分”,不稳定。
难怪大家不敢让 AI 单独阅卷。
二、更现实的例子:高考语文老师给 AI 作文打分
2025 年,语文名师给“九个大模型写的高考作文”评分。
● 结论比较有意思——逻辑清晰?AI 很强
● 情感深度?AI 很弱
● 个性交代?几乎没有
● 思辨?不如学生
来源:
“有提升”,高考阅卷名师再评AI高考作文:九大模型座次剧烈变动|作文|高考_新浪科技_新浪网
换句话说:
AI 写得像“高分模板机器”,但不太像人。
所以问题来了——如果 AI 自己都写不出“真实的人类思维”,它如何公平地给真实学生打分?
三、那有没有成功案例?有,而且是国内的。
真正让人眼前一亮的,是一项 基于国产模型微调的主观题评分实验。
研究者把评分拆成四步:
1)读懂评分标准
2)从学生答案里找得分点
3)总结得分理由
4)最终给分结果非常惊人:
● 模型与人工的平均分差 只有 0.061
● 相关系数 0.952(几乎跟老师一样)
来源:
说明什么?
大模型不是不能评分,是不能“裸用”来评分。
经过训练、校准、拆任务,它能非常接近老师。
四、国外高校的实测:ChatGPT 的成绩竟然挺靠谱
西北农林科技大学做过一个真实课堂研究:
把学生英语作文交给——
✔ 老师评分
✔ 批改网
✔ ChatGPT用 SPSS 做相关分析后发现:
ChatGPT 的分数,竟然和老师评分显著相关!
而且平均分恰好夹在“老师”与“批改网”之间。来源:
https://fec.bjfu.edu.cn/cn/article/pdf/preview/10.3969/j.1001-7232.2024253.pdf
研究者的评价很有意思:
AI 的反馈方式,甚至比传统批改系统更能帮助学生。
这说明:
AI 评分不是洪水猛兽,而是“谨慎使用就很强”。
五、如何让 AI 评分变得“真正公平”?
1. 不是“AI 单独评分”,而是“AI 初评 + 老师复核”
国际上最成熟的方法叫 Human-AI Collaboration。
流程大概是:
● AI 先给分
● AI 标记“不确定区域”
● 老师只复核不确定卷子
这既节省人力,又保留了公平性。
来源:
[2401.06431] Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs
2. 不打绝对分,而是“谁更好”的比较式评分
日本研究者提出 LCES 方法:
AI 不直接打分,而是判断——
A 比 B 好吗?
B 比 C 好吗?再用数学模型“反推”成分数。
来源:
比较判断比绝对打分更稳定,这是一种很聪明的想法。
3. 评分拆解成多个可解释任务
国内研究已经验证——拆成四步效果最好:
● 标准解析
● 找得分点
● 总结理由
● 再给分
这能让 AI 打分更“透明”。
4. 给 AI 明确“评分线索”更公平
美国研究者使用语言学特征(词汇多样性、句法复杂度、可读性指标)作为提示,让 AI 更关注这些“客观要素”,结果评分更稳、更解释得通。
来源:
7B模型颠覆教育体系:匹兹堡大学新成果,LLM + 传统语言特征显著提升自动作文打分效果 - 文章 - 开发者社区 - 火山引擎
六、最后:AI 能不能负责主观题评分?
一句话总结:
能,但不能它一个人干。
公平,永远是“技术 + 制度”共同决定的。
最强的组合是:

