大模型能不能批改主观题?一文读懂:公平,才是 AI 评分的生死线

2025-11-24 16:24:15
文章摘要
大模型批改主观题已在多场景试点,但裸用可靠性不足,存在评分不稳定、难辨情感与思辨等问题。实证显示,经微调与任务拆解后,大模型评分与人工相关系数可达 0.952,ChatGPT 评分亦与教师评分显著相关。实现公平的核心路径为 “AI 初评 + 人工复核”“拆解评分任务” 等 “技术 + 制度” 组合模式。大模型可胜任主观题评分,但需以公平为底线,依托人类把关筑牢可靠性防线。

你有没有想过:

未来的考试卷子,会不会是 AI 来批?其实,这件事已经不是遥远的幻想:大学课堂、在线写作平台、甚至一些省级考试试点,都在悄悄使用大模型进行“主观题评分”。

但问题随之而来:AI 给的分,到底公不公平?

本文基于多篇真实论文和实测数据,把复杂的研究讲明白,让你一次读懂——

大模型评卷,到底可不可行?又如何做到公平?




一、AI 评分真的不靠谱吗?研究怎么说?


先说结论:

未经训练的大模型,确实很不可靠。

一个很典型的研究来自 Gaggioli 等人的 2025 年论文:

 GPT-4、Claude 3.5 给大学作文评分

 与老师评分的相似度“几乎为零”

 同一篇作文让它打两次,成绩还不一样

来源:

[2508.02442] Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education

这意味着什么?

大模型会“情绪化评分”,不稳定。

难怪大家不敢让 AI 单独阅卷。


二、更现实的例子:高考语文老师给 AI 作文打分


2025 年,语文名师给“九个大模型写的高考作文”评分。

  结论比较有意思——逻辑清晰?AI 很强

 情感深度?AI 很弱

 个性交代?几乎没有

 思辨?不如学生

来源:

“有提升”,高考阅卷名师再评AI高考作文:九大模型座次剧烈变动|作文|高考_新浪科技_新浪网

换句话说:

AI 写得像“高分模板机器”,但不太像人。

所以问题来了——如果 AI 自己都写不出“真实的人类思维”,它如何公平地给真实学生打分?


三、那有没有成功案例?有,而且是国内的。


真正让人眼前一亮的,是一项 基于国产模型微调的主观题评分实验

研究者把评分拆成四步:

 1)读懂评分标准

 2)从学生答案里找得分点

 3)总结得分理由

 4)最终给分结果非常惊人:

 模型与人工的平均分差 只有 0.061

 相关系数 0.952(几乎跟老师一样)

来源:

基于大语言模型微调的主观题自动评分研究_参考网

说明什么?

大模型不是不能评分,是不能“裸用”来评分。

 经过训练、校准、拆任务,它能非常接近老师。


四、国外高校的实测:ChatGPT 的成绩竟然挺靠谱


西北农林科技大学做过一个真实课堂研究:

 把学生英语作文交给——

 ✔ 老师评分

 ✔ 批改网

 ✔ ChatGPT用 SPSS 做相关分析后发现:

ChatGPT 的分数,竟然和老师评分显著相关!

 而且平均分恰好夹在“老师”与“批改网”之间。来源:

https://fec.bjfu.edu.cn/cn/article/pdf/preview/10.3969/j.1001-7232.2024253.pdf

研究者的评价很有意思:

AI 的反馈方式,甚至比传统批改系统更能帮助学生。

这说明:

AI 评分不是洪水猛兽,而是“谨慎使用就很强”。


五、如何让 AI 评分变得“真正公平”?


1. 不是“AI 单独评分”,而是“AI 初评 + 老师复核”

国际上最成熟的方法叫 Human-AI Collaboration

流程大概是:

 AI 先给分

 AI 标记“不确定区域”

 老师只复核不确定卷子

这既节省人力,又保留了公平性。

来源:

[2401.06431] Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs


2. 不打绝对分,而是“谁更好”的比较式评分


日本研究者提出 LCES 方法:

 AI 不直接打分,而是判断——

 A 比 B 好吗?

 B 比 C 好吗?再用数学模型“反推”成分数。

来源:

[2505.08498] LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models

比较判断比绝对打分更稳定,这是一种很聪明的想法。


3. 评分拆解成多个可解释任务


国内研究已经验证——拆成四步效果最好:

 标准解析

 找得分点

 总结理由

 再给分

这能让 AI 打分更“透明”。


4. 给 AI 明确“评分线索”更公平


美国研究者使用语言学特征(词汇多样性、句法复杂度、可读性指标)作为提示,让 AI 更关注这些“客观要素”,结果评分更稳、更解释得通。

来源:

7B模型颠覆教育体系:匹兹堡大学新成果,LLM + 传统语言特征显著提升自动作文打分效果 - 文章 - 开发者社区 - 火山引擎


六、最后:AI 能不能负责主观题评分?

一句话总结:

能,但不能它一个人干。

公平,永远是“技术 + 制度”共同决定的。

最强的组合是:

AI 做一致性判断 → 人类做公平性把关。


声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。