正文目录

大模型能不能批改主观题？一文读懂：公平，才是 AI 评分的生死线

2025-11-20 17:12:23

文章摘要

大模型批改主观题已在多场景试点，但裸用可靠性不足，存在评分不稳定、难辨情感与思辨等问题。实证显示，经微调与任务拆解后，大模型评分与人工相关系数可达 0.952，ChatGPT 评分亦与教师评分显著相关。实现公平的核心路径为 “AI 初评 + 人工复核”“拆解评分任务” 等 “技术 + 制度” 组合模式。大模型可胜任主观题评分，但需以公平为底线，依托人类把关筑牢可靠性防线。

你有没有想过：

未来的考试卷子，会不会是 AI 来批？其实，这件事已经不是遥远的幻想：大学课堂、在线写作平台、甚至一些省级考试试点，都在悄悄使用大模型进行“主观题评分”。

但问题随之而来：AI 给的分，到底公不公平？

本文基于多篇真实论文和实测数据，把复杂的研究讲明白，让你一次读懂——

大模型评卷，到底可不可行？又如何做到公平？

一、AI 评分真的不靠谱吗？研究怎么说？

先说结论：

未经训练的大模型，确实很不可靠。

一个很典型的研究来自 Gaggioli 等人的 2025 年论文：

● GPT-4、Claude 3.5 给大学作文评分

● 与老师评分的相似度“几乎为零”

● 同一篇作文让它打两次，成绩还不一样

来源：

[2508.02442] Assessing the Reliability and Validity of Large Language Models for Automated Assessment of Student Essays in Higher Education

这意味着什么？

大模型会“情绪化评分”，不稳定。

难怪大家不敢让 AI 单独阅卷。

二、更现实的例子：高考语文老师给 AI 作文打分

2025 年，语文名师给“九个大模型写的高考作文”评分。

● 结论比较有意思——逻辑清晰？AI 很强

● 情感深度？AI 很弱

● 个性交代？几乎没有

● 思辨？不如学生

来源：

“有提升”，高考阅卷名师再评AI高考作文：九大模型座次剧烈变动|作文|高考_新浪科技_新浪网

换句话说：

AI 写得像“高分模板机器”，但不太像人。

所以问题来了——如果 AI 自己都写不出“真实的人类思维”，它如何公平地给真实学生打分？

三、那有没有成功案例？有，而且是国内的。

真正让人眼前一亮的，是一项 基于国产模型微调的主观题评分实验。

研究者把评分拆成四步：

1）读懂评分标准

2）从学生答案里找得分点

3）总结得分理由

4）最终给分结果非常惊人：

● 模型与人工的平均分差 只有 0.061

● 相关系数 0.952（几乎跟老师一样）

来源：

基于大语言模型微调的主观题自动评分研究_参考网

说明什么？

大模型不是不能评分，是不能“裸用”来评分。

经过训练、校准、拆任务，它能非常接近老师。

四、国外高校的实测：ChatGPT 的成绩竟然挺靠谱

西北农林科技大学做过一个真实课堂研究：

把学生英语作文交给——

✔ 老师评分

✔ 批改网

✔ ChatGPT用 SPSS 做相关分析后发现：

ChatGPT 的分数，竟然和老师评分显著相关！

而且平均分恰好夹在“老师”与“批改网”之间。来源：

https://fec.bjfu.edu.cn/cn/article/pdf/preview/10.3969/j.1001-7232.2024253.pdf

研究者的评价很有意思：

AI 的反馈方式，甚至比传统批改系统更能帮助学生。

这说明：

AI 评分不是洪水猛兽，而是“谨慎使用就很强”。

五、如何让 AI 评分变得“真正公平”？

1. 不是“AI 单独评分”，而是“AI 初评 + 老师复核”

国际上最成熟的方法叫 Human-AI Collaboration。

流程大概是：

● AI 先给分

● AI 标记“不确定区域”

● 老师只复核不确定卷子

这既节省人力，又保留了公平性。

来源：

[2401.06431] Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs

2. 不打绝对分，而是“谁更好”的比较式评分

日本研究者提出 LCES 方法：

AI 不直接打分，而是判断——

A 比 B 好吗？

B 比 C 好吗？再用数学模型“反推”成分数。

来源：

[2505.08498] LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models

比较判断比绝对打分更稳定，这是一种很聪明的想法。

3. 评分拆解成多个可解释任务

国内研究已经验证——拆成四步效果最好：

● 标准解析

● 找得分点

● 总结理由

● 再给分

这能让 AI 打分更“透明”。

4. 给 AI 明确“评分线索”更公平

美国研究者使用语言学特征（词汇多样性、句法复杂度、可读性指标）作为提示，让 AI 更关注这些“客观要素”，结果评分更稳、更解释得通。

来源：

7B模型颠覆教育体系：匹兹堡大学新成果，LLM + 传统语言特征显著提升自动作文打分效果 - 文章 - 开发者社区 - 火山引擎

六、最后：AI 能不能负责主观题评分？

一句话总结：

能，但不能它一个人干。

公平，永远是“技术 + 制度”共同决定的。

最强的组合是：

AI 做一致性判断 → 人类做公平性把关。

以上内容不代表本平台立场，仅供读者参考