慕尼黑工大 × 蔡司联合发布：AI 手术工作流精准建模

2025-12-18 09:50:39

文章摘要

手术 AI 落地难，数据稀缺、模型难解释。ProtoFlow 用动态场景图和原型学习解决，少样本训练准度远超传统模型，文中还提医疗 AI 的三大转变。

1. 为何手术 AI 难以落地？

手术视频分析是实现外科自动化与临床决策支持的基础。但在实际落地过程中，面临着两个难以逾越的难点：一是数据稀缺，高质量的手术视频标注成本极高；二是不可解释性，深度学习模型往往是一个黑箱，医生无法理解模型做出判断的依据，从而难以建立信任。

目前主流的手术分析方法主要基于帧级分类，即通过分析每一帧画面来识别手术阶段或器械。这种方法在处理孤立任务时表现尚可，但在面对复杂的手术流程时存在明显局限：

针对上述问题，研究团队提出的 ProtoFlow 核心思路是放弃对像素的死记硬背，转而学习手术的逻辑结构。它结合了动态场景图与原型学习技术。

1. 动态场景图：将手术结构化 研究团队将手术场景建模为一张动态图谱。

2. 原型学习：提炼标准术式 ProtoFlow 并不直接记忆每一个样本，而是通过聚类算法，从训练数据中提炼出代表不同手术阶段的核心模式，称为原型。

研究团队在白内障手术数据集（CAT-SG）上对 ProtoFlow 进行了评估，结果显示其在数据效率和鲁棒性上具有显著优势。

极少样本学习表现

在仅使用 1个标注视频进行训练的极端情况下：

当训练样本增加到 5个视频时，ProtoFlow 的准确率进一步提升至 62.66%，远超基线模型的 43.56%。

这一结果证明，通过学习抽象的结构化原型，模型可以在极度缺乏数据的情况下掌握手术流程的核心逻辑。

可解释性验证

在处理罕见的手术并发症时，ProtoFlow 展现了独特的优势。在一项测试中，手术因发生“虹膜脱垂”而意外转入“玻璃体切除”阶段：

基于 ProtoFlow 的研究成果，我们可以观察到医疗 AI 领域正在发生的三个重要转变：

1. 结构化知识将成为关键 医疗数据标注的高门槛注定了我们无法像训练通用大模型那样使用无限的数据。ProtoFlow 证明了，通过引入先验知识（如场景图结构）和逻辑抽象（如原型），小规模数据也能训练出高性能模型。这为医疗 AI 在罕见病和复杂术式中的应用开辟了新路径。

2. 硬件厂商正在向“软硬结合”转型 卡尔·蔡司作为本研究的合作方，释放了明确的信号：随着 AI 技术的推进，高端医疗设备厂商正在从单纯的硬件制造，转向提供**“硬件+算法”**的整体解决方案。

3. 去白盒化是临床准入的必要条件 随着监管机构（如 FDA、NMPA）对 AI 医疗器械安全性要求的提高，黑盒模型面临的合规挑战日益严峻。类似 ProtoFlow 这种能够提供节点级解释、将决策过程可视化的技术，将成为 AI 系统进入核心临床流程的必备通行证。

论文链接 (arXiv): ProtoFlow: Interpretable and Robust Surgical Workflow Modeling with Learned Dynamic Scene Graph Prototypes https://arxiv.org/abs/2512.14092
CAT-SG 数据集相关研究: https://arxiv.org/abs/2506.21813
慕尼黑工业大学计算机辅助医疗程序实验室 (CAMP): https://www.cs.cit.tum.de/camp/start/

以上内容不代表本平台立场，仅供读者参考