告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

塔猴速递

2026-03-23 15:55:12

图像生成

开源项目

文章摘要

香港科技大学（广州）等团队推出全新统一扩散框架UniCalli，解决AI书法生成痛点。它能精准生成书法排版与连笔，统一“书法生成”和“古籍识别”任务，已被ICLR2026接收。代码、数据集开源，上线在线Demo，盲测表现超主流大模型。

苦于AI单字拼凑没行气，或是排版秒变“鬼画符”？

这个痛点，终于被终结了。

现在，只需输入一段文字，就能让AI立刻化身王羲之、颜真卿或是米芾，全自动挥毫泼墨。

告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

UniCalli，这个由香港科技大学（广州）等团队推出的全新统一扩散框架，不仅能完美拿捏书法的整列排版（Column-level），甚至连相邻字符之间大小错落的缩放、自然流畅的游丝连笔（Ligatures）都能精准生成。

更重磅的是，它首次将“书法生成”和“古籍识别”两大任务统一在了同一个模型里。目前，该工作已被ICLR2026正式接收。

代码、超大规模数据集全部开源，还同步上线了可一键在线试玩的Demo！

告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

huggingface模型蒸馏后效果，十秒能同步生成数张列级书法作品：

告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

△ 从左到右是：文征明/行，乾隆/楷，米芾/行，王羲之/草，王羲之/行，怀素/草，宋徽宗/楷瘦金体

告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

△ 从左到右是：宋克/草，苏轼/行，文天祥/草，颜真卿/楷，赵孟頫/楷，黄庭坚/行

降维打击：连笔、排版都能搞定

在书法生成界，一直存在两个极端：一派专攻单字生成，写出的单字质量极高，但完全忽略了整幅作品的留白、节奏和字间连绵；另一派试图直接生成整页画面，结果往往是结构崩塌、错字连篇。

UniCalli的出现，可谓是降维打击。

在它的笔下，李白的《将进酒》可以无缝切换成各类名家真迹。尤其是在草书生成中，模型能够根据上下文自动判断，并生成极其得体、连贯的牵丝连笔。

告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

△ 论文中的对比图

那么，底层的技术逻辑究竟是怎么跑通的？

技术方案：生成与识别的“双向奔赴”

UniCalli的核心思路在于“统一”（Unified）。研究团队提出，书法生成和识别本质上是互为镜像的任务。与其分别训练，不如在同一框架内联合优化：

识别任务约束生成器保持汉字的骨架结构，避免模型因过度拟合艺术风格而导致字形崩坏。

生成任务则为模型提供风格先验和空间布局信息。

在具体架构上，团队摒弃了传统的自回归线性生成，采用了强大的多模态扩散Transformer（MMDiT）作为底座。它在每一步去噪时都能通过双向注意力机制统览全局画布，这就如同真实的书法家在落笔前会先进行“全局谋篇”一样。

针对空间排版，团队引入了三个核心设计：

1. 非对称加噪（AsymmetricNoising）与任务切换

在这个统一框架里，怎么区分现在是画图还是认字？团队巧妙地设计了两组独立的加噪时间步。当对书法图像加噪，而保持标准文本干净时，模型就在做“生成”；反之，如果对标准文本加噪，保持书法图像干净，模型就瞬间切换成了“识别”模式。

2. 引入边界框图（BoxMap）做空间“脚手架”

排版怎么才能错落有致？团队强行给模型加入了一个编码了每个字符位置和大小的边界框图。通过在生成过程中同时预测这个布局框，逼着模型内化字符间距、大小变化的排版原则。

3. 重复旋转位置编码（DuplicateRoPE）

为了让文本、图像和布局框三种不同模态的信息能够完美对齐，团队首先计算出书法图像的2D旋转位置编码（RoPE），然后直接把它“复制”并附加到文本和布局框的特征上，通过添加可学习的调制嵌入，让所有模态在同一个绝对空间坐标系里对话。

此外，为了防止模型在长尾的稀有书法家数据上“过拟合”导致字形崩溃，团队还引入了条件随机失活（ConditionalDropout）策略。在训练时以一定概率把文本条件替换成纯噪声，硬生生地把“风格”与“字形结构”解耦开来。

告别AI「鬼画符」！一行指令「复活」王羲之、苏轼，带连笔、懂排版，项目已开源丨ICLR'26

为了喂饱这个架构，团队更是下足了血本，构建了一个高清古籍数字化书法作品的大规模数据集。

除了主流的楷、行、草，UniCalli的泛化能力极其惊艳。给它一段现代汉语，它甚至能直接“逆向”生成结构神似的甲骨文。不仅如此，这套框架还能跨界处理古埃及象形文字。

在书法协会专家、大学书法社团的盲测评估中，UniCalli在风格还原度、字形准确性和自然度上，全面超越了ChatGPT-4o、Doubao等主流大模型及先前的SOTA生成器。

目前，UniCalli相关的代码、模型以及数据集已经全面开源。

不论你是想让AI帮你写一副对联，还是想利用开源数据做进一步的古文识别和排版研究，都可以直接跑起来了。

团队简介：本论文由许添硕担任第一作者，他目前在香港科技大学（广州）攻读博士学位。通讯作者为陈颖聪（Ying‑Cong Chen），为香港科技大学（广州）人工智能学域助理教授。除此之外，中国地质大学的王凯也作为主要成员参与了本项核心研究工作。

开源数据集：https://huggingface.co/datasets/TSXu/UniCalli_dataset项目主页：https://envision-research.github.io/UniCalli/在线试玩Demo：https://huggingface.co/spaces/TSXu/UniCalli_Dev

文章来自于“量子位”，作者 “UniCalli团队”。

以上内容不代表本平台立场，仅供读者参考