告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

2026-03-23 14:00:07
文章摘要
香港科技大学(广州)等团队推出全新统一扩散框架UniCalli,解决AI书法生成痛点。它能精准生成书法排版与连笔,统一“书法生成”和“古籍识别”任务,已被ICLR2026接收。代码、数据集开源,上线在线Demo,盲测表现超主流大模型。

苦于AI单字拼凑没行气,或是排版秒变“鬼画符”?

这个痛点,终于被终结了。

现在,只需输入一段文字,就能让AI立刻化身王羲之、颜真卿或是米芾,全自动挥毫泼墨。

告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

UniCalli,这个由香港科技大学(广州)等团队推出的全新统一扩散框架,不仅能完美拿捏书法的整列排版(Column-level),甚至连相邻字符之间大小错落的缩放、自然流畅的游丝连笔(Ligatures)都能精准生成。

更重磅的是,它首次将“书法生成”和“古籍识别”两大任务统一在了同一个模型里。目前,该工作已被ICLR2026正式接收。

代码、超大规模数据集全部开源,还同步上线了可一键在线试玩的Demo!

告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

huggingface模型蒸馏后效果,十秒能同步生成数张列级书法作品:

告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

△ 从左到右是:文征明/行,乾隆/楷,米芾/行,王羲之/草,王羲之/行,怀素/草,宋徽宗/楷瘦金体

告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

△ 从左到右是:宋克/草,苏轼/行,文天祥/草,颜真卿/楷,赵孟頫/楷,黄庭坚/行

降维打击:连笔、排版都能搞定

在书法生成界,一直存在两个极端:一派专攻单字生成,写出的单字质量极高,但完全忽略了整幅作品的留白、节奏和字间连绵;另一派试图直接生成整页画面,结果往往是结构崩塌、错字连篇。

UniCalli的出现,可谓是降维打击。

在它的笔下,李白的《将进酒》可以无缝切换成各类名家真迹。尤其是在草书生成中,模型能够根据上下文自动判断,并生成极其得体、连贯的牵丝连笔。

告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

△ 论文中的对比图

那么,底层的技术逻辑究竟是怎么跑通的?

技术方案:生成与识别的“双向奔赴”

UniCalli的核心思路在于“统一”(Unified)。研究团队提出,书法生成和识别本质上是互为镜像的任务。与其分别训练,不如在同一框架内联合优化:

识别任务约束生成器保持汉字的骨架结构,避免模型因过度拟合艺术风格而导致字形崩坏。

生成任务则为模型提供风格先验和空间布局信息。

在具体架构上,团队摒弃了传统的自回归线性生成,采用了强大的多模态扩散Transformer(MMDiT)作为底座。它在每一步去噪时都能通过双向注意力机制统览全局画布,这就如同真实的书法家在落笔前会先进行“全局谋篇”一样。

针对空间排版,团队引入了三个核心设计:

1. 非对称加噪(AsymmetricNoising)与任务切换

在这个统一框架里,怎么区分现在是画图还是认字?团队巧妙地设计了两组独立的加噪时间步。当对书法图像加噪,而保持标准文本干净时,模型就在做“生成”;反之,如果对标准文本加噪,保持书法图像干净,模型就瞬间切换成了“识别”模式。

2. 引入边界框图(BoxMap)做空间“脚手架”

排版怎么才能错落有致?团队强行给模型加入了一个编码了每个字符位置和大小的边界框图。通过在生成过程中同时预测这个布局框,逼着模型内化字符间距、大小变化的排版原则。

3. 重复旋转位置编码(DuplicateRoPE)

为了让文本、图像和布局框三种不同模态的信息能够完美对齐,团队首先计算出书法图像的2D旋转位置编码(RoPE),然后直接把它“复制”并附加到文本和布局框的特征上,通过添加可学习的调制嵌入,让所有模态在同一个绝对空间坐标系里对话。

此外,为了防止模型在长尾的稀有书法家数据上“过拟合”导致字形崩溃,团队还引入了条件随机失活(ConditionalDropout)策略。在训练时以一定概率把文本条件替换成纯噪声,硬生生地把“风格”与“字形结构”解耦开来。

告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源丨ICLR'26

为了喂饱这个架构,团队更是下足了血本,构建了一个高清古籍数字化书法作品的大规模数据集。

除了主流的楷、行、草,UniCalli的泛化能力极其惊艳。给它一段现代汉语,它甚至能直接“逆向”生成结构神似的甲骨文。不仅如此,这套框架还能跨界处理古埃及象形文字

在书法协会专家、大学书法社团的盲测评估中,UniCalli在风格还原度、字形准确性和自然度上,全面超越了ChatGPT-4o、Doubao等主流大模型及先前的SOTA生成器。

目前,UniCalli相关的代码、模型以及数据集已经全面开源

不论你是想让AI帮你写一副对联,还是想利用开源数据做进一步的古文识别和排版研究,都可以直接跑起来了。

团队简介:本论文由许添硕担任第一作者,他目前在香港科技大学(广州)攻读博士学位。通讯作者为陈颖聪(Ying‑Cong Chen),为香港科技大学(广州)人工智能学域助理教授。除此之外,中国地质大学的王凯也作为主要成员参与了本项核心研究工作。

开源数据集:https://huggingface.co/datasets/TSXu/UniCalli_dataset项目主页:https://envision-research.github.io/UniCalli/在线试玩Demo:https://huggingface.co/spaces/TSXu/UniCalli_Dev

文章来自于“量子位”,作者 “UniCalli团队”。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
图像生成
开源项目