国风觉醒:Midjourney vs LiblibAI 在武侠仙侠场景的深度对决
目录
- 前言:生成式 AI 的“西式东方主义”困境
- 第一回合:基准测试——直面审美偏差
- 第二回合:LiblibAI 实操——构建可控的国风资产管线
- 第三回合:Midjourney 的反击——利用参考功能修正偏差
- 最终复盘:参数维度对比与选型建议
前言:生成式 AI 的“西式东方主义”困境
在国风游戏的美术开发过程中,开发者常常面临一个核心痛点:在使用 Midjourney 等国际主流工具生成“武侠”或“修仙”题材时,结果往往存在严重的“西式东方主义” (Western Orientalism) 倾向。
例如,输入“Chinese swordswoman”(中国女侠),模型倾向于生成具有西方刻板印象的面孔(高颧骨、吊梢眼),服饰结构经常混淆日本和服(Kimono)与中国汉服(Hanfu)的形制,武器更是常出现西洋剑结构。
随着国内 Stable Diffusion 社区的成熟,以 LiblibAI 为代表的平台配合高质量的国产微调模型(Checkpoint/LoRA),正在重塑国风美术的生产标准。
本文将通过一组严格的控制变量测试,对比 Midjourney V6.1 与 LiblibAI (基于 SDXL) 在武侠/仙侠场景下的表现,并提供一套可落地的工业化操作流程。
第一回合:基准测试——直面审美偏差
为了保证测试的公平性,我们设定了一个标准化的测试题目,分别考察两款工具在语义理解、服饰形制及画面氛围上的表现。
测试题目:一位身穿白衣的修仙少女,御剑飞行,背景是云海和悬浮的山峰,仙侠氛围,飘逸感。
1. Midjourney V6.1 的表现
- Prompt:
A female cultivator in white hanfu, flying on a sword, background is sea of clouds and floating mountains, xianxia atmosphere, ethereal, cinematic lighting --v 6.1
- 配图内容:一张由 MJ 生成的图片。画面光影极佳,但人物手持长剑在飞行,面部特征偏向欧美亚裔混血,衣领结构混乱。
- 图注:Midjourney V6.1 生成结果:光影华丽,但存在“手持飞剑”的逻辑错误及面部特征偏差。
- 配图目的:直观展示 MJ 在理解“御剑飞行”这一特定文化概念时的认知偏差,以及“西式审美”的局限性。
- 分析:
- 优势:构图张力强,光影渲染达到电影级,适合制作情绪板 (Moodboard)。
- 劣势:文化逻辑缺失,服饰细节经不起考据(如出现左衽),难以直接作为游戏资产使用。
2. LiblibAI (SDXL) 的表现
- Prompt:(大师作品),1个女孩,精致的面容,修仙,白衣,汉服,手持飞剑,云海,悬浮山,仙侠,全身照,飘带。
- 配图内容:一张由 Liblib (配合国风底模) 生成的图片。人物双脚稳稳踩在飞剑上,面部为标准的东方审美(鹅蛋脸),服饰为正确的交领右衽。
- 图注:LiblibAI 生成结果:准确还原“手持飞剑”动作,服饰形制严谨,符合国风游戏审美标准。
- 配图目的:展示国产模型在垂直领域的语义理解优势,证明其更适合生产准确的游戏资产。
- 分析:
- 优势:语义准确性极高,模型理解“广袖流仙裙”的物理下垂感和“清冷感”的面部特征。
- 劣势:默认光影可能较为平淡,需要配合特定的 VAE 或后期处理增强质感。
第二回合:LiblibAI 实操——构建可控的国风资产管线
如果您需要产出能直接进入游戏资产管线(Pipeline)的原画,LiblibAI 配合微调模型是目前的最优解。以下是详细的操作工作流。
步骤一:底模选择 (Checkpoint Selection)
底模决定了画风的基础逻辑。在国风写实领域,推荐使用经过大量亚洲人像数据微调的模型。
- 推荐模型:
麦橘写实_MajicMix_Realistic_v7或SDXL_国风_墨心。 - 技术理由:MajicMix 系列对亚洲骨相结构和皮肤次表面散射 (SSS) 材质的还原度达到了照片级,且对古风服饰有极好的泛化性。
步骤二:风格微调 (LoRA Injection)
这是精准控制风格的关键步骤。我们需要叠加 LoRA 模型来锁定特定的美术风格。
- LoRA 1 (服饰约束):选择
汉服_Hanfu或唐风类 LoRA。- 推荐权重:
0.6(过高容易导致过拟合,产生伪影)。
- 推荐权重:
- LoRA 2 (画风增强):选择
水墨_Ink或盲盒_Blindbox(针对 Q 版需求)。- 推荐权重:
0.3-0.4。
- 推荐权重:
步骤三:参数配置与界面设置
在 WebUI 或 Liblib 在线工作台中,建议使用以下参数以获得最稳定的输出:
- 采样方法 (Sampler):
DPM++ 2M Karras(收敛速度快,细节丰富)。 - 迭代步数 (Steps):
30 - 40。 - 提示词引导系数 (CFG Scale):
7.0。 - 分辨率 (Resolution):
896 x 1152(SDXL 的最佳训练分辨率区间,适合立绘)。
- 配图内容:LiblibAI 的操作界面截图。用红框高亮标注“模型选择区域”、“LoRA 添加栏”以及“分辨率设置”三个关键位置。
- 图注:LiblibAI 关键参数配置面板:多模型权重混合与采样设置示意。
- 配图目的:作为保姆级教程的一部分,帮助读者快速定位界面上的核心功能区,降低上手门槛。
第三回合:Midjourney 的反击——利用参考功能修正偏差
虽然 Liblib 在准确性上胜出,但 Midjourney 的创意发散能力依然是行业标杆。如果您必须使用 Midjourney 工作流,可以通过以下高级指令“矫正”其审美偏差。
1. 风格参考 (--sref)
通过 --sref 参数,我们可以强行将生成的图像风格锚定在参考图上。
- 操作方法:
上传一张风格纯正的国风原画,获取图片链接。
输入 Prompt 后,添加参数
--sref URL。 - 效果:Midjourney 的“西式油画味”会被参考图的色调和笔触覆盖,转变为中式厚涂或水墨风格。
2. 局部重绘 (Vary Region)
针对服饰形制错误(如领口不对),无需重新生成全图。
- 操作方法:
点击
Vary Region,使用套索工具框选错误的衣领区域。 修改局部 Prompt 为:traditional hanfu collar, right-over-left overlap, detailed silk pattern。 通过局部重绘修复特定细节,保留整体构图。
- 配图内容:左右分屏对比图。左侧是未使用
--sref的 MJ 原图(油画感重),右侧是使用了中式作为--sref后的效果(东方韵味浓厚)。- 图注:Midjourney 风格参考功能实测:左图为原生算法输出,右图为添加国风参考图后的矫正效果。
- 配图目的:证明 MJ 并非完全不可用,只要掌握高级指令,依然可以修正其审美偏差,为读者提供备选方案。
最终复盘:参数维度对比与选型建议
基于上述实测,我们从五个维度对两款工具进行了量化对比:
| 维度 | Midjourney (Global) | LiblibAI / Stable Diffusion (CN) |
|---|---|---|
| 上手门槛 | 低 (自然语言交互) | 中高 (需理解 LoRA/权重/采样器) |
| 国风准确度 | 低 (需大量 Prompt 修正) | 极高 (原生支持,懂形制与朝代) |
| 创意发散性 | 极高 (适合脑暴) | 中 (偏向于执行具体指令) |
| 可控性 | 低 (随机性强) | 极高 (ControlNet 可控骨骼/线稿) |
| 算力成本 | 订阅制 (云端) | 免费/点数制 (云端) 或 硬件投入 (本地) |
结论与建议
-
策划与概念设计阶段: 推荐使用 Midjourney。在项目初期,需要快速生成大量不同风格的概念图(Moodboard)以确定美术基调,MJ 的速度和画面张力不可替代。
-
资产生产与落地阶段: 强烈推荐使用 LiblibAI。当项目进入正式制作环节,需要产出标准的三视图、Icon 或宣传物料时,利用 LoRA 固定角色特征,利用 ControlNet 控制姿态,才能满足工业化生产的稳定性要求。



