国内外开源短剧skill全景梳理以及深度解析

对国内外开源短剧skill进行全景梳理。国内已形成完整技术栈,包括昆仑万维的底层模型、社区的全链路平台等;海外以工作流框架等为主,如 Simpliflow 框架、OpenClawDramaGenerator 系统等。还对比了国内外生态,给出获取使用指引,指出其正从模型开源向 Skill 开源、工作流标准化、人机协同深化发展。

一、国内开源短剧Skill全景梳理
国内开源短剧skill生态近年来发展迅速,已形成从底层视频生成模型到上层全链路工作流工具的完整技术栈。以下按技术层级依次梳理。
1.1 底层模型层:SkyReels-V1与SkyReels-A1
2025年2月,昆仑万维开源了中国首个面向AI短剧创作的视频生成模型SkyReels-V1,以及中国首个SOTA级别的表情动作可控算法SkyReels-A1。这是国内短剧skill领域最具标志性的开源事件。
SkyReels-V1是一个以人为中心的视频基座模型,针对AI短剧创作场景进行了深度优化。AI短剧极其需要同时对口型、表情、肢体等多个维度进行精细控制。SkyReels-V1不仅针对表演细节做了标注,还对情绪、场景、表演诉求等进行了处理,利用千万级别的高质量好莱坞级别数据进行训练微调。该模型支持33种细腻人物表情与400多种自然动作组合,能够生成大笑、怒吼、惊讶、哭泣等微表情,高度还原真人情感表达。
SkyReels-A1则是首个基于视频基座模型的表情动作可控算法,可实现影视级人物微表情表演生成。两个模型的开源地址分别为:
- SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1
- SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1
这两个开源项目解决了全球AI视频生成模型长期存在的“不开源、用不到、费用高、不好用”等痛点。在硬件适配方面,SkyReels-V1在单卡上仅需80秒即可生成高质量短剧内容。
1.2 全链路平台层:Huobao Drama
Huobao Drama是一个基于Go + Vue3构建的开源AI短剧自动化生成平台,覆盖从剧本解析到视频合成的完整生产链路。该项目的开源协议为CC BY-NC-SA 4.0(署名-非商业性使用-相同方式共享)。
核心功能模块包括:
-
角色管理:支持AI生成角色形象、批量生成以及角色图片的上传与管理。图片生成依赖外部AI服务,存储默认走本地存储目录。
-
分镜制作:从剧本或描述中自动拆解分镜,生成分镜脚本,并支持场景描述、镜头设计以及分镜图片的文生图生成。支持首帧、关键帧、尾帧、分镜板等多种帧类型选择。
-
视频生成:将分镜图通过图生视频技术转成分镜视频,并进行视频合成、剪辑和转场效果处理。项目明确要求FFmpeg 4.0+用于视频处理。
-
资源管理与任务追踪:提供统一的素材库管理、本地存储支持、资源导入导出以及任务进度追踪功能。
技术选型方面,后端采用Go 1.23+、Gin框架、GORM、SQLite数据库、Zap日志和Viper配置管理;前端采用Vue 3。平台支持接入多种模型服务,包括OpenAI兼容接口、火山引擎、本地Ollama等。适用场景包括短剧生成工作流的产品原型验证、自建AI素材与分镜管理后台等。
1.3 工作流Skill层:小云雀xyq-short-drama-skill
@pippit-dev/cli是一个面向小云雀(字节跳动旗下AI短剧平台)工作流的命令行工具与智能体技能集合。其中包含两个核心技能:
xyq-short-drama-skill是专门的短剧工作流技能,支持提交创作任务、上传参考文件、查询进度、列出会话文件和下载产物。xyq-skill是通用NestAgent技能,支持图片与视频生成、编辑、风格转换、文件上传、进度查询和结果下载。
小云雀平台的能力覆盖范围包括:
- 生成类:文生图、文生视频、图生视频、视频续写
- 编辑类:局部修改、元素替换、镜头调整、风格迁移
- 复杂创作类:一句话生成短剧、复刻视频、音乐MV生成、产品展示片制作
该Skill采用Bearer令牌鉴权方式,通过环境变量XYQ_ACCESS_KEY配置访问密钥。核心操作包括创建会话与发送消息、查询会话进展、上传文件等。
1.4 国内开源短剧Skill一览
| 项目名称 | 开源方 | 技术栈 | 核心功能 | 开源协议 |
|---|---|---|---|---|
| SkyReels-V1 | 昆仑万维 | 视频生成模型 | AI短剧视频生成、33种表情+400种动作 | 开源(具体协议以仓库为准) |
| SkyReels-A1 | 昆仑万维 | 表情动作可控算法 | 微表情与肢体动作精准控制 | 开源(具体协议以仓库为准) |
| Huobao Drama | 社区项目 | Go + Vue3 | 全链路短剧生成平台(角色→分镜→视频) | CC BY-NC-SA 4.0 |
| xyq-short-drama-skill | 字节跳动/小云雀 | Python脚本 | 短剧工作流任务提交与产物下载 | 公开Skill(以仓库为准) |
二、海外开源短剧Skill全景梳理
海外开源短剧skill生态以工作流框架、剧本到视频转换工具和交互式戏剧工具包为主要形态。
2.1 工作流编排框架:Simpliflow
Simpliflow是一个轻量级的开源Python框架,专为快速创建和部署生成式AI智能体工作流而设计。该框架通过声明式的JSON配置实现线性、确定性智能体工作流的快速开发与编排。
核心特性包括:
- 模块化架构,将智能体管理、工作流执行和后处理解耦
- 通过LiteLLM集成,开箱即支持超过100种大语言模型
- 支持将LLM驱动的智能体链与自定义函数交织
- 在IDE(VSCode、PyCharm、Spyder、Jupyter Notebook等)和操作系统(Windows、Linux、Mac)上均可运行
Simpliflow以Python包形式分发(pip install simpliflow),开发者可以在数秒内搭建起LLM驱动的智能体链。与LangChain、AutoGen等框架相比,Simpliflow的优势在于简单性、可控性和确定性工作流环境下的执行速度。其工作流被建模为确定性线性有限状态机,每一步只有一个可预测的转移路径。
对于短剧创作场景,Simpliflow可用于编排剧本生成、角色设定、分镜拆解、提示词优化等多个AI智能体的协同工作流。
2.2 剧本到视频转换:OpenClaw Drama Generator
OpenClaw Drama Generator是一个自动化短剧视频生成系统,能够将剧本文本转换为多角色配音的专业短剧视频。
核心功能:
- 多角色对话:自动识别剧本中的不同角色,为每个角色分配不同的TTS声音
- 剧本解析:支持标准短剧格式,自动提取场景和对话
- 智能配音:基于角色特征自动选择合适的声音
- 场景切换:美观的场景转场动画
- 对话框样式:专业的对话呈现效果
- 旁白支持:特殊的旁白视觉风格
- 完全自动化:一行命令完成全流程
剧本格式采用结构化标记:【场景N - 地点 - 时间】后跟“角色名: 对话内容”的格式。系统内置了多种TTS声音选项,包括alloy(中性清晰,适合男性角色)、echo(男性稳重,适合成熟男性)、fable(英式优雅,适合旁白)、onyx(深沉有力,适合领导角色)、nova(女性活泼,适合年轻女性)、shimmer(柔和温暖,适合旁白或女性角色)。
技术流程分为五个步骤:
- 解析剧本(parse-drama-script.js)
- 生成多角色TTS(drama-tts-generate.sh)
- 提取时间戳(whisper-timestamps.sh)
- 生成场景数据(drama-to-scenes.js)
- 渲染视频(npm run render)
2.3 交互式戏剧工具包:Open-Theatre
Open-Theatre是一个开源的交互式戏剧工具包,用于创建和体验可配置的、基于大语言模型的交互式戏剧。该工具包在交互式戏剧框架领域具有独特的定位——不同框架各有侧重,有的优先考虑用户自由度,有的则强调更强的叙事连贯性。
Open-Theatre为短剧skill提供了交互式叙事能力方面的开源参考实现。
2.4 推理框架层:LightX2V
商汤科技开源的LightX2V是行业内首个能够实现实时视频生成的推理框架。该框架通过轻量级VAE和稀疏注意力机制,实现了低成本、高吞吐量的实时视频生成。LightX2V为短剧视频生成提供了底层推理能力支撑,商汤的Seko 2.0短剧系列生成平台即基于该框架构建。
2.5 海外开源短剧Skill一览
| 项目名称 | 开源方 | 技术栈 | 核心功能 | 开源协议 |
|---|---|---|---|---|
| Simpliflow | 社区/学术 | Python | 声明式AI工作流编排框架 | 开源(以仓库为准) |
| OpenClaw Drama Generator | ZhenRobotics | Node.js + TTS | 剧本解析→多角色配音→视频渲染 | 开源(以仓库为准) |
| Open-Theatre | 学术 | LLM-based | 交互式戏剧创建与体验工具包 | 开源(以仓库为准) |
| LightX2V | 商汤科技 | 视频推理框架 | 实时视频生成推理引擎 | 开源(以仓库为准) |
三、国内外开源短剧Skill横向对比
| 对比维度 | 国内开源生态 | 海外开源生态 |
|---|---|---|
| 技术重心 | 视频生成模型与全链路平台 | 工作流编排与自动化转换工具 |
| 代表性项目 | SkyReels-V1/A1、Huobao Drama | Simpliflow、OpenClaw Drama Generator |
| 开源模型 | 有(视频生成大模型开源) | 较少(以框架和工具为主) |
| Skill封装形式 | Agent工作流、命令行Skill | JSON声明式工作流、npm包 |
| 短剧专用程度 | 高度专用(面向AI短剧场景) | 通用(可适配短剧场景) |
| 部署方式 | 支持本地部署、Docker容器 | pip安装、npm安装 |
| 模型接入 | OpenAI兼容、火山、Ollama等 | LiteLLM(100+模型) |
| 开源协议 | CC BY-NC-SA(部分限制商业) | 多为宽松开源协议 |
四、开源短剧Skill的获取与使用指引
4.1 国内开源项目获取方式
- SkyReels-V1/A1:GitHub仓库(SkyworkAI/SkyReels-V1、SkyworkAI/SkyReels-A1)
- Huobao Drama:开发者阿里云/腾讯云文章页可找到仓库入口
- xyq-short-drama-skill:通过npm安装@pippit-dev/cli
4.2 海外开源项目获取方式
- Simpliflow:pip install simpliflow
- OpenClaw Drama Generator:git clone https://github.com/ZhenRobotics/openclaw-drama-generator.git
- LightX2V:商汤科技官方开源渠道
4.3 使用注意事项
使用开源短剧skill时需注意以下几点:
- 模型与API依赖:大多数开源短剧skill依赖外部AI服务(如OpenAI API、火山引擎等),使用前需配置相应的API密钥
- 硬件要求:视频生成类项目对GPU有一定要求,需提前评估硬件配置
- 开源协议限制:部分项目(如Huobao Drama的CC BY-NC-SA协议)限制商业使用
- 环境配置:视频处理类项目通常依赖FFmpeg等外部工具
五、开源短剧Skill的发展趋势
5.1 从模型开源到Skill开源
国内开源短剧生态正从“模型开源”向“Skill开源”演进。SkyReels-V1等底层模型的开源为上层应用提供了基础能力,而Huobao Drama、xyq-short-drama-skill等项目则将这种能力封装为可直接使用的Skill模块。这一趋势降低了短剧创作的技术门槛,使更多创作者能够聚焦于内容创意本身。
5.2 工作流标准化
Simpliflow等项目通过JSON声明式配置实现工作流的标准化描述,这种趋势正在影响短剧skill的设计范式——将复杂的创作流程拆解为可复用、可组合的标准模块。
5.3 人机协同深化
开源短剧skill正在从“全自动生成”向“人机协同”演进。OpenClaw Drama Generator支持分步执行,允许创作者在每个环节进行人工干预和调整,体现了“AI辅助而非替代”的设计理念。
常见问题(FAQ)
问:国内有哪些开源的短剧视频生成模型?
昆仑万维开源的SkyReels-V1是中国首个面向AI短剧创作的视频生成模型,支持33种细腻人物表情与400多种自然动作组合。同步开源的还有SkyReels-A1表情动作可控算法。
问:有没有开源的短剧全流程创作平台?
Huobao Drama是一个基于Go + Vue3的开源AI短剧自动化生成平台,覆盖剧本解析、角色生成、分镜制作、视频合成等全链路功能。该平台支持本地部署与多模型接入。
问:海外有哪些开源的短剧工作流工具?
Simpliflow是一个轻量级开源Python框架,通过JSON声明式配置实现AI智能体工作流的快速编排。OpenClaw Drama Generator则是一个从剧本到视频的自动化转换工具。
问:开源短剧skill对硬件有什么要求?
视频生成类项目(如SkyReels-V1)通常需要GPU支持,单卡即可在80秒内生成短剧内容。纯文本处理类Skill(如剧本解析)对硬件要求较低。
问:开源短剧skill可以商用吗?
需查看具体项目的开源协议。例如Huobao Drama采用CC BY-NC-SA 4.0协议,限制商业使用;其他项目的商用许可需以各仓库的LICENSE文件为准。
问:如何将多个开源短剧skill组合使用?
可以借助Simpliflow等工作流编排框架,将剧本生成、角色设定、分镜拆解、视频生成等不同Skill串联为完整的创作流水线。



