靠 Coze 工作流做 AI 美食号,视频单条百万播放,小白也能抄作业

2025-12-29 13:48:07
文章摘要
大家好,我是小肥肠,专注 智能体干货教程分享!今天手把手教你用 Coze 工作流 5 分钟搞定百万播放AI美食视频,全流程保姆级拆解,哪怕是新手也轻松学会,赶紧码住跟练!

大家好,我是小肥肠,专注 智能体干货教程分享!今天手把手教你用 Coze 工作流 5 分钟搞定百万播放AI美食视频,全流程保姆级拆解,哪怕是新手也轻松学会,赶紧码住跟练!

1. 前言

AI切水果做了一阵子后,我开始把注意力转移到了AI吃播上,当时这个赛道肥肠不错,主要是吃一些猎奇的东西,一开始我也跟着做,提示词是我自己根据视频拆解反推出来的,刚开始发观看数据挺不错,但是我渐渐发现做的没什么意思,我需要不停地去找一些猎奇热门视频模仿人家,反推提示词,很多时候AI还不给生成(违反了它的一些安全规则)。

我本人是很喜欢看美食视频(不说看了上万个,也有几千个了),于是我转变了思路,为什么不用AI做美食吃货视频呢?主要是我自己喜欢,也可以坚持,于是我就转换赛道,一个月下来我做出了成果,下面是抖音平台的成绩:

这种视频制作很简单,每天只需要2分钟就能制作,小白也能轻松跟做,感兴趣就往下看吧~

2. 工作流的实现思路

这个工作流构建不复杂,最难的地方在于提示词的搭建,你要跟AI沟通,最终可以构建出美味的食物,还有小姐姐吃的很有食欲的画面,提示词我精调了1000多版,主要是根据用户的反馈还有我看美食视频的经验来调整。做AI美食吃货视频的核心就色香味俱全,你需要通过屏幕把这三个核心传递给用户,让他感觉到这东西真的很美味,你的视频自然就会有流量。

工作流的技术思路为:

1. 首先要输入食物的名称(如炸鸡腿、猪蹄)

2.大模型会根据你输入的食物来生成高质量文生视频提示词

3. 选择生成视频的模型,我提供了两个个选择:

  1. 基于Running Hub生成视频,优点是很便宜,视频质量中等偏上,缺点是需要自己配音
  2. 基于豆包生成视频,优点是视频质量中等偏上,缺点是需要自己配音

4.最后一步就是基于不同的模型来生成视频了。

解释一下我为什么没有接Veo3插件,因为性价比不高,一个8秒的视频用fast模型差不多2块多,与其在Coze里面使用Veo3插件不如把Coze生成的提示词投喂给Veo3(每天可以生成3个免费视频,flow每月刷新免费1000积分),你用veo3账号不香吗?我就是这么干的,每天耗时2分钟左右。

3. 工作流实现

完整工作流如下:

开始节点:开始节点需要填入food和type参数,food可为任意食物,用句号隔开。输入示例:草莓。橘子。荔枝。type参数需要输入视频制作的插件名称,如豆包、rh(任选其一)

文本处理:这个节点的作用是把开始节点传入的水果名称用句号打散,变成字符串列表。

以防大家无法理解,这边给大家列举实例说明,比如用户输入:

草莓。苹果。荔枝

经过文本处理节点打散后,可以得到:

[草莓,苹果,荔枝]

接下来就需要用循环节点来承接上面得到的字符串数组,在循环节点中进行视频生成操作,在循环中,会针对每个水果名称生成文生图提示词,再基于开始节点选择的视频生成方式(豆包、Running Hub、 veo3)来生成视频。

文生视频(大模型):这个节点的作用是基于食物名字来生成文生视频提示词。

为了防止同质化内容,这边放一下伪提示词,大家把伪提示词投喂给豆包就能生成对应提示词:

// 输入数据结构:仅包含食物名称
type FoodInput = {
foodName: string;
};

// 输出数据结构:视频提示词文本
type VideoPromptOutput = {
prompt: string;
};

// 食物信息数据库:所有描述均为基础客观描述
const foodInfoDatabase = {
"草莓": {
colors: ["红色", "绿色", "浅色点"],
texture: "软",
sauce: "草莓酱",
sound: "轻微的咀嚼声"
},
"苹果": {
colors: ["红色", "黄色", "白色"],
texture: "脆",
sauce: "无",
sound: "清脆的咀嚼声"
},
"面包": {
colors: ["黄色", "褐色", "浅黄"],
texture: "软",
sauce: "黄油",
sound: "轻微的咀嚼声"
}
};

// 生成视频提示词的函数
function makeFoodVideoPrompt(input: FoodInput): VideoPromptOutput {
// 获取食物名称
const food = input.foodName;
// 从数据库查找食物信息,找不到则用默认值
const foodInfo = foodInfoDatabase[food] || {
colors: ["色1", "色2", "色3"],
texture: "一般",
sauce: "无",
sound: "咀嚼声"
};
// 拼接基础描述内容
const part1 = `拍一个人吃${food}的视频,视频要拍清楚${food}的${foodInfo.colors[0]}、${foodInfo.colors[1]}、${foodInfo.colors[2]}这几种颜色。`;
const part2 = `${food}的口感是${foodInfo.texture}的,旁边可以放${foodInfo.sauce}。`;
const part3 = `视频要录下吃${food}时的声音,主要是${foodInfo.sound}。`;
// 组合成完整提示词
return {
prompt: part1 + "\n" + part2 + "\n" + part3
};
}

把这个伪提示词投喂给豆包,让其生成完整提示词:

原提示词:

好的,明白了。您的需求是从“玻璃水果切割”升级为“AI拟人吃播”,将简单的物体变换提升为包含**人物、情绪、奢华质感和感官体验(ASMR)**的复杂场景。
我已经完全理解了您提供的“钻石水晶红烧肉”范例的精髓。它的核心在于**“保留食物原有色彩的超现实晶体化”**,并结合人物的优雅动作和极致的音效细节,创造出一种全新的、奢华的感官盛宴。
这是为您全新优化的“AI吃播”提示词生成器:

角色定位

专业的AI“美食吃播”视频提示词生成专家,专注于将日常食物转化为超现实、充满光感和奢华感的钻石水晶质感,并构建包含人物、特写镜头和ASMR音效的完整场景。

核心任务

根据用户输入的任意食物名称,生成一段详细、富有想象力、包含视觉、听觉和动态感的文生视频提示词。

核心模板

Realistic 4K HDR footage in elegant side-profile close-up of a beautiful girl eating magnificent diamond-encrusted crystal [食物名称]. The camera angle perfectly captures her refined eating gestures and the mesmerizing translucent texture of the [食物名称]. Each piece of the [食物名称] is transformed into a crystal-like jelly while maintaining its natural original colors - a perfect gradient of [颜色描述1], [颜色描述2], and [颜色描述3].

The entire surface of the [食物名称] is lavishly adorned with brilliant-cut diamonds, creating a dazzling armor of light. It glistens with a perfect glaze that appears both crystalline and succulent, with thousands of diamonds catching and refracting light through its translucent layers. Any accompanying sauce or liquid is transformed into a deep crystal jelly, studded with smaller diamonds that create rippling light effects.

The side angle meticulously reveals each delicate bite, with professional binaural microphones capturing every satisfying sound in perfect clarity - the gentle crunch as teeth meet the crystal surface, the soft melodious chewing sounds, the delicate swallowing, and the subtle tinkling of diamonds. Each piece showcases its stunning composition: a diamond-encrusted glossy surface and translucent inner layers, all maintaining their authentic colors while sharing the same pristine jelly transparency.

关键要素(每个提示词必须包含)

主角与镜头: beautiful girl, elegant side-profile close-up
核心转化: [食物名称] + diamond-encrusted + crystal jelly texture
色彩原则: 保留食物原有色彩,并用华丽辞藻进行详细描述。
视觉特效: 强调光线折射、晶莹剔透、钻石闪耀的奢华感。
画质: Realistic 4K HDR footage
ASMR音效: 使用professional binaural microphones清晰捕捉咀嚼、吞咽、水晶碰撞等声音细节。

示例输入输出

输入:草莓
输出:
Realistic 4K HDR footage in elegant side-profile close-up of a beautiful girl eating magnificent diamond-encrusted crystal strawberries. The camera angle perfectly captures her refined eating gestures and the mesmerizing translucent texture of the strawberry. Each piece of the strawberry is transformed into a crystal-like jelly while maintaining its natural original colors - a perfect gradient from deep ruby-red flesh to a bright emerald-green crystal stem.

The entire surface of each strawberry is lavishly adorned with brilliant-cut diamonds, creating a dazzling armor of light. It glistens with a perfect glaze that appears both crystalline and succulent, with thousands of diamonds catching and refracting light through its translucent layers. Any juice transforms into a shimmering rose-gold crystal jelly, studded with smaller diamonds that create rippling light effects.

The side angle meticulously reveals each delicate bite, with professional binaural microphones capturing every satisfying sound in perfect clarity - the gentle crunch as teeth meet the crystal surface, the soft melodious chewing sounds, the delicate swallowing, and the subtle tinkling of diamonds. Each piece showcases its stunning composition: a diamond-encrusted glossy surface and translucent ruby-red inner body, all maintaining their authentic colors while sharing the same pristine jelly transparency.

使用规则

仅接受食物名称作为输入。
严格遵循三段式模板结构,内容必须饱满、详细。
充分发挥想象力,对食物的颜色、形态和光泽进行华丽的、超现实的描述。
确保包含所有“关键要素”。

3.1. 豆包生成视频分支

视频生成:这是coze内置的视频生成节点,接收参数设置为文生视频的输出参数。

3.2. Running Hub生成视频分支

Running Hub生成视频我抽成了一个字工作流,输入参数为prompt(对应文生视频输出参数)、Running Hub的key,这个大家自行去申请就行。

Running Hub生成视频工作流全貌如下图,这个工作流里面都是我们开发的Running Hub插件:

目前我们的RunningHub插件已经上架了,涵盖文生图、文生视频、图生视频、首尾帧视频制作,之后会给大家专门写一篇文章介绍这个插件:

开始节点:开始节点输入参数为rh_key和prompt,这两个参数都是父工作流传入的参数。

create_text_2_video(创建文生图):这是一个异步插件,执行以后会立刻返回一个任务id给你,但是不代表视频生成完成了,我们需要每个几秒去查询任务的状态(利用死循环机制,每个几秒去查看任务执行的结果),这个机制用大白话说就像你去你吃东西,饭店太火爆了,服务员给了你一个排队的单号,你可以每隔一阵子去问一下你排到哪里了。

在死循环中,整体节点的罗列排布如下:

query_task_status(获取任务状态):这个节点可以获得任务执行的状态,如果返回的参数中status为SUCCESS

就代表视频制作完成了

query_task_result(获取视频地址):在确认query_task_status插件返回的status为SUCCESS时就可以基于query_task_result插件获取视频地址了。

另一边,如果query_task_statu不为SUCCESS就需要进入二级判断,我们需要判断err_msg是否等于APIKEY_TASK_STATUS_ERROR,如果等于就代表工作流出错了,直接结束循环,否则延迟30秒继续获取视频状态。

取结果图片地址(代码):这个代码的作用是获取Running Hub插件生成的视频地址,基于这个代码可以直接获取.MP4视频地址。

源代码:

import json

async def main(args: Args) -> Output:
params = args.params
# Get the first item from the result_url_list
result_url_json_string = params['result_url_list'][0]
# Parse the JSON string to get the dictionary
result_url_dict = json.loads(result_url_json_string)
# Extract the fileUrl from the dictionary
file_url = result_url_dict['fileUrl']

# Build the output object
ret: Output = {
"result_url": file_url
}
return ret

子工作流结束节点:在子工作流的结束节点,只需要直接获取取结果图片地址(代码)的生成地址就行。


上述就是整个工作流的主要流程,相对较简单,属于中级工作流,动手能力强的读者可以根据以上思路研究一下。

3.3. 视频生成效果

在工作流运行完毕后,可以获得两个结果,一个的veo3提示词,一个是视频地址。

veo3提示词主要是防止大家对Running Hub和豆包的效果不满意,这时候就可以把提示词粘贴到gemini Veo3中直接生成视频哦(性价比之王!!!每天免费生成3个视频,用完以后可以去Flow生成,Flow每个月刷新1000积分,一个视频20积分,有多划算我就不说了,自己体会吧)。


4. 结语

从切水果到美食吃播,这条赛道的探索是用技术放大热爱的实践。把对美食的感知拆解成色、香、味的数字信号,用Coze工作流将创意转化为可复制的生产链条,会发现内容创作的核心从来不是替代人力,而是解放创造力。

如果这篇保姆级教程对你有帮助,欢迎点个赞/收藏/转发——你的支持是我熬夜肝干货的最大动力!


声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
工作流自动化
视频生成大模型
短视频制作