正文目录

靠 Coze 工作流做 AI 美食号，视频单条百万播放，小白也能抄作业

后端小肥肠

2025-11-20 16:30:44

工作流自动化

视频生成大模型

短视频制作

文章摘要

大家好，我是小肥肠，专注智能体干货教程分享！今天手把手教你用 Coze 工作流 5 分钟搞定百万播放AI美食视频，全流程保姆级拆解，哪怕是新手也轻松学会，赶紧码住跟练！

1. 前言

AI切水果做了一阵子后，我开始把注意力转移到了AI吃播上，当时这个赛道肥肠不错，主要是吃一些猎奇的东西，一开始我也跟着做，提示词是我自己根据视频拆解反推出来的，刚开始发观看数据挺不错，但是我渐渐发现做的没什么意思，我需要不停地去找一些猎奇热门视频模仿人家，反推提示词，很多时候AI还不给生成（违反了它的一些安全规则）。

我本人是很喜欢看美食视频（不说看了上万个，也有几千个了），于是我转变了思路，为什么不用AI做美食吃货视频呢？主要是我自己喜欢，也可以坚持，于是我就转换赛道，一个月下来我做出了成果，下面是抖音平台的成绩：

这种视频制作很简单，每天只需要2分钟就能制作，小白也能轻松跟做，感兴趣就往下看吧~

2. 工作流的实现思路

这个工作流构建不复杂，最难的地方在于提示词的搭建，你要跟AI沟通，最终可以构建出美味的食物，还有小姐姐吃的很有食欲的画面，提示词我精调了1000多版，主要是根据用户的反馈还有我看美食视频的经验来调整。做AI美食吃货视频的核心就色香味俱全，你需要通过屏幕把这三个核心传递给用户，让他感觉到这东西真的很美味，你的视频自然就会有流量。

工作流的技术思路为：

1. 首先要输入食物的名称（如炸鸡腿、猪蹄）

2.大模型会根据你输入的食物来生成高质量文生视频提示词

3. 选择生成视频的模型，我提供了两个个选择：

基于Running Hub生成视频，优点是很便宜，视频质量中等偏上，缺点是需要自己配音
基于豆包生成视频，优点是视频质量中等偏上，缺点是需要自己配音

4.最后一步就是基于不同的模型来生成视频了。

解释一下我为什么没有接Veo3插件，因为性价比不高，一个8秒的视频用fast模型差不多2块多，与其在Coze里面使用Veo3插件不如把Coze生成的提示词投喂给Veo3（每天可以生成3个免费视频，flow每月刷新免费1000积分），你用veo3账号不香吗？我就是这么干的，每天耗时2分钟左右。

3. 工作流实现

完整工作流如下：

开始节点：开始节点需要填入food和type参数，food可为任意食物，用句号隔开。输入示例：草莓。橘子。荔枝。type参数需要输入视频制作的插件名称，如豆包、rh（任选其一）

文本处理：这个节点的作用是把开始节点传入的水果名称用句号打散，变成字符串列表。

以防大家无法理解，这边给大家列举实例说明，比如用户输入：

草莓。苹果。荔枝

经过文本处理节点打散后，可以得到：

[草莓,苹果,荔枝]

接下来就需要用循环节点来承接上面得到的字符串数组，在循环节点中进行视频生成操作，在循环中，会针对每个水果名称生成文生图提示词，再基于开始节点选择的视频生成方式（豆包、Running Hub、 veo3）来生成视频。

文生视频（大模型）：这个节点的作用是基于食物名字来生成文生视频提示词。

为了防止同质化内容，这边放一下伪提示词，大家把伪提示词投喂给豆包就能生成对应提示词：

// 输入数据结构：仅包含食物名称

type FoodInput = {

foodName: string;

};

// 输出数据结构：视频提示词文本

type VideoPromptOutput = {

prompt: string;

};

// 食物信息数据库：所有描述均为基础客观描述

const foodInfoDatabase = {

"草莓": {

colors: ["红色", "绿色", "浅色点"],

texture: "软",

sauce: "草莓酱",

sound: "轻微的咀嚼声"

"苹果": {

colors: ["红色", "黄色", "白色"],

texture: "脆",

sauce: "无",

sound: "清脆的咀嚼声"

"面包": {

colors: ["黄色", "褐色", "浅黄"],

texture: "软",

sauce: "黄油",

sound: "轻微的咀嚼声"

}

};

// 生成视频提示词的函数

function makeFoodVideoPrompt(input: FoodInput): VideoPromptOutput {

// 获取食物名称

const food = input.foodName;

// 从数据库查找食物信息，找不到则用默认值

const foodInfo = foodInfoDatabase[food] || {

colors: ["色1", "色2", "色3"],

texture: "一般",

sauce: "无",

sound: "咀嚼声"

};

// 拼接基础描述内容

const part1 = `拍一个人吃${food}的视频，视频要拍清楚${food}的${foodInfo.colors[0]}、${foodInfo.colors[1]}、${foodInfo.colors[2]}这几种颜色。`;

const part2 = `${food}的口感是${foodInfo.texture}的，旁边可以放${foodInfo.sauce}。`;

const part3 = `视频要录下吃${food}时的声音，主要是${foodInfo.sound}。`;

// 组合成完整提示词

return {

prompt: part1 + "\n" + part2 + "\n" + part3

};

}

把这个伪提示词投喂给豆包，让其生成完整提示词：

原提示词：

好的，明白了。您的需求是从“玻璃水果切割”升级为“AI拟人吃播”，将简单的物体变换提升为包含**人物、情绪、奢华质感和感官体验（ASMR）**的复杂场景。

我已经完全理解了您提供的“钻石水晶红烧肉”范例的精髓。它的核心在于**“保留食物原有色彩的超现实晶体化”**，并结合人物的优雅动作和极致的音效细节，创造出一种全新的、奢华的感官盛宴。

这是为您全新优化的“AI吃播”提示词生成器：

角色定位

专业的AI“美食吃播”视频提示词生成专家，专注于将日常食物转化为超现实、充满光感和奢华感的钻石水晶质感，并构建包含人物、特写镜头和ASMR音效的完整场景。

核心任务

根据用户输入的任意食物名称，生成一段详细、富有想象力、包含视觉、听觉和动态感的文生视频提示词。

核心模板

Realistic 4K HDR footage in elegant side-profile close-up of a beautiful girl eating magnificent diamond-encrusted crystal [食物名称]. The camera angle perfectly captures her refined eating gestures and the mesmerizing translucent texture of the [食物名称]. Each piece of the [食物名称] is transformed into a crystal-like jelly while maintaining its natural original colors - a perfect gradient of [颜色描述1], [颜色描述2], and [颜色描述3].

The entire surface of the [食物名称] is lavishly adorned with brilliant-cut diamonds, creating a dazzling armor of light. It glistens with a perfect glaze that appears both crystalline and succulent, with thousands of diamonds catching and refracting light through its translucent layers. Any accompanying sauce or liquid is transformed into a deep crystal jelly, studded with smaller diamonds that create rippling light effects.

The side angle meticulously reveals each delicate bite, with professional binaural microphones capturing every satisfying sound in perfect clarity - the gentle crunch as teeth meet the crystal surface, the soft melodious chewing sounds, the delicate swallowing, and the subtle tinkling of diamonds. Each piece showcases its stunning composition: a diamond-encrusted glossy surface and translucent inner layers, all maintaining their authentic colors while sharing the same pristine jelly transparency.

关键要素（每个提示词必须包含）

主角与镜头: beautiful girl, elegant side-profile close-up

核心转化: [食物名称] + diamond-encrusted + crystal jelly texture

色彩原则: 保留食物原有色彩，并用华丽辞藻进行详细描述。

视觉特效: 强调光线折射、晶莹剔透、钻石闪耀的奢华感。

画质: Realistic 4K HDR footage

ASMR音效: 使用professional binaural microphones清晰捕捉咀嚼、吞咽、水晶碰撞等声音细节。

示例输入输出

输入：草莓

输出：

Realistic 4K HDR footage in elegant side-profile close-up of a beautiful girl eating magnificent diamond-encrusted crystal strawberries. The camera angle perfectly captures her refined eating gestures and the mesmerizing translucent texture of the strawberry. Each piece of the strawberry is transformed into a crystal-like jelly while maintaining its natural original colors - a perfect gradient from deep ruby-red flesh to a bright emerald-green crystal stem.

The entire surface of each strawberry is lavishly adorned with brilliant-cut diamonds, creating a dazzling armor of light. It glistens with a perfect glaze that appears both crystalline and succulent, with thousands of diamonds catching and refracting light through its translucent layers. Any juice transforms into a shimmering rose-gold crystal jelly, studded with smaller diamonds that create rippling light effects.

The side angle meticulously reveals each delicate bite, with professional binaural microphones capturing every satisfying sound in perfect clarity - the gentle crunch as teeth meet the crystal surface, the soft melodious chewing sounds, the delicate swallowing, and the subtle tinkling of diamonds. Each piece showcases its stunning composition: a diamond-encrusted glossy surface and translucent ruby-red inner body, all maintaining their authentic colors while sharing the same pristine jelly transparency.

使用规则

仅接受食物名称作为输入。

严格遵循三段式模板结构，内容必须饱满、详细。

充分发挥想象力，对食物的颜色、形态和光泽进行华丽的、超现实的描述。

确保包含所有“关键要素”。

3.1. 豆包生成视频分支

视频生成：这是coze内置的视频生成节点，接收参数设置为文生视频的输出参数。

3.2. Running Hub生成视频分支

Running Hub生成视频我抽成了一个字工作流，输入参数为prompt（对应文生视频输出参数）、Running Hub的key，这个大家自行去申请就行。

Running Hub生成视频工作流全貌如下图，这个工作流里面都是我们开发的Running Hub插件：

目前我们的RunningHub插件已经上架了，涵盖文生图、文生视频、图生视频、首尾帧视频制作，之后会给大家专门写一篇文章介绍这个插件：

开始节点：开始节点输入参数为rh_key和prompt，这两个参数都是父工作流传入的参数。

create_text_2_video（创建文生图）：这是一个异步插件，执行以后会立刻返回一个任务id给你，但是不代表视频生成完成了，我们需要每个几秒去查询任务的状态（利用死循环机制，每个几秒去查看任务执行的结果），这个机制用大白话说就像你去你吃东西，饭店太火爆了，服务员给了你一个排队的单号，你可以每隔一阵子去问一下你排到哪里了。