手把手教你用MiniMax：文生图、视频生成、音色克隆，3小时成为全模态创作高手

2026-03-20 16:23:42

MiniMax

视频生成

文章摘要

2026年，MiniMax已形成包括大语言模型M2.1/M2.5、语音大模型、视频生成模型在内的完整产品矩阵，其M2.5模型在SWE-Bench编程评测中以80.2%的得分超越Claude 4 Opus和Gemini 2.5 Pro，推理成本仅为竞品的1/15。

MiniMax作为中国本土领先的通用人工智能公司，正在构建覆盖文本、图像、视频、语音的全模态AI创作生态。2026年，MiniMax已形成包括大语言模型M2.1/M2.5、语音大模型、视频生成模型在内的完整产品矩阵，其M2.5模型在SWE-Bench编程评测中以80.2% 的得分超越Claude 4 Opus和Gemini 2.5 Pro，推理成本仅为竞品的1/15。本文将系统讲解MiniMax平台的注册配置、核心功能操作全流程，涵盖文生图实战、视频生成技巧、个性化音色克隆、AI音乐创作、智能体开发等模块，并通过品牌营销视频制作、个人专属歌曲创作两个完整案例，帮助你快速成为MiniMax全模态创作高手。

手把手教你用MiniMax：文生图、视频生成、音色克隆

一、初识MiniMax：国产AI全模态生态的领军者

1.1 MiniMax是什么？

MiniMax是中国本土重要的通用人工智能（AGI）公司，聚焦大模型技术研发与应用落地，致力于为用户和企业提供安全、高效、可定制的AI解决方案。技术层面，MiniMax深耕基础模型研发，推出过多个版本的大语言模型（如MiniMax MoE系列、M2.1、M2.5），具备多轮对话、逻辑推理、内容生成、多模态理解等核心能力。

核心产品矩阵：

大语言模型：M2.1（轻量级）、M2.5（旗舰级，200K上下文）
语音大模型：支持音色克隆、多语言合成、情感调节
视频生成模型：T2V-01系列，支持文生视频、图生视频
音乐生成模型：支持作词作曲、风格定制
Mini-Agent框架：开源智能体开发框架

1.2 MiniMax的核心优势

能力维度	MiniMax表现	行业对比
编程能力	SWE-Bench 80.2%	超越Claude 4 Opus、Gemini 2.5 Pro
推理成本	约1/10~1/20	仅为Claude/GPT的5%-10%
上下文长度	200K tokens	可容纳整本《三体》
多模态能力	文本+图像+视频+语音+音乐	国内少有的全模态平台
语音克隆	15秒样本即可克隆	支持32种语言合成
Agent生态	MCP协议支持	可接入知识图谱、网页搜索等外部工具

1.3 适用人群

内容创作者：快速生成图片、视频、配音、音乐
开发者：构建智能体、自动化工作流、代码生成
营销人员：制作产品宣传视频、品牌配音
教育工作者：生成教学视频、知识卡片、有声课件
音乐爱好者：作词作曲、个性化歌曲创作

二、快速上手：账号注册与基础配置

2.1 访问平台

国内用户：访问MiniMax开放平台官网 https://platform.minimaxi.com/
国际用户：访问国际版 https://www.minimax.io/

平台支持Web端直接使用核心功能，也提供API接口供开发者调用。

2.2 注册与登录

注册流程简单快捷，只需填写基本信息并验证邮箱即可。登录成功后，平台通常会赠送15元代金券或免费积分，足够体验各项核心功能。

2.3 获取API Key（开发者必备）

如需通过API调用MiniMax能力，需要获取API Key：

登录后进入"用户中心"或"基本资料"页面
找到"接口密钥"或"API Key"管理
点击"创建API Key"，复制保存

国内版API地址：https://api.minimaxi.com
国际版API地址：https://api.minimax.io

三、核心功能一：文生图实战指南

3.1 基础操作流程

MiniMax的文生图功能支持通过文字描述直接生成高质量图片。

操作步骤：

登录平台，进入"文生图"功能模块
在提示词输入框中详细描述想要的画面
设置图片参数：尺寸、风格、生成数量
点击生成，等待约10-30秒
预览结果，满意后下载保存

3.2 提示词撰写技巧

高质量的提示词是成功的关键。建议包含以下要素：

要素	说明	示例
主体描述	什么人/物，特征细节	“Q版毛绒绒大圣，大眼睛显得非常有神”
动作姿态	正在做什么	“站在陡峭的悬崖之上，金箍棒悬于面前”
环境背景	场景、氛围	“背景搭配暗黑风格云层采用水墨晕染技法”
风格指定	艺术风格、渲染质量	“鲜艳的颜色，可爱且华丽的外表，8K超精细渲染”
构图要求	镜头位置、留白	“大圣占据画面下方，大面积留白，大师构图”

完整提示词示例：
> “玩偶手办，方形的冰块，有些冰块里包裹着完整的未切开的绿色方形小西瓜，有些包裹着方形的红粉拼接的西瓜果肉里，散落开来，冰块上水珠滑落晶莹剔透的。童趣，乐趣，可爱。”

3.3 实战对比：MiniMax vs 即梦

据实测对比，即梦在画面合理性、舒适感方面略优，但MiniMax在特定场景（如对冲场景）表现更震撼。对于需要快速生成高质量图片的用户，两者可结合使用——先用即梦生成满意图片，再用MiniMax的视频功能做动态延展。

四、核心功能二：文生视频与图生视频

4.1 两种生成模式

MiniMax视频生成支持两种输入方式：

模式一：文字转视频
直接输入文字描述，AI从零生成视频内容。适合创意类、概念类视频。

模式二：图像转视频
上传静态图片，AI让图片动起来。适合将已有视觉资产转化为动态内容。

4.2 图生视频操作全流程

第一步：准备图片
选择一张清晰、高质量的图片作为首帧。可以是自己拍摄的照片、AI生成的图片，或已获授权的作品。

第二步：上传图片
点击"上传图片"按钮，选择图片文件。MiniMax支持JPEG、PNG等多种常见格式。

第三步：编写视频提示词
描述你希望视频呈现的动态效果。可以包含：

画面细节：首帧中的主要表现物
运动/变化：物体如何运动、场景如何变化
镜头运动：推拉摇移、旋转、特写等
美感氛围：光影、色调、情绪

提示词示例：
> “镜头围绕模型旋转，并使用特写镜头捕捉沙尘暴与雷暴云动态对冲、以及沙粒被上升气流卷入云层的动态过程，营造强烈的视觉震撼。”

第四步：设置参数
选择视频分辨率和时长。基础版支持最高768p和6秒时长。

第五步：生成与预览
点击"生成视频"，等待数秒到数分钟（取决于图片大小和复杂度）。生成完成后可在预览页面查看效果。

第六步：下载或分享
预览满意后，即可下载视频或直接分享至社交平台。

4.3 进阶技巧：用MiniMax M1写提示词

如果你对运镜描述不熟悉，可以先用MiniMax M1 Chat生成提示词：

打开MiniMax M1 Chat
上传照片到对话框
输入：“请帮我为这张照片生成一段视频提示词，包含画面细节、氛围描述和镜头运动。”
M1会自动生成专业级提示词，可直接复制使用

可以多生成几个版本，挑选最喜欢的氛围和风格。

五、核心功能三：个性化音色克隆与语音合成

5.1 音色克隆操作全流程

第一步：准备音频样本
上传需要克隆的原音色片段。为确保准确性，建议音频时长不少于15秒，最佳30秒左右。内容最好是干净的人声，背景噪音越少越好。

第二步：进入音色设计
登录后，点击"语音大模型" → “音色设计”。

第三步：上传样本并去噪
上传音频文件，勾选"去声音中噪音"选项，提高音质。

第四步：训练音色
为音色取名，选择语音类型（如"Chinese (Mandarin)"中文），点击"Convert"训练按钮。MiniMax会在几十秒内完成音色克隆。

第五步：保存并使用
训练完成后，在"我的音色"中找到克隆的音色，点击"使用"即可在语音合成中调用。

5.2 语音合成操作指南

第一步：进入语音合成
在平台界面点击"语音合成"。

第二步：输入文本
在"文字转语音"对话框中输入需要转换的文案。如果需要增加停顿，可在句子中间插入<#0.5#>（表示0.5秒停顿）。

第三步：选择音色
从右侧音色列表中选择想要的音色，包括：

官方预置音色（少女、御姐、青涩青年、霸道青年、主持人等）
已克隆的个性化音色

第四步：调节情感与参数
在"输出情绪"中选择合适的情绪（如惊讶、开心、严肃等），并可手动调整语速、声调、音量。

第五步：生成与下载
点击"生成音频"，等待约15秒，系统生成音频后点击"下载"保存。

5.3 音色类型大全

MiniMax提供丰富的预置音色，覆盖多种场景：

类别	音色示例
青年男性	青涩青年、精英青年、霸道青年、青年大学生
青年女性	少女、御姐、成熟女性、甜美女性
主持人	男性主持人、女性主持人
有声书	男性有声书1、女性有声书1
儿童	聪明男童、可爱男童、萌萌女童
卡通	卡通猪小琪
特色角色	病娇弟弟、俊朗男友、纯真学弟、冷淡学长、霸道少爷、甜心小玲、俏皮萌妹、妩媚御姐、嗲嗲学妹、淡雅学姐

此外还支持多种方言、外语、童声、播报等音色，满足各类场景需求。

六、核心功能四：AI音乐创作

6.1 文字生成音乐

MiniMax支持通过一句话描述生成完整的音乐作品。

操作步骤：

进入"音乐生成"功能
输入音乐描述，例如：“帮我生成一首30s关于夏天稻香的音乐”
如有歌词，可一并上传
点击生成，等待AI完成作词作曲

6.2 歌词创作技巧

如果你需要自己写歌词，可以先用DeepSeek等AI辅助生成：

示例歌词：

[Intro] 蝉鸣声声伴骄阳
[Verse] 绿浪翻滚向远方
赤脚奔跑田埂上
[Chorus] 暖风送来阵阵稻香
那是童年熟悉模样
[Outro] 夏天的稻田，温暖又明亮

将歌词喂给MiniMax，它就能生成一首完整的、带有词曲的作品。

6.3 音乐风格定制

在描述中可以指定风格：“流行摇滚”“古风”“电子”"民谣"等，让生成的音乐更符合你的需求。

七、进阶开发：用Mini-Agent构建智能助手

7.1 Mini-Agent框架简介

Mini-Agent是由MiniMax开源的一个极简而专业的AI Agent开发框架，旨在展示使用MiniMax M2.1模型构建智能代理的最佳实践。与LangChain等复杂框架不同，Mini-Agent采用轻量级设计，让开发者能够直达Agent的本质，理解其核心工作原理。

核心特点：

轻量简洁：避免过度封装，逻辑清晰
易扩展：支持自定义工具和技能
持久化记忆：跨会话保留关键信息
智能上下文管理：自动摘要处理长对话
丰富工具生态：文件读写、Shell命令、MCP工具、Claude Skills

7.2 快速部署Mini-Agent

Step 1: 下载项目

git clone https://github.com/MiniMax-AI/Mini-Agent.git
cd Mini-Agent

Step 2: 安装uv（依赖管理工具）

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
# Windows (PowerShell)
irm https://astral.sh/uv/install.ps1 | iex

Step 3: 同步依赖

uv sync

Step 4: 配置文件
复制config-example.yaml为config.yaml，填写必要配置：

# ===== 关键设置 =====
api_key: "YOUR_API_KEY_HERE"  # 【必须】填写MiniMax API Key
api_base: "https://api.minimaxi.com"  # 国内用户使用此地址
# api_base: "https://api.minimax.io"  # 国际用户使用此地址
model: "MiniMax-M2.1"
provider: "anthropic"  # LLM 提供商："anthropic" 或 "openai"

# ===== Agent 配置 =====
max_steps: 100
workspace_dir: "./workspace"
system_prompt_path: "system_prompt.md"

# ===== 工具配置 =====
tools:
  enable_file_tools: true  # 文件读写编辑工具
  enable_bash: true        # Bash 命令执行工具
  enable_note: true        # 会话记录工具
  enable_skills: true      # 启用Claude技能
  enable_mcp: true         # 启用MCP工具

Step 5: 启动交互界面

uv run python -m mini_agent.cli

7.3 核心机制解析

Mini-Agent的核心执行逻辑是一个完整的Agent循环：感知→思考→行动→反馈

async def run(self) -&gt; str:
    step = 0
    while step &lt; self.max_steps:
        # 1. 检查并摘要消息历史（防止上下文溢出）
        await self._summarize_messages()
        
        # 2. 调用LLM获取响应（思考）
        response = await self.llm.generate(
            messages=self.messages,
            tools=tool_list
        )
        
        # 3. 如果没有工具调用，任务完成
        if not response.tool_calls:
            return response.content
        
        # 4. 执行工具调用（行动）
        for tool_call in response.tool_calls:
            tool = self.tools[tool_call.function.name]
            result = await tool.execute(**arguments)
            # 将结果加入消息历史（反馈）
            self.messages.append(tool_msg)
        
        step += 1

7.4 扩展MCP工具

MCP（Model Context Protocol）是让Agent接入外部系统的标准协议。通过MCP，Mini-Agent可以：

连接知识图谱
调用网页搜索
操作数据库
接入第三方API

配置方式：在mcp.json中定义MCP服务器，并在config.yaml中启用即可。

八、实战案例：从创意到成品的完整工作流

8.1 案例一：品牌营销视频全流程制作

背景：某新兴消费品牌需要为新产品制作系列营销视频，预算有限但要求高品质。

实现流程：

第一步：生成产品图片
使用MiniMax文生图功能，根据产品描述生成高质量产品图。提示词示例：
> “智能手表产品展示，金属质感，蓝色表盘，皮质表带，简约时尚风格，8K超精细渲染”

第二步：设计数字人形象
克隆一个符合品牌调性的音色，例如"精英青年音色"，用于后续配音。

第三步：生成视频片段
将产品图上传至图生视频功能，添加提示词：
> “产品360度缓慢旋转展示，背景光影流动，特写镜头聚焦表盘细节，营造科技感氛围”

同时生成多个场景的15秒视频片段。

第四步：语音合成配音
撰写产品宣传文案，使用克隆的音色生成配音，调节情绪为"专业"或"热情"。

第五步：音乐生成背景乐
描述想要的背景音乐风格：“现代科技感电子音乐，节奏轻快，时长30秒”

第六步：剪辑合成
将视频片段、配音、背景音乐导入剪映等工具进行剪辑合成，添加字幕和转场效果。

成果：原本需要数万元拍摄费用的营销视频，总成本控制在千元以内，制作周期从数周压缩至3天。

8.2 案例二：基于角色图片的二次元视频生成

背景：用户提供一张二次元女生角色图片，要求基于该角色生成动态视频。

实现流程：

第一步：图片分析
分析角色图片的关键特征：

金黄色/淡棕色长直发，长度及腰
深蓝色校服制服，白色衣领，红色领带
棕色格子百褶裙
黑色连裤袜配黑色学生皮鞋
大而有神的棕色眼睛
可爱清纯的二次元风格

第二步：编写提示词
基于角色特征撰写详细的视频提示词，确保角色一致性。

第三步：图生视频生成
上传图片，输入提示词，使用MiniMax T2V-01模型生成视频。

第四步：结果验收
生成的3.0MB高清MP4视频完美还原了角色特征：

角色在日本校园中优雅行走
长发在微风中自然飘动
制服裙摆的动态效果展现
温柔微笑的表情变化
樱花飞舞的浪漫校园氛围

成果：静态角色图片成功转化为有生命的动态视频，角色特征高度一致，动画品质达到工作室级别。

8.3 案例三：个人专属歌曲创作

背景：用户想为自己创作一首专属歌曲，记录特殊回忆。

实现流程：

第一步：生成歌词
使用AI助手（如DeepSeek）根据用户描述生成歌词，包含主歌、副歌、桥段等结构。

第二步：选择音乐风格
在音乐生成功能中选择风格，如"温暖民谣""流行抒情"等。

第三步：克隆个人音色
录制自己朗读歌词的15秒音频，上传至音色克隆功能，创建个人专属音色。

第四步：生成歌曲
将歌词和风格描述输入音乐生成功能，同时指定使用克隆音色演唱。

第五步：下载与分享
生成完成后试听，满意后下载保存，可分享给亲友作为礼物。

九、常见问题解答（FAQ）

Q1：MiniMax是免费的吗？怎么收费？
A： MiniMax提供免费试用额度，新用户注册通常赠送15元代金券或免费积分。超出后采用API按量计费，推理成本约为Claude/GPT的1/10~1/20。开发者还可通过OpenCode等合作伙伴获取限时免费访问。

Q2：音色克隆需要多长的音频样本？
A：建议不少于15秒，最佳30秒左右。样本质量越高（干净人声、无背景噪音），克隆效果越好。

Q3：生成的视频可以商用吗？版权归谁？
A：可以商用。使用MiniMax生成的内容，版权归用户所有。但需注意，如果上传了他人作品作为输入，需确保已获授权。

Q4：MiniMax支持哪些语言？
A：语音合成支持32种不同语言。文生图、文生视频支持多语言提示词，可自然使用中文描述。

Q5：如何确保角色在不同视频中保持一致？
A：可以通过两种方式：1）在提示词中详细描述角色特征并保持一致；2）使用图生视频功能，每次都以同一张角色图片作为输入。

Q6：MiniMax和即梦、可灵等竞品相比优势在哪里？
A： MiniMax的核心优势在于全模态生态——一个平台搞定文本、图像、视频、语音、音乐，且语音克隆和音乐生成能力突出。在编程任务上，M2.5模型表现超越Claude和Gemini，成本却低得多。

Q7：如何获取MiniMax API Key？
A：登录开放平台后，进入"用户中心"→“接口密钥”→“创建API Key”。国内用户使用api.minimaxi.com，国际用户使用api.minimax.io。

Q8：视频生成需要多长时间？
A：通常数秒到数分钟，取决于图片大小、复杂度以及当前服务器负载。复杂场景可能需要更长时间。

Q9：MiniMax支持批量生成吗？
A：通过API可以实现批量生成。如需批量处理大量任务，建议使用API方式调用。

Q10：有官方的开发者文档或社区吗？
A：有。访问MiniMax开放平台官网可查看完整API文档和技术文档。GitHub上也有Mini-Agent等开源项目，开发者可以参与贡献。

结语：全模态AI创作的无限可能

从文生图到视频生成，从语音克隆到音乐创作，从智能体开发到代码自动生成，MiniMax正在构建一个覆盖创作全流程的AI生态系统。无论是内容创作者、开发者还是企业用户，都能在这个平台上找到适合自己的工具。

更值得关注的是MiniMax的成本优势——推理成本仅为竞品的1/10到1/20，加上慷慨的免费额度，让每个普通人都能零门槛体验前沿AI技术。

现在，登录MiniMax平台，从生成你的第一张图片、第一个视频、第一首歌曲开始，探索全模态AI创作的无限可能吧。

👉 国内官网：https://platform.minimaxi.com
👉 国际官网：https://www.minimax.io
👉 GitHub开源：https://github.com/MiniMax-AI

以上内容不代表本平台立场，仅供读者参考