手把手教你用MiniMax:文生图、视频生成、音色克隆,3小时成为全模态创作高手

2026-03-20 12:01:14
文章摘要
2026年,MiniMax已形成包括大语言模型M2.1/M2.5、语音大模型、视频生成模型在内的完整产品矩阵,其M2.5模型在SWE-Bench编程评测中以80.2%的得分超越Claude 4 Opus和Gemini 2.5 Pro,推理成本仅为竞品的1/15。

MiniMax作为中国本土领先的通用人工智能公司,正在构建覆盖文本、图像、视频、语音的全模态AI创作生态。2026年,MiniMax已形成包括大语言模型M2.1/M2.5、语音大模型、视频生成模型在内的完整产品矩阵,其M2.5模型在SWE-Bench编程评测中以80.2% 的得分超越Claude 4 Opus和Gemini 2.5 Pro,推理成本仅为竞品的1/15。本文将系统讲解MiniMax平台的注册配置、核心功能操作全流程,涵盖文生图实战、视频生成技巧、个性化音色克隆、AI音乐创作、智能体开发等模块,并通过品牌营销视频制作、个人专属歌曲创作两个完整案例,帮助你快速成为MiniMax全模态创作高手。

手把手教你用MiniMax:文生图、视频生成、音色克隆

一、初识MiniMax:国产AI全模态生态的领军者

1.1 MiniMax是什么?

MiniMax是中国本土重要的通用人工智能(AGI)公司,聚焦大模型技术研发与应用落地,致力于为用户和企业提供安全、高效、可定制的AI解决方案。技术层面,MiniMax深耕基础模型研发,推出过多个版本的大语言模型(如MiniMax MoE系列、M2.1、M2.5),具备多轮对话、逻辑推理、内容生成、多模态理解等核心能力。

核心产品矩阵

  • 大语言模型:M2.1(轻量级)、M2.5(旗舰级,200K上下文)
  • 语音大模型:支持音色克隆、多语言合成、情感调节
  • 视频生成模型:T2V-01系列,支持文生视频、图生视频
  • 音乐生成模型:支持作词作曲、风格定制
  • Mini-Agent框架:开源智能体开发框架

1.2 MiniMax的核心优势

能力维度 MiniMax表现 行业对比
编程能力 SWE-Bench 80.2% 超越Claude 4 Opus、Gemini 2.5 Pro
推理成本 约1/10~1/20 仅为Claude/GPT的5%-10%
上下文长度 200K tokens 可容纳整本《三体》
多模态能力 文本+图像+视频+语音+音乐 国内少有的全模态平台
语音克隆 15秒样本即可克隆 支持32种语言合成
Agent生态 MCP协议支持 可接入知识图谱、网页搜索等外部工具

1.3 适用人群

  • 内容创作者:快速生成图片、视频、配音、音乐
  • 开发者:构建智能体、自动化工作流、代码生成
  • 营销人员:制作产品宣传视频、品牌配音
  • 教育工作者:生成教学视频、知识卡片、有声课件
  • 音乐爱好者:作词作曲、个性化歌曲创作

二、快速上手:账号注册与基础配置

2.1 访问平台

国内用户:访问MiniMax开放平台官网 https://platform.minimaxi.com/
国际用户:访问国际版 https://www.minimax.io/

平台支持Web端直接使用核心功能,也提供API接口供开发者调用。

2.2 注册与登录

注册流程简单快捷,只需填写基本信息并验证邮箱即可。登录成功后,平台通常会赠送15元代金券或免费积分,足够体验各项核心功能。

2.3 获取API Key(开发者必备)

如需通过API调用MiniMax能力,需要获取API Key:

  1. 登录后进入"用户中心"或"基本资料"页面
  2. 找到"接口密钥"或"API Key"管理
  3. 点击"创建API Key",复制保存

国内版API地址https://api.minimaxi.com
国际版API地址https://api.minimax.io

三、核心功能一:文生图实战指南

3.1 基础操作流程

MiniMax的文生图功能支持通过文字描述直接生成高质量图片。

操作步骤

  1. 登录平台,进入"文生图"功能模块
  2. 在提示词输入框中详细描述想要的画面
  3. 设置图片参数:尺寸、风格、生成数量
  4. 点击生成,等待约10-30秒
  5. 预览结果,满意后下载保存

3.2 提示词撰写技巧

高质量的提示词是成功的关键。建议包含以下要素:

要素 说明 示例
主体描述 什么人/物,特征细节 “Q版毛绒绒大圣,大眼睛显得非常有神”
动作姿态 正在做什么 “站在陡峭的悬崖之上,金箍棒悬于面前”
环境背景 场景、氛围 “背景搭配暗黑风格云层采用水墨晕染技法”
风格指定 艺术风格、渲染质量 “鲜艳的颜色,可爱且华丽的外表,8K超精细渲染”
构图要求 镜头位置、留白 “大圣占据画面下方,大面积留白,大师构图”

完整提示词示例
> “玩偶手办,方形的冰块,有些冰块里包裹着完整的未切开的绿色方形小西瓜,有些包裹着方形的红粉拼接的西瓜果肉里,散落开来,冰块上水珠滑落晶莹剔透的。童趣,乐趣,可爱。”

3.3 实战对比:MiniMax vs 即梦

据实测对比,即梦在画面合理性、舒适感方面略优,但MiniMax在特定场景(如对冲场景)表现更震撼。对于需要快速生成高质量图片的用户,两者可结合使用——先用即梦生成满意图片,再用MiniMax的视频功能做动态延展。

四、核心功能二:文生视频与图生视频

4.1 两种生成模式

MiniMax视频生成支持两种输入方式:

模式一:文字转视频
直接输入文字描述,AI从零生成视频内容。适合创意类、概念类视频。

模式二:图像转视频
上传静态图片,AI让图片动起来。适合将已有视觉资产转化为动态内容。

4.2 图生视频操作全流程

第一步:准备图片
选择一张清晰、高质量的图片作为首帧。可以是自己拍摄的照片、AI生成的图片,或已获授权的作品。

第二步:上传图片
点击"上传图片"按钮,选择图片文件。MiniMax支持JPEG、PNG等多种常见格式。

第三步:编写视频提示词
描述你希望视频呈现的动态效果。可以包含:

  • 画面细节:首帧中的主要表现物
  • 运动/变化:物体如何运动、场景如何变化
  • 镜头运动:推拉摇移、旋转、特写等
  • 美感氛围:光影、色调、情绪

提示词示例
> “镜头围绕模型旋转,并使用特写镜头捕捉沙尘暴与雷暴云动态对冲、以及沙粒被上升气流卷入云层的动态过程,营造强烈的视觉震撼。”

第四步:设置参数
选择视频分辨率和时长。基础版支持最高768p和6秒时长。

第五步:生成与预览
点击"生成视频",等待数秒到数分钟(取决于图片大小和复杂度)。生成完成后可在预览页面查看效果。

第六步:下载或分享
预览满意后,即可下载视频或直接分享至社交平台。

4.3 进阶技巧:用MiniMax M1写提示词

如果你对运镜描述不熟悉,可以先用MiniMax M1 Chat生成提示词:

  1. 打开MiniMax M1 Chat
  2. 上传照片到对话框
  3. 输入:“请帮我为这张照片生成一段视频提示词,包含画面细节、氛围描述和镜头运动。”
  4. M1会自动生成专业级提示词,可直接复制使用

可以多生成几个版本,挑选最喜欢的氛围和风格。

五、核心功能三:个性化音色克隆与语音合成

5.1 音色克隆操作全流程

第一步:准备音频样本
上传需要克隆的原音色片段。为确保准确性,建议音频时长不少于15秒,最佳30秒左右。内容最好是干净的人声,背景噪音越少越好。

第二步:进入音色设计
登录后,点击"语音大模型" → “音色设计”。

第三步:上传样本并去噪
上传音频文件,勾选"去声音中噪音"选项,提高音质。

第四步:训练音色
为音色取名,选择语音类型(如"Chinese (Mandarin)"中文),点击"Convert"训练按钮。MiniMax会在几十秒内完成音色克隆。

第五步:保存并使用
训练完成后,在"我的音色"中找到克隆的音色,点击"使用"即可在语音合成中调用。

5.2 语音合成操作指南

第一步:进入语音合成
在平台界面点击"语音合成"。

第二步:输入文本
在"文字转语音"对话框中输入需要转换的文案。如果需要增加停顿,可在句子中间插入<#0.5#>(表示0.5秒停顿)。

第三步:选择音色
从右侧音色列表中选择想要的音色,包括:

  • 官方预置音色(少女、御姐、青涩青年、霸道青年、主持人等)
  • 已克隆的个性化音色

第四步:调节情感与参数
在"输出情绪"中选择合适的情绪(如惊讶、开心、严肃等),并可手动调整语速、声调、音量。

第五步:生成与下载
点击"生成音频",等待约15秒,系统生成音频后点击"下载"保存。

5.3 音色类型大全

MiniMax提供丰富的预置音色,覆盖多种场景:

类别 音色示例
青年男性 青涩青年、精英青年、霸道青年、青年大学生
青年女性 少女、御姐、成熟女性、甜美女性
主持人 男性主持人、女性主持人
有声书 男性有声书1、女性有声书1
儿童 聪明男童、可爱男童、萌萌女童
卡通 卡通猪小琪
特色角色 病娇弟弟、俊朗男友、纯真学弟、冷淡学长、霸道少爷、甜心小玲、俏皮萌妹、妩媚御姐、嗲嗲学妹、淡雅学姐

此外还支持多种方言、外语、童声、播报等音色,满足各类场景需求。

六、核心功能四:AI音乐创作

6.1 文字生成音乐

MiniMax支持通过一句话描述生成完整的音乐作品。

操作步骤

  1. 进入"音乐生成"功能
  2. 输入音乐描述,例如:“帮我生成一首30s关于夏天稻香的音乐”
  3. 如有歌词,可一并上传
  4. 点击生成,等待AI完成作词作曲

6.2 歌词创作技巧

如果你需要自己写歌词,可以先用DeepSeek等AI辅助生成:

示例歌词

[Intro] 蝉鸣声声伴骄阳
[Verse] 绿浪翻滚向远方
赤脚奔跑田埂上
[Chorus] 暖风送来阵阵稻香
那是童年熟悉模样
[Outro] 夏天的稻田,温暖又明亮

将歌词喂给MiniMax,它就能生成一首完整的、带有词曲的作品。

6.3 音乐风格定制

在描述中可以指定风格:“流行摇滚”“古风”“电子”"民谣"等,让生成的音乐更符合你的需求。

七、进阶开发:用Mini-Agent构建智能助手

7.1 Mini-Agent框架简介

Mini-Agent是由MiniMax开源的一个极简而专业的AI Agent开发框架,旨在展示使用MiniMax M2.1模型构建智能代理的最佳实践。与LangChain等复杂框架不同,Mini-Agent采用轻量级设计,让开发者能够直达Agent的本质,理解其核心工作原理。

核心特点

  • 轻量简洁:避免过度封装,逻辑清晰
  • 易扩展:支持自定义工具和技能
  • 持久化记忆:跨会话保留关键信息
  • 智能上下文管理:自动摘要处理长对话
  • 丰富工具生态:文件读写、Shell命令、MCP工具、Claude Skills

7.2 快速部署Mini-Agent

Step 1: 下载项目

git clone https://github.com/MiniMax-AI/Mini-Agent.git
cd Mini-Agent

Step 2: 安装uv(依赖管理工具)

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
# Windows (PowerShell)
irm https://astral.sh/uv/install.ps1 | iex

Step 3: 同步依赖

uv sync

Step 4: 配置文件
复制config-example.yamlconfig.yaml,填写必要配置:

# ===== 关键设置 =====
api_key: "YOUR_API_KEY_HERE"  # 【必须】填写MiniMax API Key
api_base: "https://api.minimaxi.com"  # 国内用户使用此地址
# api_base: "https://api.minimax.io"  # 国际用户使用此地址
model: "MiniMax-M2.1"
provider: "anthropic"  # LLM 提供商:"anthropic" 或 "openai"

# ===== Agent 配置 =====
max_steps: 100
workspace_dir: "./workspace"
system_prompt_path: "system_prompt.md"

# ===== 工具配置 =====
tools:
  enable_file_tools: true  # 文件读写编辑工具
  enable_bash: true        # Bash 命令执行工具
  enable_note: true        # 会话记录工具
  enable_skills: true      # 启用Claude技能
  enable_mcp: true         # 启用MCP工具

Step 5: 启动交互界面

uv run python -m mini_agent.cli

7.3 核心机制解析

Mini-Agent的核心执行逻辑是一个完整的Agent循环:感知→思考→行动→反馈

async def run(self) -> str:
    step = 0
    while step < self.max_steps:
        # 1. 检查并摘要消息历史(防止上下文溢出)
        await self._summarize_messages()
        
        # 2. 调用LLM获取响应(思考)
        response = await self.llm.generate(
            messages=self.messages,
            tools=tool_list
        )
        
        # 3. 如果没有工具调用,任务完成
        if not response.tool_calls:
            return response.content
        
        # 4. 执行工具调用(行动)
        for tool_call in response.tool_calls:
            tool = self.tools[tool_call.function.name]
            result = await tool.execute(**arguments)
            # 将结果加入消息历史(反馈)
            self.messages.append(tool_msg)
        
        step += 1

7.4 扩展MCP工具

MCP(Model Context Protocol)是让Agent接入外部系统的标准协议。通过MCP,Mini-Agent可以:

  • 连接知识图谱
  • 调用网页搜索
  • 操作数据库
  • 接入第三方API

配置方式:在mcp.json中定义MCP服务器,并在config.yaml中启用即可。

八、实战案例:从创意到成品的完整工作流

8.1 案例一:品牌营销视频全流程制作

背景:某新兴消费品牌需要为新产品制作系列营销视频,预算有限但要求高品质。

实现流程

第一步:生成产品图片
使用MiniMax文生图功能,根据产品描述生成高质量产品图。提示词示例:
> “智能手表产品展示,金属质感,蓝色表盘,皮质表带,简约时尚风格,8K超精细渲染”

第二步:设计数字人形象
克隆一个符合品牌调性的音色,例如"精英青年音色",用于后续配音。

第三步:生成视频片段
将产品图上传至图生视频功能,添加提示词:
> “产品360度缓慢旋转展示,背景光影流动,特写镜头聚焦表盘细节,营造科技感氛围”

同时生成多个场景的15秒视频片段。

第四步:语音合成配音
撰写产品宣传文案,使用克隆的音色生成配音,调节情绪为"专业"或"热情"。

第五步:音乐生成背景乐
描述想要的背景音乐风格:“现代科技感电子音乐,节奏轻快,时长30秒”

第六步:剪辑合成
将视频片段、配音、背景音乐导入剪映等工具进行剪辑合成,添加字幕和转场效果。

成果:原本需要数万元拍摄费用的营销视频,总成本控制在千元以内,制作周期从数周压缩至3天

8.2 案例二:基于角色图片的二次元视频生成

背景:用户提供一张二次元女生角色图片,要求基于该角色生成动态视频。

实现流程

第一步:图片分析
分析角色图片的关键特征:

  • 金黄色/淡棕色长直发,长度及腰
  • 深蓝色校服制服,白色衣领,红色领带
  • 棕色格子百褶裙
  • 黑色连裤袜配黑色学生皮鞋
  • 大而有神的棕色眼睛
  • 可爱清纯的二次元风格

第二步:编写提示词
基于角色特征撰写详细的视频提示词,确保角色一致性。

第三步:图生视频生成
上传图片,输入提示词,使用MiniMax T2V-01模型生成视频。

第四步:结果验收
生成的3.0MB高清MP4视频完美还原了角色特征:

  • 角色在日本校园中优雅行走
  • 长发在微风中自然飘动
  • 制服裙摆的动态效果展现
  • 温柔微笑的表情变化
  • 樱花飞舞的浪漫校园氛围

成果:静态角色图片成功转化为有生命的动态视频,角色特征高度一致,动画品质达到工作室级别。

8.3 案例三:个人专属歌曲创作

背景:用户想为自己创作一首专属歌曲,记录特殊回忆。

实现流程

第一步:生成歌词
使用AI助手(如DeepSeek)根据用户描述生成歌词,包含主歌、副歌、桥段等结构。

第二步:选择音乐风格
在音乐生成功能中选择风格,如"温暖民谣""流行抒情"等。

第三步:克隆个人音色
录制自己朗读歌词的15秒音频,上传至音色克隆功能,创建个人专属音色。

第四步:生成歌曲
将歌词和风格描述输入音乐生成功能,同时指定使用克隆音色演唱。

第五步:下载与分享
生成完成后试听,满意后下载保存,可分享给亲友作为礼物。

九、常见问题解答(FAQ)

Q1:MiniMax是免费的吗?怎么收费?
A: MiniMax提供免费试用额度,新用户注册通常赠送15元代金券或免费积分。超出后采用API按量计费,推理成本约为Claude/GPT的1/10~1/20。开发者还可通过OpenCode等合作伙伴获取限时免费访问。

Q2:音色克隆需要多长的音频样本?
A: 建议不少于15秒,最佳30秒左右。样本质量越高(干净人声、无背景噪音),克隆效果越好。

Q3:生成的视频可以商用吗?版权归谁?
A: 可以商用。使用MiniMax生成的内容,版权归用户所有。但需注意,如果上传了他人作品作为输入,需确保已获授权。

Q4:MiniMax支持哪些语言?
A: 语音合成支持32种不同语言。文生图、文生视频支持多语言提示词,可自然使用中文描述。

Q5:如何确保角色在不同视频中保持一致?
A: 可以通过两种方式:1)在提示词中详细描述角色特征并保持一致;2)使用图生视频功能,每次都以同一张角色图片作为输入。

Q6:MiniMax和即梦、可灵等竞品相比优势在哪里?
A: MiniMax的核心优势在于全模态生态——一个平台搞定文本、图像、视频、语音、音乐,且语音克隆和音乐生成能力突出。在编程任务上,M2.5模型表现超越Claude和Gemini,成本却低得多。

Q7:如何获取MiniMax API Key?
A: 登录开放平台后,进入"用户中心"→“接口密钥”→“创建API Key”。国内用户使用api.minimaxi.com,国际用户使用api.minimax.io

Q8:视频生成需要多长时间?
A: 通常数秒到数分钟,取决于图片大小、复杂度以及当前服务器负载。复杂场景可能需要更长时间。

Q9:MiniMax支持批量生成吗?
A: 通过API可以实现批量生成。如需批量处理大量任务,建议使用API方式调用。

Q10:有官方的开发者文档或社区吗?
A: 有。访问MiniMax开放平台官网可查看完整API文档和技术文档。GitHub上也有Mini-Agent等开源项目,开发者可以参与贡献。

结语:全模态AI创作的无限可能

从文生图到视频生成,从语音克隆到音乐创作,从智能体开发到代码自动生成,MiniMax正在构建一个覆盖创作全流程的AI生态系统。无论是内容创作者、开发者还是企业用户,都能在这个平台上找到适合自己的工具。

更值得关注的是MiniMax的成本优势——推理成本仅为竞品的1/10到1/20,加上慷慨的免费额度,让每个普通人都能零门槛体验前沿AI技术。

现在,登录MiniMax平台,从生成你的第一张图片、第一个视频、第一首歌曲开始,探索全模态AI创作的无限可能吧。

👉 国内官网:https://platform.minimaxi.com
👉 国际官网:https://www.minimax.io
👉 GitHub开源:https://github.com/MiniMax-AI

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
MiniMax
视频生成