ElevenLabs最新使用教程:从文字转语音到AI智能体的完整指南
在AI语音技术从“黑科技”走向普及的2026年,ElevenLabs已成为全球内容创作者和企业构建自然语音体验的首选平台。从《原神》角色配音到企业级AI客服,从个人播客制作到跨国营销视频本地化,ElevenLabs凭借其极致的语音真实感和强大的多语言能力,正重新定义人机交互的方式。
本文将为您全面解析ElevenLabs的四大核心功能——文字转语音、声音克隆、AI智能体(ElevenAgents)和实时语音转文字(Scribe v2),并提供从注册到高级应用的分步教程。无论您是想要为视频添加配音的内容创作者,还是计划部署AI语音客服的企业开发者,这份指南都将帮助您充分利用ElevenLabs的强大能力。

1、基本信息
| 项目 | 详细信息 |
|---|---|
| 工具名称 | ElevenLabs |
| 开发公司 | ElevenLabs(由Piotr Dąbkowski和Mateusz Staniszewski于2022年创立) |
| 上线时间 | 2022年 |
| 产品定位 | AI语音研究与应用平台,致力于让所有内容和应用都能以自然语音的形式呈现 |
| 官方网站 | https://elevenlabs.io/ |
| 最新估值 | 110亿美元(2026年2月Series D融资后) |
| 年度经常性收入 | 超过3.3亿美元(2025年) |
核心功能矩阵
| 功能模块 | 核心能力 | 适用场景 |
|---|---|---|
| 文字转语音(TTS) | 将文字转换为自然语音,支持70+语言和多种情感表达 | 视频配音、有声书、广告制作、教育课件 |
| 声音克隆 | 从短音频样本克隆个人声音,创建专属AI声音模型 | 品牌声音资产、个性化语音助手、角色配音 |
| ElevenAgents | 构建实时语音AI智能体,支持多轮对话和工具调用 | AI客服、语音助手、交互式角色体验 |
| AI配音(Dubbing) | 自动翻译并配音视频内容,保持原始音色和情感 | 全球化内容分发、影视本地化 |
| Scribe v2 | 超低延迟(~150ms)实时语音转文字,支持90+语言 | 会议记录、字幕生成、语音交互应用 |
| Music & SFX | 从文本描述生成音乐和音效 | 背景音乐、游戏音效、广告配乐 |
主要产品平台
- ElevenAgents:企业级语音智能体平台,支持部署实时语音客服、销售助理等
- ElevenCreative:面向创作者的内容制作平台,支持音频生成、编辑和本地化
- ElevenAPI:面向开发者的生产级语音API,为超过10亿用户的应用提供支持
2、发展历史:从语音合成到音频通用智能
第一阶段:创立与语音突破(2022-2023年)
ElevenLabs由童年好友Piotr Dąbkowski和Mateusz Staniszewski于2022年创立。两人曾在Google和Palantir等公司积累AI技术经验,怀揣着“让技术适应人类自然沟通方式”的愿景,投身语音AI领域。
2023年,ElevenLabs凭借其“近乎无法与真人区分”的文字转语音技术迅速走红。关键里程碑:
- 推出多语言TTS模型,支持英语、中文、日语等主流语言
- 上线Voice Library,允许用户分享和商业化自己的声音
- 完成Series A和Series B融资,估值突破10亿美元,跻身“独角兽”行列
第二阶段:产品矩阵扩展(2024-2025年)
随着技术积累,ElevenLabs开始从单一TTS工具向综合性语音平台转型:
- 推出AI配音功能:自动翻译视频并保留原声情感,成为内容出海的有力工具
- 上线ElevenAgents平台:为企业提供构建实时语音智能体的完整工具链
- 发布Scribe v2:实现~150ms端到端延迟的实时语音转文字,准确率行业领先
- 推出Music和Sound Effects生成:将能力从语音扩展至全音频领域
截至2025年底,ElevenLabs年度经常性收入(ARR)突破3.3亿美元,企业客户包括Deutsche Telekom、Square、Revolut、NVIDIA、Duolingo、Meta、Epic Games等全球知名公司。
第三阶段:规模扩张与生态建设(2026年至今)
2026年2月,ElevenLabs完成5亿美元Series D融资,估值达到110亿美元(较一年前增长超3倍)。本轮融资由Sequoia Capital领投,Andreessen Horowitz、ICONIQ等机构跟投,标志着资本市场对语音AI商业前景的强烈看好。
最新战略方向:
- 深化与Google Cloud的战略合作,接入NVIDIA Blackwell GPU集群,大幅提升模型推理效率
- 推出Agent Skills工具集,赋能开发者更高效构建语音应用
- 加速全球扩张,已在伦敦、纽约、东京、新加坡、首尔等15个城市设立本地团队
3、最新动态情况
3.1 Agent Skills发布(2026年2月)
ElevenLabs推出Agent Skills——一个包含6个核心技能的LLM工具集,旨在帮助开发者更快构建语音AI应用:
| Skill名称 | 功能描述 |
|---|---|
| setup-api-key | 指导用户配置ElevenLabs API密钥 |
| agents | 构建语音AI智能体,适用于客服、语音助手等场景 |
| speech-to-text | 使用Scribe v2进行音频转录,生成字幕或会议记录 |
| text-to-speech | 文字转语音,支持70+语言 |
| music | 从提示词生成音乐,支持作曲计划和精细控制 |
| sound-effects | 从文本描述生成音效,支持循环播放和时长控制 |
3.2 Scribe v2 Realtime正式发布(2026年2月)
ElevenLabs Scribe v2 Realtime实现了约150毫秒的端到端转录延迟,支持90多种语言,在主流语言和口音测试中达到最低词错误率(WER)。这一能力专为实时对话应用设计,如AI会议助手、实时笔记、访谈记录等场景。
3.3 与Google Cloud深度合作(2026年2月)
ElevenLabs与Google Cloud达成多年战略合作扩展,将使用Google Cloud的G4虚拟机(搭载NVIDIA RTX PRO 6000 Blackwell GPU)训练和服务语音模型。同时,ElevenLabs正在整合Gemini模型到Agents平台,为语音助手解锁推理和多步规划能力。
3.4 “对话雕像”应用案例(2026年2月)
ElevenLabs官方博客发布了一个创新应用案例:通过Voice Design API和Agents平台,构建了一个可与历史雕像对话的移动应用。用户拍照识别雕像,系统自动分析人物角色,为每个历史人物生成独特的声音,用户即可与“雕像”实时对话。这一案例展示了ElevenLabs在多角色语音交互场景中的强大能力。
3.5 融资与估值更新(2026年2月)
ElevenLabs完成5亿美元Series D轮融资,估值达到110亿美元,是2025年初估值的三倍以上。公司计划将资金用于:扩大研究团队、深化情感对话模型开发、加速全球市场扩张。
4、使用教程:从入门到精通的实战指南
4.1 第一步:注册与方案选择
注册流程:
- 访问ElevenLabs官网:https://elevenlabs.io/
- 点击“Sign Up”使用Google账号或邮箱注册
- 完成邮箱验证后即可登录
方案选择建议(截至2026年3月):
| 方案 | 月费 | 每月积分 | 生成时长 | 适用人群 |
|---|---|---|---|---|
| Free | $0 | 10,000 | 约20分钟 | 个人测试、体验功能 |
| Starter | $5 | 30,000 | 约60分钟 | 兼职创作者、小项目 |
| Creator | $22 | 100,000 | 约200分钟 | 职业创作者、独立工作室 |
| Pro | $99 | 500,000 | 约1000分钟 | 成长型团队、高产营销 |
| Scale | $330 | 2,000,000 | 约4000分钟 | 规模化内容制作 |
| Business | $1,320 | 11,000,000 | 约22000分钟 | 企业级用户 |
选择建议:
- 新手入门:先使用Free计划体验功能
- 个人创作者:Creator计划性价比最高,支持商业使用和专业声音克隆
- 企业用户:Scale或Business计划包含多用户工作区、低延迟优化等企业级功能
> ⚠️ 注意:免费版不支持商业用途,所有生成内容会带有水印。商业项目建议至少选择Starter及以上方案。
4.2 第二步:文字转语音基础操作
Web端操作流程:
-
进入TTS界面:登录后,在左侧菜单选择“Playground” → “Text to Speech”
-
输入文字:在文本框中粘贴或输入需要转换的文字(支持最多5000字符)
-
选择语音:
- 浏览Voice Library,可按语言、性别、年龄、口音筛选
- 中文语音推荐选择“台湾口音”或“大陆普通话”分类
- 点击语音卡片可试听样本
-
调整参数:
- 稳定性(Stability):数值越高,语音越平稳;越低则情感变化越丰富
- 清晰度(Clarity):数值越高,发音越清晰,但可能牺牲自然度
- 风格(Style):部分语音支持多种说话风格
-
生成与下载:
- 点击“Generate speech”,等待约5-10秒生成
- 播放试听,满意后点击下载按钮(支持MP3格式)
进阶技巧:添加停顿和情感
在文本中使用SSML标签可以精确控制语音效果:
<break time="500ms">
<prosody rate="slow">放慢语速的文本</prosody>
<emphasis level="strong">强调语气</emphasis>
4.3 第三步:声音克隆——创建专属AI声音
专业声音克隆(Professional Voice Cloning)——Creator及以上方案支持:
- 在左侧菜单选择“Voice Lab” → “Add new voice”
- 选择“Professional Voice Cloning”
- 上传至少10分钟的干净语音样本(建议30分钟以上以获得最佳效果)
- 填写声音名称和描述
- 等待模型训练(通常需要1-2小时)
- 训练完成后,即可在TTS界面使用该声音
即时声音克隆(Instant Voice Cloning)——Starter及以上方案支持:
- 选择“Instant Voice Cloning”
- 上传30秒至3分钟的语音样本
- 系统自动生成克隆声音
- 可立即用于TTS生成
> 💡 提示:声音克隆质量取决于样本质量。建议使用采样率44.1kHz以上、背景干净的录音,内容包含不同语速和情感。
4.4 第四步:ElevenAgents——构建AI语音智能体
通过API创建智能体:
import requests
# 创建Agent
response = requests.post(
"https://api.elevenlabs.io/v1/convai/agents/create",
headers={"xi-api-key": "YOUR_API_KEY"},
json={
"name": "我的客服助手",
"conversation_config": {
"agent": {
"first_message": "您好,我是AI助手,请问有什么可以帮您?",
"language": "zh",
"prompt": {
"prompt": "你是一位专业的客服助手,热情、耐心地回答用户问题。"
}
},
"tts": {
"voice_id": "21m00Tcm4TlvDq8ikWAM", # 选择的声音ID
"model_id": "eleven_v3"
}
}
}
)
agent_id = response.json()["agent_id"]
获取WebRTC连接令牌(用于实时对话):
# 获取对话令牌
token_response = requests.post(
f"https://api.elevenlabs.io/v1/convai/conversations/get_webrtc_token",
headers={"xi-api-key": "YOUR_API_KEY"},
json={"agent_id": agent_id}
)
token = token_response.json()["token"]
前端集成(React):
import { useConversation } from "@elevenlabs/react";
function VoiceAgent() {
const conversation = useConversation({
onConnect: () => console.log("已连接"),
onError: (err) => console.error(err)
});
const startConversation = async () => {
await conversation.startSession({
agentId: "YOUR_AGENT_ID"
});
};
return (
{conversation.isSessionActive && (
)}
);
}
4.5 第五步:实战案例——构建“与历史人物对话”应用
案例背景:受ElevenLabs官方“对话雕像”案例启发,我们构建一个教育类应用:用户上传历史人物画像,AI识别后生成该人物的声音,实现与历史人物的实时对话。
技术架构:
- 图像识别:OpenAI GPT-5.2 Vision
- 语音合成:ElevenLabs Voice Design API
- 对话引擎:ElevenAgents
实现步骤:
步骤1:图像识别与角色分析
import openai
def analyze_portrait(image_base64):
response = openai.chat.completions.create(
model="gpt-5.2",
response_format={"type": "json_object"},
messages=[
{
"role": "system",
"content": """识别画像中的人物,返回JSON格式:
- name:人物姓名
- era:所处年代
- voiceDescription:声音描述(包含年龄、性别、口音、语速、性格)
"""
},
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
]
}
]
)
return response.choices[0].message.content
步骤2:使用Voice Design生成专属声音
import elevenlabs
# 根据角色描述生成声音
voice = elevenlabs.text_to_voice.design({
"model_id": "eleven_multilingual_ttv_v2",
"voice_description": "一位50多岁的中国历史人物,声音沉稳有力,带有山东口音,语速从容,语气庄重中带着智慧",
"text": "你好,我是你面前画像中的人物。有什么想了解的吗?"
})
# 保存声音
saved_voice = elevenlabs.text_to_voice.create({
"voice_name": f"历史人物_{character_name}",
"voice_description": voice_description,
"generated_voice_id": voice["previews"][0]["generated_voice_id"]
})
步骤3:创建对话Agent
agent = elevenlabs.conversational_ai.agents.create({
"name": f"对话-{character_name}",
"conversation_config": {
"agent": {
"first_message": f"您好,我是{character_name}。很高兴与您对话。",
"prompt": {
"prompt": f"""你扮演历史人物{character_name},用ta的口吻和语气与用户对话。
保持历史准确性,回答要符合人物所处的时代背景和生平经历。"""
}
},
"tts": {
"voice_id": saved_voice.voice_id
}
}
})
4.6 第六步:API集成与MCP工具使用
获取API密钥:
- 登录后点击右上角头像 → “Profile”
- 在“API Keys”部分点击“Create API Key”
- 复制保存密钥(注意:只显示一次)
使用MCP协议集成(Claude Agent SDK):
from composio import ComposioToolRouter
import asyncio
from anthropic import Anthropic
# 初始化Tool Router
tool_router = ComposioToolRouter(api_key="YOUR_COMPOSIO_KEY")
mcp_url = tool_router.create("elevenlabs")
# 使用Claude Agent SDK
from claude_agent_sdk import Agent
agent = Agent(
system_prompt="你有访问ElevenLabs工具的能力",
mcp_servers=[mcp_url]
)
# 自然语言操作ElevenLabs
response = await agent.chat("帮我将这段文本转换成语音,使用中文女声")
4.7 第七步:Scribe v2实时转录(语音转文字)
使用Scribe v2 Realtime进行实时转录:
import asyncio
from elevenlabs import ElevenLabs
client = ElevenLabs(api_key="YOUR_API_KEY")
async def transcribe_realtime():
# 创建实时转录会话
async with client.scribe.realtime_stream() as stream:
async for transcription in stream:
print(f"用户说: {transcription.text}")
if transcription.is_final:
# 处理完整句子
await process_user_input(transcription.text)
asyncio.run(transcribe_realtime())
与语音助手集成示例:
from vision_agents.core import Agent, Runner
from vision_agents.plugins import elevenlabs, gemini
# 构建完整语音助手
voice_agent = Agent(
stt=elevenlabs.STT(model_id="scribe_v2_realtime"), # 实时转录
llm=gemini.LLM("gemini-2.5-flash"), # 对话理解
tts=elevenlabs.TTS(), # 语音回复
instructions="你是一个友好的语音助手"
)
# 运行
Runner(voice_agent).cli()
5、FAQ
问:ElevenLabs支持中文吗?发音标准吗?
答:支持。ElevenLabs提供多种中文语音选项,包括台湾口音和大陆普通话。根据实测,大部分中文语音发音自然,但个别词汇可能存在发音问题(如“企业”读作“ㄑ一ˇ业”)。建议生成前先试听,确认发音是否符合需求。如需精准控制,可使用SSML标签或自定义发音词典。
问:ElevenLabs免费版能做什么?有哪些限制?
答:免费版每月提供10,000积分(约20分钟语音),可体验基础TTS功能,访问共享Voice Library中的声音。主要限制包括:不支持商业用途、无声音克隆功能、生成内容带水印、无API优先访问权限。如需商业使用,建议升级至Starter及以上方案。
问:声音克隆需要多少样本?效果如何?
答:即时声音克隆需要30秒至3分钟样本,适用于快速测试。专业声音克隆建议提供10-30分钟高质量录音,可获得更接近原声的效果。样本质量比时长更重要——建议使用44.1kHz采样率、背景安静的录音,内容包含不同语速和情感变化。
问:ElevenAgents和普通TTS有什么区别?
答:TTS是单向的文字转语音工具,适合生成预录内容(如视频配音、有声书)。ElevenAgents是双向的实时对话系统,支持:多轮对话、上下文理解、工具调用(如查询订单)、实时WebRTC通信。适用于AI客服、语音助手、交互式游戏角色等场景。
问:API的延迟大概多少?适合实时对话吗?
答:ElevenLabs API经过优化,端到端延迟可控制在400毫秒以内。配合Scribe v2 Realtime(~150ms转录延迟)和优化的TTS模型,足以支撑流畅的实时对话体验。如需更低延迟,Scale及以上方案可申请低延迟TTS优化。
问:生成的语音版权归谁?可以商用吗?
答:付费方案(Starter及以上)生成的语音内容,版权归用户所有,可商用。免费版生成的内容不可商用。如使用Voice Library中他人分享的声音,需遵守该声音创作者的授权条款。
问:ElevenLabs有中文界面吗?
答:Web端界面支持中文,但用词偏向大陆简体中文表达。如需繁体中文界面,可通过浏览器翻译功能实现。
问:积分消耗太快怎么办?有什么节省技巧?
答:积分按字符数计算,长文本消耗较快。节省技巧:
- 使用Turbo模型(积分效率更高)
- 精简文本内容,删除冗余信息
- 分批生成,避免重复生成
- 年付方案可获20%折扣,降低单位成本
问:如何取消ElevenLabs订阅?
答:登录后进入“Billing”页面,找到订阅管理区域,点击“Cancel Subscription”并按提示确认。取消后当前计费周期内仍可正常使用,到期后自动降级为免费版。
问:ElevenLabs和Rime、MyEdit有什么区别?
答:ElevenLabs:行业领先的语音真实感,支持70+语言,适合内容创作和全球化应用。Rime:专注企业对话场景,超低延迟(<200ms),定价更透明,适合客服中心等实时应用。MyEdit:台湾开发,每日免费额度,全繁中界面,适合本地用户。选择建议:追求极致语音质量选ElevenLabs;实时客服场景选Rime;简单本地使用选MyEdit。
</break>

