正文目录

ElevenLabs最新使用教程：从文字转语音到AI智能体的完整指南

用户6805123

2026-03-23 13:35:04

ElevenLabs

AI配音

语音交互

企业级大模型

实时语音转文字

文章摘要

2026 年，AI 语音技术普及，ElevenLabs 成内容创作者和企业构建语音体验首选。本文介绍其四大核心功能，回顾发展历程，2026 年完成 5 亿美元融资。还介绍最新动态，如 AgentSkills 发布等。提供使用教程，从注册到实战案例均有涉及，最后解答常见问题，涵盖支持语言、免费版限制等内容。

在AI语音技术从“黑科技”走向普及的2026年，ElevenLabs已成为全球内容创作者和企业构建自然语音体验的首选平台。从《原神》角色配音到企业级AI客服，从个人播客制作到跨国营销视频本地化，ElevenLabs凭借其极致的语音真实感和强大的多语言能力，正重新定义人机交互的方式。

本文将为您全面解析ElevenLabs的四大核心功能——文字转语音、声音克隆、AI智能体（ElevenAgents）和实时语音转文字（Scribe v2），并提供从注册到高级应用的分步教程。无论您是想要为视频添加配音的内容创作者，还是计划部署AI语音客服的企业开发者，这份指南都将帮助您充分利用ElevenLabs的强大能力。

ElevenLabs最新使用教程

1、基本信息

项目	详细信息
工具名称	ElevenLabs
开发公司	ElevenLabs（由Piotr Dąbkowski和Mateusz Staniszewski于2022年创立）
上线时间	2022年
产品定位	AI语音研究与应用平台，致力于让所有内容和应用都能以自然语音的形式呈现
官方网站	https://elevenlabs.io/
最新估值	110亿美元（2026年2月Series D融资后）
年度经常性收入	超过3.3亿美元（2025年）

核心功能矩阵

功能模块	核心能力	适用场景
文字转语音（TTS）	将文字转换为自然语音，支持70+语言和多种情感表达	视频配音、有声书、广告制作、教育课件
声音克隆	从短音频样本克隆个人声音，创建专属AI声音模型	品牌声音资产、个性化语音助手、角色配音
ElevenAgents	构建实时语音AI智能体，支持多轮对话和工具调用	AI客服、语音助手、交互式角色体验
AI配音（Dubbing）	自动翻译并配音视频内容，保持原始音色和情感	全球化内容分发、影视本地化
Scribe v2	超低延迟（~150ms）实时语音转文字，支持90+语言	会议记录、字幕生成、语音交互应用
Music & SFX	从文本描述生成音乐和音效	背景音乐、游戏音效、广告配乐

主要产品平台

ElevenAgents：企业级语音智能体平台，支持部署实时语音客服、销售助理等
ElevenCreative：面向创作者的内容制作平台，支持音频生成、编辑和本地化
ElevenAPI：面向开发者的生产级语音API，为超过10亿用户的应用提供支持

2、发展历史：从语音合成到音频通用智能

第一阶段：创立与语音突破（2022-2023年）

ElevenLabs由童年好友Piotr Dąbkowski和Mateusz Staniszewski于2022年创立。两人曾在Google和Palantir等公司积累AI技术经验，怀揣着“让技术适应人类自然沟通方式”的愿景，投身语音AI领域。

2023年，ElevenLabs凭借其“近乎无法与真人区分”的文字转语音技术迅速走红。关键里程碑：

推出多语言TTS模型，支持英语、中文、日语等主流语言
上线Voice Library，允许用户分享和商业化自己的声音
完成Series A和Series B融资，估值突破10亿美元，跻身“独角兽”行列

第二阶段：产品矩阵扩展（2024-2025年）

随着技术积累，ElevenLabs开始从单一TTS工具向综合性语音平台转型：

推出AI配音功能：自动翻译视频并保留原声情感，成为内容出海的有力工具
上线ElevenAgents平台：为企业提供构建实时语音智能体的完整工具链
发布Scribe v2：实现~150ms端到端延迟的实时语音转文字，准确率行业领先
推出Music和Sound Effects生成：将能力从语音扩展至全音频领域

截至2025年底，ElevenLabs年度经常性收入（ARR）突破3.3亿美元，企业客户包括Deutsche Telekom、Square、Revolut、NVIDIA、Duolingo、Meta、Epic Games等全球知名公司。

第三阶段：规模扩张与生态建设（2026年至今）

2026年2月，ElevenLabs完成5亿美元Series D融资，估值达到110亿美元（较一年前增长超3倍）。本轮融资由Sequoia Capital领投，Andreessen Horowitz、ICONIQ等机构跟投，标志着资本市场对语音AI商业前景的强烈看好。

最新战略方向：

深化与Google Cloud的战略合作，接入NVIDIA Blackwell GPU集群，大幅提升模型推理效率
推出Agent Skills工具集，赋能开发者更高效构建语音应用
加速全球扩张，已在伦敦、纽约、东京、新加坡、首尔等15个城市设立本地团队

3、最新动态情况

3.1 Agent Skills发布（2026年2月）

ElevenLabs推出Agent Skills——一个包含6个核心技能的LLM工具集，旨在帮助开发者更快构建语音AI应用：

Skill名称	功能描述
setup-api-key	指导用户配置ElevenLabs API密钥
agents	构建语音AI智能体，适用于客服、语音助手等场景
speech-to-text	使用Scribe v2进行音频转录，生成字幕或会议记录
text-to-speech	文字转语音，支持70+语言
music	从提示词生成音乐，支持作曲计划和精细控制
sound-effects	从文本描述生成音效，支持循环播放和时长控制

3.2 Scribe v2 Realtime正式发布（2026年2月）

ElevenLabs Scribe v2 Realtime实现了约150毫秒的端到端转录延迟，支持90多种语言，在主流语言和口音测试中达到最低词错误率（WER）。这一能力专为实时对话应用设计，如AI会议助手、实时笔记、访谈记录等场景。

3.3 与Google Cloud深度合作（2026年2月）

ElevenLabs与Google Cloud达成多年战略合作扩展，将使用Google Cloud的G4虚拟机（搭载NVIDIA RTX PRO 6000 Blackwell GPU）训练和服务语音模型。同时，ElevenLabs正在整合Gemini模型到Agents平台，为语音助手解锁推理和多步规划能力。

3.4 “对话雕像”应用案例（2026年2月）

ElevenLabs官方博客发布了一个创新应用案例：通过Voice Design API和Agents平台，构建了一个可与历史雕像对话的移动应用。用户拍照识别雕像，系统自动分析人物角色，为每个历史人物生成独特的声音，用户即可与“雕像”实时对话。这一案例展示了ElevenLabs在多角色语音交互场景中的强大能力。

3.5 融资与估值更新（2026年2月）

ElevenLabs完成5亿美元Series D轮融资，估值达到110亿美元，是2025年初估值的三倍以上。公司计划将资金用于：扩大研究团队、深化情感对话模型开发、加速全球市场扩张。

4、使用教程：从入门到精通的实战指南

4.1 第一步：注册与方案选择

注册流程：

访问ElevenLabs官网：https：//elevenlabs.io/
点击“Sign Up”使用Google账号或邮箱注册
完成邮箱验证后即可登录

方案选择建议（截至2026年3月）：

方案	月费	每月积分	生成时长	适用人群
Free	$0	10,000	约20分钟	个人测试、体验功能
Starter	$5	30,000	约60分钟	兼职创作者、小项目
Creator	$22	100,000	约200分钟	职业创作者、独立工作室
Pro	$99	500,000	约1000分钟	成长型团队、高产营销
Scale	$330	2,000,000	约4000分钟	规模化内容制作
Business	$1,320	11,000,000	约22000分钟	企业级用户

选择建议：

新手入门：先使用Free计划体验功能
个人创作者：Creator计划性价比最高，支持商业使用和专业声音克隆
企业用户：Scale或Business计划包含多用户工作区、低延迟优化等企业级功能

> ⚠️ 注意：免费版不支持商业用途，所有生成内容会带有水印。商业项目建议至少选择Starter及以上方案。

4.2 第二步：文字转语音基础操作

Web端操作流程：

进入TTS界面：登录后，在左侧菜单选择“Playground” → “Text to Speech”
输入文字：在文本框中粘贴或输入需要转换的文字（支持最多5000字符）
选择语音：
- 浏览Voice Library，可按语言、性别、年龄、口音筛选
- 中文语音推荐选择“台湾口音”或“大陆普通话”分类
- 点击语音卡片可试听样本
调整参数：
- 稳定性（Stability）：数值越高，语音越平稳；越低则情感变化越丰富
- 清晰度（Clarity）：数值越高，发音越清晰，但可能牺牲自然度
- 风格（Style）：部分语音支持多种说话风格
生成与下载：
- 点击“Generate speech”，等待约5-10秒生成
- 播放试听，满意后点击下载按钮（支持MP3格式）

进阶技巧：添加停顿和情感

在文本中使用SSML标签可以精确控制语音效果：

<break time="500ms">  
<prosody rate="slow">放慢语速的文本</prosody>
<emphasis level="strong">强调语气</emphasis>

4.3 第三步：声音克隆——创建专属AI声音

专业声音克隆（Professional Voice Cloning）——Creator及以上方案支持：

在左侧菜单选择“Voice Lab” → “Add new voice”
选择“Professional Voice Cloning”
上传至少10分钟的干净语音样本（建议30分钟以上以获得最佳效果）
填写声音名称和描述
等待模型训练（通常需要1-2小时）
训练完成后，即可在TTS界面使用该声音

即时声音克隆（Instant Voice Cloning）——Starter及以上方案支持：

选择“Instant Voice Cloning”
上传30秒至3分钟的语音样本
系统自动生成克隆声音
可立即用于TTS生成

> 💡 提示：声音克隆质量取决于样本质量。建议使用采样率44.1kHz以上、背景干净的录音，内容包含不同语速和情感。

4.4 第四步：ElevenAgents——构建AI语音智能体

通过API创建智能体：

import requests

# 创建Agent
response = requests.post(
    "https://api.elevenlabs.io/v1/convai/agents/create",
    headers={"xi-api-key": "YOUR_API_KEY"},
    json={
        "name": "我的客服助手",
        "conversation_config": {
            "agent": {
                "first_message": "您好，我是AI助手，请问有什么可以帮您？",
                "language": "zh",
                "prompt": {
                    "prompt": "你是一位专业的客服助手，热情、耐心地回答用户问题。"
                }
            },
            "tts": {
                "voice_id": "21m00Tcm4TlvDq8ikWAM",  # 选择的声音ID
                "model_id": "eleven_v3"
            }
        }
    }
)

agent_id = response.json()["agent_id"]

获取WebRTC连接令牌（用于实时对话）：

# 获取对话令牌
token_response = requests.post(
    f"https://api.elevenlabs.io/v1/convai/conversations/get_webrtc_token",
    headers={"xi-api-key": "YOUR_API_KEY"},
    json={"agent_id": agent_id}
)

token = token_response.json()["token"]

前端集成（React）：

import { useConversation } from "@elevenlabs/react";

function VoiceAgent() {
  const conversation = useConversation({
    onConnect: () => console.log("已连接"),
    onError: (err) => console.error(err)
  });

  const startConversation = async () => {
    await conversation.startSession({ 
      agentId: "YOUR_AGENT_ID" 
    });
  };

  return (
    
      
      {conversation.isSessionActive && (
        
      )}
    
  );
}

4.5 第五步：实战案例——构建“与历史人物对话”应用

案例背景：受ElevenLabs官方“对话雕像”案例启发，我们构建一个教育类应用：用户上传历史人物画像，AI识别后生成该人物的声音，实现与历史人物的实时对话。

技术架构：

图像识别：OpenAI GPT-5.2 Vision
语音合成：ElevenLabs Voice Design API
对话引擎：ElevenAgents

实现步骤：

步骤1：图像识别与角色分析

import openai

def analyze_portrait(image_base64):
    response = openai.chat.completions.create(
        model="gpt-5.2",
        response_format={"type": "json_object"},
        messages=[
            {
                "role": "system",
                "content": """识别画像中的人物，返回JSON格式：
                - name：人物姓名
                - era：所处年代
                - voiceDescription：声音描述（包含年龄、性别、口音、语速、性格）
                """
            },
            {
                "role": "user",
                "content": [
                    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
                ]
            }
        ]
    )
    return response.choices[0].message.content

步骤2：使用Voice Design生成专属声音

import elevenlabs

# 根据角色描述生成声音
voice = elevenlabs.text_to_voice.design({
    "model_id": "eleven_multilingual_ttv_v2",
    "voice_description": "一位50多岁的中国历史人物，声音沉稳有力，带有山东口音，语速从容，语气庄重中带着智慧",
    "text": "你好，我是你面前画像中的人物。有什么想了解的吗？"
})

# 保存声音
saved_voice = elevenlabs.text_to_voice.create({
    "voice_name": f"历史人物_{character_name}",
    "voice_description": voice_description,
    "generated_voice_id": voice["previews"][0]["generated_voice_id"]
})

步骤3：创建对话Agent

agent = elevenlabs.conversational_ai.agents.create({
    "name": f"对话-{character_name}",
    "conversation_config": {
        "agent": {
            "first_message": f"您好，我是{character_name}。很高兴与您对话。",
            "prompt": {
                "prompt": f"""你扮演历史人物{character_name}，用ta的口吻和语气与用户对话。
                保持历史准确性，回答要符合人物所处的时代背景和生平经历。"""
            }
        },
        "tts": {
            "voice_id": saved_voice.voice_id
        }
    }
})

4.6 第六步：API集成与MCP工具使用

获取API密钥：

登录后点击右上角头像 → “Profile”
在“API Keys”部分点击“Create API Key”
复制保存密钥（注意：只显示一次）

使用MCP协议集成（Claude Agent SDK）：

from composio import ComposioToolRouter
import asyncio
from anthropic import Anthropic

# 初始化Tool Router
tool_router = ComposioToolRouter(api_key="YOUR_COMPOSIO_KEY")
mcp_url = tool_router.create("elevenlabs")

# 使用Claude Agent SDK
from claude_agent_sdk import Agent

agent = Agent(
    system_prompt="你有访问ElevenLabs工具的能力",
    mcp_servers=[mcp_url]
)

# 自然语言操作ElevenLabs
response = await agent.chat("帮我将这段文本转换成语音，使用中文女声")

4.7 第七步：Scribe v2实时转录（语音转文字）

使用Scribe v2 Realtime进行实时转录：

import asyncio
from elevenlabs import ElevenLabs

client = ElevenLabs(api_key="YOUR_API_KEY")

async def transcribe_realtime():
    # 创建实时转录会话
    async with client.scribe.realtime_stream() as stream:
        async for transcription in stream:
            print(f"用户说: {transcription.text}")
            if transcription.is_final:
                # 处理完整句子
                await process_user_input(transcription.text)

asyncio.run(transcribe_realtime())

与语音助手集成示例：

from vision_agents.core import Agent, Runner
from vision_agents.plugins import elevenlabs, gemini

# 构建完整语音助手
voice_agent = Agent(
    stt=elevenlabs.STT(model_id="scribe_v2_realtime"),  # 实时转录
    llm=gemini.LLM("gemini-2.5-flash"),                 # 对话理解
    tts=elevenlabs.TTS(),                               # 语音回复
    instructions="你是一个友好的语音助手"
)

# 运行
Runner(voice_agent).cli()

5、FAQ

问：ElevenLabs支持中文吗？发音标准吗？

答：支持。ElevenLabs提供多种中文语音选项，包括台湾口音和大陆普通话。根据实测，大部分中文语音发音自然，但个别词汇可能存在发音问题（如“企业”读作“ㄑ一ˇ业”）。建议生成前先试听，确认发音是否符合需求。如需精准控制，可使用SSML标签或自定义发音词典。

问：ElevenLabs免费版能做什么？有哪些限制？

答：免费版每月提供10,000积分（约20分钟语音），可体验基础TTS功能，访问共享Voice Library中的声音。主要限制包括：不支持商业用途、无声音克隆功能、生成内容带水印、无API优先访问权限。如需商业使用，建议升级至Starter及以上方案。

问：声音克隆需要多少样本？效果如何？

答：即时声音克隆需要30秒至3分钟样本，适用于快速测试。专业声音克隆建议提供10-30分钟高质量录音，可获得更接近原声的效果。样本质量比时长更重要——建议使用44.1kHz采样率、背景安静的录音，内容包含不同语速和情感变化。

问：ElevenAgents和普通TTS有什么区别？

答：TTS是单向的文字转语音工具，适合生成预录内容（如视频配音、有声书）。ElevenAgents是双向的实时对话系统，支持：多轮对话、上下文理解、工具调用（如查询订单）、实时WebRTC通信。适用于AI客服、语音助手、交互式游戏角色等场景。

问：API的延迟大概多少？适合实时对话吗？

答：ElevenLabs API经过优化，端到端延迟可控制在400毫秒以内。配合Scribe v2 Realtime（~150ms转录延迟）和优化的TTS模型，足以支撑流畅的实时对话体验。如需更低延迟，Scale及以上方案可申请低延迟TTS优化。

问：生成的语音版权归谁？可以商用吗？

答：付费方案（Starter及以上）生成的语音内容，版权归用户所有，可商用。免费版生成的内容不可商用。如使用Voice Library中他人分享的声音，需遵守该声音创作者的授权条款。

问：ElevenLabs有中文界面吗？

答：Web端界面支持中文，但用词偏向大陆简体中文表达。如需繁体中文界面，可通过浏览器翻译功能实现。

问：积分消耗太快怎么办？有什么节省技巧？

答：积分按字符数计算，长文本消耗较快。节省技巧：

使用Turbo模型（积分效率更高）
精简文本内容，删除冗余信息
分批生成，避免重复生成
年付方案可获20%折扣，降低单位成本

问：如何取消ElevenLabs订阅？

答：登录后进入“Billing”页面，找到订阅管理区域，点击“Cancel Subscription”并按提示确认。取消后当前计费周期内仍可正常使用，到期后自动降级为免费版。

问：ElevenLabs和Rime、MyEdit有什么区别？

答：ElevenLabs：行业领先的语音真实感，支持70+语言，适合内容创作和全球化应用。Rime：专注企业对话场景，超低延迟（<200ms），定价更透明，适合客服中心等实时应用。MyEdit：台湾开发，每日免费额度，全繁中界面，适合本地用户。选择建议：追求极致语音质量选ElevenLabs；实时客服场景选Rime；简单本地使用选MyEdit。
</break>

以上内容不代表本平台立场，仅供读者参考