文本LLM早就过了图灵测试，为什么语音AI还没过？ElevenLabs创始人的回答-噬脐莫及网

这篇文章把Mati在这场对话里讲到的文本关键判断做了一次完整的书面整理。

John开场的过图第一个问题是：如果我们像Karpathy讲LLM原理一样，从头讲一遍语音模型是灵测怎么工作的，那应该是试为什语什么样的？

Mati从18世纪讲起。第一个试图让机器发出人声的还回答人叫Wolfgang von Kempelen，他用纯机械装置模拟人的没过声道（喉咙、嘴巴、创始鼻腔），文本试图让机器说话。过图这台机器花了几十年才能发出元音。灵测同一个人还发明了更著名的试为什语"机械土耳其人"，一台看起来像是还回答能下国际象棋的机器，实际上里面藏了一个真人在操作。没过亚马逊后来给自己的创始众包平台取名Mechanical Turk，名字就来自这台机器。文本

从机械模拟到数字表示的跨越发生在Bell Labs。他们第一次用结构化的电子信号来表示语音，这是语音数字化的开端。再往后是phoneme拼接的时代。phoneme是语音学里的"音素"，就是把人类发出的所有声音拆解到最小的单元，比一个音节还小。这个时期的语音合成本质上是一种拼接游戏：系统有一个音素库，根据概率判断下一个最可能出现的音素是什么，然后把它们串起来。

到了今天，语音模型的核心机制和大语言模型有了结构上的相似性，都是在预测"下一个"。LLM预测下一个文本token，语音模型预测下一个声音单元。但这两者的实现路径差别巨大。ElevenLabs联合创始人Piotr Dabkowski的关键贡献，是把Transformer架构和Diffusion模型这两种在自然语言和图像领域已经验证过的技术思路引入了语音空间，让在phoneme层面的"预测下一个token"变得可行。在此之前，这条路走不通。

传统的语音合成走的是一条"三段式"流水线：先把文本转成mel spectrogram，一种把声音的音高和能量随时间变化的关系画成图的方式，再把这张"声音图"解码成最终的音频波形。Google DeepMind的WaveNet以及同时代的TTS模型基本都走这条路。

Piotr的做法是在这条流水线上动刀：把中间的编码-解码步骤抽象掉一部分，让文本到波形的转换路径更短。Mati在节目里没有详细展开技术细节，但他明确说这是ElevenLabs在架构层面的两大创新之一。

语音模型要做到"像人"，需要解决两个并行的问题。第一个是前面说的如何预测下一个声音单元。第二个同样关键：如何让声音听起来像特定的"某个人"，而不仅仅是一个正确但平淡的朗读机器。

Bell Labs时代的解决方案是硬编码。工程师预先定义一组参数（音高范围、能量频谱、语速），然后从中选取组合。你要一个"热情的英式口音男声"，就手动拨几个参数。

ElevenLabs的做法反过来了。模型自己决定这些参数应该是什么，不预设英国口音、波兰口音、西班牙口音这些类别标签，也不预设"热情""悲伤""紧张"这些情绪标签。

"Britishness是涌现出来的。模型自己推断——是英国口音、波兰口音、还是英语腔，都不需要事先定义。情绪也一样。"

用机器学习的术语说，口音和情绪在ElevenLabs的模型里，是emergent property，涌现属性。模型在大量数据中自己找到了这些维度的表示方式，而不是人类工程师一条一条编写规则告诉它什么是"英国口音"。这个差异直接解释了为什么ElevenLabs早期的声音听起来就比同行更自然：硬编码参数撑不起真实人声里那么多维度的细微变化，语气的犹豫、呼吸的节奏、句尾的微妙上扬。这些东西只有让模型自己学出来，才能做到。

Mati说，任何模型都离不开三样东西：架构、算力、数据。对于语音来说，数据是最难的。

这听起来反常识，互联网上到处都是音频，播客、有声书、电话录音、新闻播报。但问题在于，这些音频几乎都缺少ElevenLabs需要的标注。"what"维度的标注相对丰富，说了什么内容、哪个词对应哪个时间段，但"how"维度几乎是空白的。说话人在这段话里用了什么情绪？他的口音偏向哪个区域？语速在哪些地方加快、在哪些地方放慢？哪里有刻意的停顿？

ElevenLabs没有去找外部标注服务商，而是自己组建了一支标注团队，专门训练他们识别音频里的这些细粒度特征。Mati直言，市面上的通用众包标注工做不了这件事，他们对"声音"的理解不够深。

这支团队产出的标注数据集直接催生了一个附带收益。ElevenLabs最初做语音转文本模型（speech-to-text）完全是为了自用，因为市面上没有一个足够好的转写工具能满足他们做数据标注的精度要求。模型做出来之后发现质量远超市面产品，于是索性发布出去，变成了一条新的产品线。ElevenLabs今天支持超过100种语言的语音转文字，这个能力的起源就是"我们的标注团队需要更好的工具"。

即便有了开放式参数化和高质量标注数据，ElevenLabs的语音模型在2025年底之前还有一个明显的局限：你无法控制模型"怎么说"。

你给模型一段文本，模型自己决定用什么节奏、什么情绪、什么停顿方式去朗读。如果你对这次的"表演"不满意，唯一的办法是重新生成一次，等模型给出另一个随机版本。这就像让一个演员自由发挥：你要么接受他的演绎，要么重来一遍，但你没有办法告诉他"这句话说慢一点""这里加一个戏剧性停顿""用更安抚的语气"。

Eleven v3解决了这个问题。这是ElevenLabs在2025年底发布的模型，第一次把controllability（可控性）引入了TTS。你现在可以给模型具体的表演指令：调整语速、调整情绪色彩、在特定位置插入停顿。

在voice agent场景里，这个能力的产品化形态叫Expressive Mode。开启之后，agent能感知对话另一端说话人的情绪状态。如果对方紧张，agent不仅在语义内容上给出安抚性回答（这由LLM负责），同时在语音的音色、语速、音调上也做出对应的调整（这由voice model负责）。两层同时在情绪上匹配，才能让对话感觉自然。

这个能力背后的前提条件，又回到了数据标注。要让模型学会"按指令演绎"，训练数据需要同时标注"说了什么"和"怎么说的"，这正是ElevenLabs那支内部标注团队从一开始就在做的事。

节目到大约20分钟时，John抛出了一个尖锐的追问：

"我开车回家时想让手机给我读一份PDF。iOS的屏幕朗读跟滚动配合不了。Gemini的语音模式直接卡死。所有汽车广告都说有语音控制，但实际体验烂透了。我们用文本LLM、用Claude Code做各种事情已经毫无障碍了，为什么语音还是十年前的样子？"

Mati承认这个判断是对的。"我们确实在语音上落后了十年。他们还在用Siri的transcription。"

他给了一个时间线来解释为什么。能做到有声书级别质量的文本转语音，只是三年前的事。能做到实时版本（不是预先生成，而是边说边出），两年前。能真正部署到生产环境、承受企业级负载，2025年。也就是说，语音AI在技术上变得"够用"是极其晚近的事。

"2026年，车载场景能用上好的语音模型了，但那是云端版本。纯本地、不需要联网的车载语音，还要再等两三年。"

但时间线只解释了一半问题。另一半是：即便底层模型已经足够好了，把它做成一个真正好用的语音助手还需要解决orchestration的问题，也就是各环节的编排。

一个语音助手在一轮对话里需要做五件事，而且需要在极短的时间内把它们串起来：

第一步，speech-to-text（语音转文字），把你说的话变成文本，这是"听"。

第二步，turn-taking（轮次判断），判断你是说完了还是只是在停顿思考。这件事人类靠直觉完成，但机器需要综合判断沉默时长、句子是否语义完整、上下文是否暗示还有后续。这本身就是一个还没完全解决的研究问题。

第三步，LLM推理，理解你的意图，生成回复。

第四步，工具调用，有些请求需要去数据库查信息、调用API执行动作、检查身份验证。这一步时间不可控，可能秒回，也可能需要几秒。在等待的这段时间里，agent需要"优雅地"不让对话断掉。

第五步，text-to-speech（文字转语音），把回复说出来。

单拎出来，每一步今天的技术都能做到不错的水平。但把五步串在一起、在低延迟下协调好、且全程感觉自然，这件事"还没有通过真正的对话式图灵测试"。Mati用了一个有意思的坐标系来分级：在客服电话这种垂直场景里，ElevenLabs的agent已经能通过语音图灵测试了，你分不清电话另一头是人还是AI。但在开放域场景里，比如和另一个"人"在游戏里自由对话，还差得远。

围绕orchestration的讨论自然引出了一个技术路线问题。

今天行业里有两种做voice agent的方式。第一种叫cascaded（级联式），就是上面说的五步流水线：speech-to-text → LLM → text-to-speech，每一步独立运行，中间用文本作为"连接器"。第二种叫speech-to-speech，直接从输入的语音生成输出的语音，中间不经过文本层。

speech-to-speech的优势是延迟低，少了两次文本转换，自然更快。劣势是你失去了对整个流水线的可观测性。在cascaded架构里，你能看到每一步发生了什么：用户说了什么、LLM理解成了什么、生成了什么回复。如果某一步出错，你能定位问题。在speech-to-speech里，你只知道输入和输出，中间是个黑箱。

ElevenLabs目前重押cascaded。原因是企业客户需要可见性、需要能在流水线中间插入业务逻辑（比如验证用户身份、查数据库、执行操作），需要能设保护栏防止agent说出不该说的话，需要能审计每一轮对话。这些在cascaded架构里都可以做到，在speech-to-speech里做不到或者做起来极其困难。

"speech-to-speech模型用的是更小的模型，所以它们也更笨。"

Mati认为speech-to-speech更适合"伴侣型"应用，用户对准确性和可控性要求没那么高，但对延迟和情感连贯性要求高，甚至"幻觉可能反而是一个feature"。未来可能出现混合架构：简单对话走speech-to-speech，复杂任务走cascaded。

John追了一个有意思的角度：强制模型通过文本层推理，是否让模型变得"更聪明"了？就像文字的发明改变了人类大脑的神经通路那样。Mati的回答是：speech-to-speech模型确实"更笨"，但部分原因是它们用的是更小的模型来保证速度。

John在节目里吐槽了另一个自己的痛点：他有一点爱尔兰口音，Siri经常听不准他说的话。但他的口音不会变。理论上，一个专门"听过"他大量语音的模型应该比通用模型表现好得多。就像你走进咖啡店，第一次和店员说话他可能听不太懂你的口音，但第十次他就完全能理解了。

Mati承认ElevenLabs目前的语音转文字也是在跑全球通用模型，但他给出了一个明确的产品承诺：针对特定说话人做fine-tune（微调）的个性化transcription版本，会在接下来几个月内上线。

他举了两个场景来说明这个能力为什么重要。第一个是医疗：手术室里，医生需要对系统下达语音指令，周围有护士、有麻醉师、有各种仪器声。系统必须只听医生一个人的声音，把其他所有人的声音和背景噪音过滤掉。第二个是家用硬件设备：比如你家里有一个智能音箱，你可能希望它只响应你的声音，也可能希望它响应全家人的声音，这应该是用户可以选择的。

ElevenLabs已经能做到非常好的speaker diarization，也就是说话人识别，在多人对话中准确判断"这句话是谁说的"。这本身就是transcription领域里比较难的问题。下一步是在此基础上进一步做到fine-tune，让模型对特定说话人的口音、用词习惯、发音特征有专门的适配。

ElevenLabs在自己的注册流程里做过一个对照实验：除了传统的"填表格留信息"，还加了一个选项，"和voice agent对话留信息"。

结果两件事同时发生。

第一，用户更愿意走完流程。填表有明显的摩擦，字段多、要打字、中途容易放弃。语音对话没有这个问题，说几句话就完成了。第二，也许更重要的是，用户在语音对话中愿意提供多得多的信息。填表时，用户只会简短地写几个关键词描述自己的需求。但一旦变成对话，他们会主动展开，use case有多复杂、涉及哪些系统、预算在什么量级。agent还可以追问澄清，把信息粒度进一步推高。

"写出来很费劲，说出来就自然多了。"

这个机制在跨过技术门槛之后还自带一个附加优势：多语言支持。agent能用任何语言对话，全球各地的潜在客户都可以用自己的母语留资，而填表通常只有英文。

ElevenLabs把这个能力开放出来之后，已经有多家公司在此基础上构建AISDR，用AI驱动的销售线索开发agent。从银行到汽车厂商，都有人在用voice agent做proactive outreach，也就是由agent主动拨打电话联系潜在客户，而不是等客户自己找上门。

ElevenLabs在2025年底的ARR约为330million美元（公开数据；Mati在节目里口述的数字是350million，与官方口径略有出入）。2026年第一个季度，单季新增ARR超过100million美元，Mati称之为"企业增长最强的一个季度"。按这个口径推算，到播客录制时（2026年4月）公司ARR已经在450million美元以上。

企业业务里超过50%已经走sales-led销售模式，也就是由专职销售团队主导签约而非客户自主下单。客户名单里有Deutsche Telekom、T-Mobile、Revolut、Klarna、Meta、IBM。但ElevenLabs的增长引擎并不只靠企业直销。

John在节目里追问了一个很多人想问的问题：你们为什么坚持self-serve？

self-serve的意思是用户不用经过任何销售接洽就能自己注册、自己选配、自己付费、自己开始使用产品。Stripe本身就是这种模式的典型——开发者打开官网，当天就能集成支付功能，不需要和任何人打一通电话。ElevenLabs在这件事上和Stripe一脉相承。

AI行业里有大量公司把产品藏在"Contact Sales"按钮后面。你想试用？先填个表，等SDR（Sales Development Representative，负责开发新客户的销售岗）联系你，再安排demo，再走采购流程。ElevenLabs的做法完全相反：几乎所有产品和模型都可以在网站上直接注册使用。

Mati给了几条理由。

ElevenLabs用户用得顺不顺、模型效果好不好、哪个功能有bug，self-serve能让你在最短时间内看到真实反馈。Contact Sales模式下，产品问题往往要经过多层传递才能到达工程团队。

第二，技术自信。"我们相信我们的技术是全球最好的，所以我们希望所有人都能直接体验。"Mati说Stripe也是一样，最好的技术版本对所有人开放，这本身就是最强的营销。

第三，开发者和中小企业用户是未来的探路者。他们往往比大企业更愿意尝试新模型的边界能力，用出团队自己都没想到的use case。ElevenLabs的每一代新模型发布时，最先玩出花样的都是self-serve用户。

"新模型发布时我们经常以接近成本价提供给客户，让他们能用上最好的版本——虽然新模型对我们来说成本反而更高。"

最贵的成本卖最便宜的价格。逻辑是先让用户看到能力的天花板，把distribution（用户覆盖面）做起来，再在usage增长中把经济模型跑通。

Mati还在节目里announce了一个新动作：ElevenLabs即将给所有用户开放纯pay-as-you-go付费模式。以前用户只能买订阅套餐，现在可以完全按量付费，用多少付多少。

这个变化的背景是一个有意思的故事。Mati说他长期向Stripe团队反馈一个诉求：希望Stripe支持usage-based billing，按用量计费的能力。Stripe那边一直没做。结果Mati的财务负责人Maciek和Stripe团队聊完的第二天，Stripe就官宣了收购Metronome，一家专门做usage-based billing的SaaS公司。"所以现在你们有了。"

这是AI时代产品定价的一个普遍趋势。订阅制打底，但必须给用户按量付费的选项。John自己举了个例子：你在用Claude，打字打得正欢，突然被告知"你已达到本日使用上限"。你想多付钱继续用，但系统不给这个选项。这是一个明显的产品缺陷，每一个AI产品都需要解决。

John问：语音模型的训练成本和大语言模型比起来怎么样？

答案是小得多。语音模型的参数量级在几十亿到一百亿出头之间（few billion to low tens of billion）。作为对比，头部大语言模型的参数量级在千亿级别（hundreds of billions）。模型更小意味着训练成本更低，但ElevenLabs最新的5亿美元融资仍然有相当一部分要花在研究和算力上，因为他们在做的不仅仅是语音模型，还有音乐模型、配音模型、对话模型等整个"音频堆栈"。

语音模型的尺寸会不会像LLM一样越做越大？Mati认为不会无限涨。比如有声书朗读，模型大小已经接近天花板，再加参数对质量的提升很有限。在cascaded架构里，语音部分会一直保持小而快，你不希望它成为整个流水线的延迟瓶颈。但如果未来出现融合架构（把语音和LLM合在一个端到端模型里），那个模型会大到十亿、千亿参数级别。

定价口径上，TTS产品按文本token计价，voice agent和transcription按通话时长（分钟）计价。企业合约按年签，规模越大折扣越深。

ElevenLabs和Deutsche Telekom的合作是一个典型的land-and-expand案例。最初的切入点是marketing，帮品牌做Magenta相关的语音内容和播客生成。做完之后效果好，扩展到了客户支持。再之后，扩展到了电话网络层面，让用户拨入电话就直接跟AI agent对话。三个部门，同一个技术平台，但每次扩展都涉及新的集成、新的合规要求、新的业务逻辑。

爱尔兰有一个叫Guinness Pint Index的项目也引起了Mati的关注。一个开发者用ElevenLabs的voice agent主动给爱尔兰的3000家酒吧打电话，问当前一品脱健力士黑啤卖多少钱，然后汇总成一个全国实时价格指数。这种proactive agent场景，agent主动发起对话、收集信息、汇总结果。以前要么不存在，要么成本高到只有大企业才做得起。现在是一个人、一个周末就能搭起来的事。

OpenClaw生态里ElevenLabs也是默认推荐的voice工具。用户搭建自己的AI agent时，OpenClaw会优先推荐ElevenLabs作为语音层。这给ElevenLabs带来了一批新的个人开发者用户，和self-serve形成了正循环。

在所有商业和技术话题之间，Mati插入了几个让节目气氛明显变化的案例。

ALS（肌萎缩侧索硬化症）患者和喉癌康复者，通过ElevenLabs的声音克隆技术，第一次能用接近自己原本声音的方式和家人说话。Neuralink合作过的一位患者，通过脑机接口配合ElevenLabs的声音重建，恢复了用自己声音表达的能力。还有一位女士，结婚前突然失去了声音。等了数年，ElevenLabs的技术终于能够基于她以前的声音样本重建出足够逼真的版本。她用这个声音重新念出了婚礼誓词。

Mati说这是他们做的所有事情里最重要的一件。

ElevenLabs在2026年3月公开宣布了一项承诺：投入10亿美元的免费声音重建技术，服务100万永久失声的人。对一家估值110亿的公司来说，这相当于把10%的价值直接投入到一件没有商业回报但有确定社会价值的事上。

ElevenLabs现在大约470人。公司2022年成立时只有两个人，Mati和Piotr。那时候的行业热点还是crypto和metaverse，AI浪潮还没有起来。

Mati和Piotr各自的直接汇报人数都超过15个。传统管理学教材建议的span of control（管理幅度）大约是6-8个直接汇报人。ElevenLabs翻了一倍。Mati承认这是创业者跑通之后的事后总结，不一定适用所有公司，"五到十年后才知道对不对"。

每个产品方向、研究方向的团队规模保持在10人以下。go-to-market团队按行业切分成更小的单元，每个单元独立深入自己负责的市场。

另一个机制同样关键。ops和talent这种传统上不写代码的部门，ElevenLabs内部都会配一个技术骨干，相当于这个非技术团队的"tech lead"。这个人的职责是把团队的工作流自动化、把数据变成可以探索的形式、把能用脚本替代的手工操作全部脚本化。

招聘团队就是一个例子。技术骨干帮他们批量抓取合适的候选人画像、分析哪些招聘信号和入职后的表现正相关、自动生成定制化的面试速读材料给面试官。这里的技术资源扮演的是amplifier（放大器）的角色，不是replacement——它不替代招聘同事，而是把每个人的产出成倍放大。销售、客户成功、市场部门也在用同样的逻辑运转。

"高agency的人是AI浪潮的赢家。组织里低agency的人会被淘汰。"

John抛出这个观点，Mati完全认同。

agency在ElevenLabs文化里指的是一种不等指令、自己找问题、自己探索解决方案的主动性。不管你是第一年的初级工程师还是十年经验的VP，如果你有agency，AI工具会成倍放大你的产出。如果你没有，再多的工具也帮不了你，因为你不会主动去用它们。

ElevenLabs筛人时最看重四点：第一性原理思维（first principles），owner心态（ownership），追求卓越（striving for excellence），保持谦逊（staying humble）。Mati说ownership里最关键的一项就是agency。

他还说了一句话，也许是全场最私人的表达：他和Piotr最骄傲的事，是看见公司被文化建起来，而不是被某一个人或某一个产品建起来。当文化本身成为增长引擎，创始人就不再是瓶颈了。

Q1: ElevenLabs的语音模型相比同行听起来更像人，技术上的关键差异是什么？

把"如何说"，即情绪、口音、韵律、停顿，做成模型的涌现属性（emergent property），而不是人工硬编码的参数。模型在大量高质量标注数据中自己学会了这些维度的表示方式。前提是ElevenLabs自己组建了一支懂音频的专业标注团队，提供了市面上不存在的"how"维度标注。最新的Eleven v3还把controllability加了进来：你可以告诉模型怎么说，而不仅仅是说什么。

Q2: 为什么文本LLM已经过了图灵测试，语音AI还没过？

不是单个模型不够好，是orchestration（编排）还不够好。一个完整的语音agent需要在毫秒级延迟内串联五个环节（听、判断你是否说完、思考、调用工具、说），而且每个环节的时间不可控。在客服电话这种垂直场景里，这套编排已经能通过语音图灵测试了。但在开放域对话里，距离"分不清对面是人还是AI"还有明显距离。

Q3: ElevenLabs从330M到450M+ ARR，核心增长机制是什么？

self-serve打底的land-and-expand。所有模型和产品对外开放使用，新模型甚至以接近成本价提供，让distribution先跑起来。企业客户从一个部门切入（通常是marketing或support），验证效果后向其他部门扩散。470人的公司里企业业务超过50%走sales-led模式，但底层的用户感知和口碑传播靠self-serve驱动。