Podcastle发布Asyncflow v1.0 AI模型,加入文本转语音竞赛

近日,播客录制和编辑平台Podcastle宣布推出自己的AI模型——Asyncflow v1.0,正式加入AI驱动的文本转语音竞赛。同时,该公司还将提供面向开发人员的API,允许他们将这一文本转语音模型直接集成到各自的应用程序中。

借助Asyncflow v1.0模型,Podcastle能够提供超过450种AI语音,用于讲述用户输入的文本。这家初创公司表示,其独特的开发技术和模型构建方式,使得训练和推理成本相对较低,从而在竞争中占据优势。

Podcastle此举意味着它加入了包括ElevenLabs、Speechify和WellSaid在内的众多初创公司行列,这些公司都已经开发了能够将任何类型文本转换为AI讲述语音剪辑的技术和模型。这项技术的应用场景广泛,涵盖营销、广告、内容创建、教育以及企业培训等多个领域。

Podcastle的创始人阿尔托·耶里茨扬(Arto Yeritsyan)在接受TechCrunch采访时表示,公司一直希望能够构建一个强大的文本转语音模型,但高昂的开发成本和巨大的数据要求一直是难以逾越的障碍。

“从一开始,我们就梦想着构建一个强大的文本转语音模型。然而,开发成本极高。幸运的是,由于最近大型语言模型的兴起,我们去年取得了突破,能够在没有大量数据的情况下构建出高质量的语音模型。”Yeritsyan说道。

此外,Podcastle去年获得的1350万美元A轮融资也为公司的研发工作提供了有力支持。

在价格方面,虽然Podcastle每40分钟的文本转语音转换收费约为500美元,但相比之下,ElevenLabs的收费仅为99美元。不过,Podcastle在语音克隆功能方面进行了升级,现在用户只需几秒钟的录音即可创建自己的声音克隆,大大简化了训练过程。这一新流程还利用了Podcastle去年发布的Magic Dust AI技术,以提高录音质量。

在我们的测试中,使用新流程创建的声音虽然模仿了用户的语气,但听起来仍有些机器人化。Podcastle表示,他们将随着时间的推移不断改进这一功能。此外,用户还可以通过训练不同的声音样本来获得不同的结果。

除了成本优势外,Podcastle还表示,在一个重新设计的网站下,拥有音频、视频、播客和AI驱动的旁白工具将使其比竞争对手更具竞争力。Yeritsyan指出,虽然目前大多数用户使用Podcastle来处理音频内容,但视频内容的需求也在迅速增长。

发表回复