AI语音识别神器Universal-1:38秒搞定60分钟音频,比fast Whisper更快!

科技动态 2024-04-07 15:00 阅读:

你有没有想过,如果有一款AI语音识别工具,可以在38秒内处理60分钟的音频,那会是多么方便快捷!而现在,AssemblyAI的Universal-1模型就能实现这一壮举,比fast Whisper还要更快更准确。

Universal-1这款神奇的AI语音识别工具是如何做到这一点的呢?据悉,该模型经过1250万小时的多语言音频数据训练,采用了Conformer RNN-T架构,在英语、西班牙语和德语的语音转文字准确性上均取得了10%以上的提升。不仅如此,Universal-1还展现出了多语言转录能力,能够在单个音频文件中转录多种语言,实在是太强大了!

除了语音转文字准确性外,Universal-1还具有精确的时间戳估计能力,对于音视频编辑和说话者辨识等应用具有重要意义。通过优化的解码器,该模型实现了13%的时间戳准确度提升,比Whisper Large-V3提高了26%。此外,Universal-1还实现了高效的并行推理,比Whisper Large-V3在相同硬件上实现了5倍的加速,简直让人惊叹!

为了构建Universal-1,AssemblyAI利用了Conformer编码器和RNN-T模型,通过大规模的自监督学习框架和大量的标记数据进行训练。他们还利用Google Cloud TPUs和JAX进行训练,构建了可靠的基础设施和系统设计。除了多语音数据外,他们还结合了各种数据增强方法,提高了模型的准确性和鲁棒性。

AssemblyAI的Universal-1模型在语音AI领域的表现令人瞩目,为客户提供了准确、忠实和鲁棒的语音转文字能力。虽然Universal-1非开源,但通过API调用,用户可以轻松享受到这款神奇工具带来的便利。想要体验Universal-1的强大功能吗?赶快点击链接https://top.aibase.com/tool/universal-1,感受一下吧!