声音克隆与AI换脸时代将到来!

作者:admin 发布日期: 2023-08-14 二维码分享

声音克隆AI换脸时代将到来! 

 

西安宇航者科技

 

在过去的几十年里,许多典型 TVB 影视片都离不开配音,如果你认为周星驰也可以讲一口流利的普通话,那就太幼稚了。

另外,如动漫等影视中特别逼真的声音合成,也大多通过配音演员的声音录制来实现的,然后将他们的声音剪切成不同的片段,像做拼图一样,将这些声音“拼接”在一起,形成一整段声音。

近年来,随着黑科技产品不断迭代升级,更多比较适用于军事的应用逐渐被发掘并实现。在语音克隆合成领域,由于人工智能克隆技术的出现,昔日传统的“三战”工作有望被取代。

现在,神经网络可以对目标声音的未排序数据进行训练,以简单快速、容易的方式,生成一段完整的音频。当人们将克隆的音频从设备中导出时,音色和音质几乎不会受到压缩和影响。尽管有部分环节还需要手动调整,但不久的将来将会更加..。


这标志着,xin理战的“克隆时代”已经到来。

这种声音克隆技术使用起来并不复杂,只需要输入事先准备好的台词,和通过虚拟仿真、深度学习技术模拟特定人员的话音特点,区分中英文,形成虚拟语音模型,利用虚拟语音模拟可合成其任意音频

生成的音频采样率不低于44100Hz、16位、192Kbps,音频平均意见得分(MOS)≥4.3分,合成音频词错误率(WER)≤5%,说话人相似性评估指标采用说话人识别性能(SPK)≥95%。可以在不显著降低合成质量前提下针对特定情感和语速进行控制,可以实时导出。


我军战士将这段语音通过外部扩音器播放时时,敌对势力在短时间内根本无法分辨真假,这个克隆技术令许多人感到兴奋。

同时可以实现“唇齿驱动”,能够将合成的音频资料与公开的特定人物的视频资料进行合成,生成高度仿真的音视频。目标人物嘴型、表情等完全符合当前“虚假”音频,无修改、嫁接痕迹。应具备易操作性,只需在视频合成系统中导入目标人物“虚假”音频资料、目标人物公开视频资料,即可生成一段分辨率不低于1920*1080,仿真度在95%以上的“欺骗”视频,并可实时导出。