声音克隆与AI换脸时代将到来！

西安宇航者科技

在过去的几十年里，许多典型的 TVB 影视片都离不开配音，如果你认为周星驰也可以讲一口流利的普通话，那就太幼稚了。

另外，如动漫等影视中特别逼真的声音合成，也大多通过配音演员的声音录制来实现的，然后将他们的声音剪切成不同的片段，像做拼图一样，将这些声音“拼接”在一起，形成一整段声音。

近年来，随着黑科技产品不断迭代升级，更多比较适用于军事的应用逐渐被发掘并实现。在语音克隆合成领域，由于人工智能克隆技术的出现，昔日传统的“三战”工作有望被取代。

现在，神经网络可以对目标声音的未排序数据进行训练，以简单快速、容易的方式，生成一段完整的音频。当人们将克隆的音频从设备中导出时，音色和音质几乎不会受到压缩和影响。尽管有部分环节还需要手动调整，但不久的将来将会更加..。

这标志着，xin理战的“克隆时代”已经到来。

这种声音克隆技术使用起来并不复杂，只需要输入事先准备好的台词，和通过虚拟仿真、深度学习技术模拟特定人员的话音特点，区分中英文，形成虚拟语音模型，利用虚拟语音模拟可合成其任意音频。

生成的音频采样率不低于44100Hz、16位、192Kbps，音频平均意见得分（MOS）≥4.3分，合成音频词错误率（WER）≤5%，说话人相似性评估指标采用说话人识别性能（SPK）≥95%。可以在不显著降低合成质量前提下针对特定情感和语速进行控制，可以实时导出。

当我军战士将这段语音通过外部扩音器播放时时，敌对势力在短时间内根本无法分辨真假，这个克隆技术令许多人感到兴奋。

同时可以实现“唇齿驱动”，能够将合成的音频资料与公开的特定人物的视频资料进行合成，生成高度仿真的音视频。目标人物嘴型、表情等完全符合当前“虚假”音频，无修改、嫁接痕迹。应具备易操作性，只需在视频合成系统中导入目标人物“虚假”音频资料、目标人物公开视频资料，即可生成一段分辨率不低于1920*1080，仿真度在95%以上的“欺骗”视频，并可实时导出。

新闻中心