以前克隆一段自己的声音,得找个安静的地方,对着屏幕上的台词,一遍遍重复。 一不小心吞音或气短,就要重新录。最后出来的声音咬字生硬,听起来总带着一股电子感。 推荐大家看看VoxCPM项目。它只要一段任意的5秒钟音频,就能实现超高还原度的声音克隆。包括电话录音和微信语音。 创作者可以用它给视频配旁白,或用特定人声读小说。 它的厉害之处在于Tokenizer-Free技术:不再把声音切碎成一个个生硬的方块,而是把音频放在连续的空间里去建模。这赋予了它情境感知能力,模型会根据文字内容自动匹配情绪。 对于普通用户,想用上VoxCPM1.5就三步: 1.截取素材:从现有的视频或语音记录里,截取一段5秒钟的清晰样本。不需要读特定稿件,生活化的聊天记录反而能让AI学会更自然的语调。 2.环境安装:在电脑终端输入一行命令即可安装。如果不需要深入开发,它也提供了Web UI网页界面,把音频往框里一拖,文字一打,就能开始运行。 3.实时生成:点击运行后,由于它支持Streaming流式合成,声音会像水流一样边处理边传出来。1.5版本的采样率提升到了44.1kHz,这意味着即使是耳机里细微的唇齿音,它也能精准地复现。 这个项目完全开源免费,大家可以在自己的电脑上本地运行。#ai