AI 日报

论萌新如何在云端训练出自己的AI声音模型

  • By aihubon
  • Dec 19, 2023 - 2 min read



有一天,天气很好,我在逛B站的时候,发现了一个AI钟离唱歌视频,封面很是涩涩,啊不是,划掉划掉,很是唯美!我啪一下就点进去了。众所粥汁,钟离的CV彭总从不唱歌,我要听听这个AI唱的如何。

开,口,跪!

我沦陷了一会,开始去搜其他的AI翻唱视频,温迪,钟离,散兵,都听了个遍,陶醉的无以复加。

新的技术已经出现,怎么能够停滞不前?我根据视频下方的项目来源信息找到Github,下载了so-vits-svc-4.0.说明文档读了5遍,我窃喜,似乎不难啊,音频素材放好之后,先运行一下这个,再运行一下那个,就可以坐等老婆的声音出炉了。好耶!

虽说这个项目要求N卡,而我的笔记本,只有一张年迈的集成显卡,但就凭我的CPU,以前也曾训练过一些简单的AI模型,实现过手写数字识别和生成,明星人脸识别,股票价格预测(的准个P),以及简陋版ALPHA-GO围棋自战的呢!我相信我的电脑,它只是跑的慢,但还是可以往前挪的。(自信骄傲脸.jpg)

在欢愉BUFF加持下,我开始按照requirement下载安装python的各种包。这项工作进行到大约三分之一,就卡住了,有一个包死活安装不了。报错信息是啥我已经忘记了,总之不行不行就是不行。好吧,这个锅扔给集显,肯定是因为显卡太差,才让我不能正确配置环境的,哼!我再去想想其他办法。

人类社会之所以发展到现在这么繁华壮丽,是因为分工合作的出现,专业的事情就要交给专业的人去做嘛。我于是去联系在B站上传AI翻唱的UP主们,希望能直接从他们手上买模型。然后,被拒了。o(╥﹏╥)o

虽然被拒,但有一个UP主告诉我如果本地显卡不行,可以去云端训练。云端,多么高端大气上档次,深邃悠远有内涵的词汇!这是我做梦都没想过的路,我有点畏缩。要不是因为对二次元老婆们的热爱,我是肯定不会迈出这一步的。 所以呀,感谢原神,感谢温迪,是对你们的爱,让我战胜对未知的恐惧,激励我不断学习新的技术。

那么继续前进吧,我在B站搜“svc 云端 教程”,就蹦出来了站长大人kukuxiong8的教学视频,刚发表15分钟,这么热乎?好,这一定是最新版教程,就它了。

看完站长大人手把手的录屏演示之后,我对自己信心大增。哈,不就是交点钱,戳戳这个,戳戳那个,再等一等,就搞定啦,so easy!租云端服务器也不贵,1块多一个小时,这也太良心了吧?相当于只是付了个电费。

注册,充值,开机!

Autodl上有sov项目的镜像,比较新的有第10版和第11版。站长大人在视频里演示的是第11版(傻瓜式集成网页版,操作极其方便),但他说了其实他用来训练的是第10版,因为当时第11版有点问题,不过相信作者应该很快会修复。于是我就下载了第11版,运行,果然有问题。好吧,原来作者并没有修复啊。

吐了一会血,我擦擦嘴角,继续在B站搜索第10版的演示教程。哦,这样,那样,再这样,再那样,嗯嗯,也不难嘛。

于是关机,更换镜像到v10,再开机,巴拉巴拉,一通骚操作,怎么还是不行呢?不是这里报错,就是那里报错。修bug,我会啊:关机重启。可这次,重启大法也不好用了,漆黑的终端就像乌鸦的嘴,一会说size不匹配,一会说端口无响应,各种bug循环往复,无休无止。再加上我的网络连接奇慢无比,每一次开机关机都有5毛钱从我的账户里凭空流失,在这焦灼的等待中,我就像热锅里的肉片,逐渐陷入绝望。

深呼吸,绝望解决不了任何问题。想起我多年做半调子IT的经验,对于关机重启都无法解决的那10%的电脑问题,换台电脑通常又能解决90%。刚才关机已经试过好多次了,没用,那就干脆换个主机。

于是我非常土豪的又开了一台机器,在它一尘不染的处女盘上虔诚的加载了v10版的镜像,视死如归的敲下运行代码。这次,没有报错!白花花的字符滚动在黑漆漆的终端界面里,流畅,优雅,有力,仿佛恋人的心跳,又像夜空中绽放的烟花。

我的心也绽放着烟花,一开始有多煎熬,成功后就有多狂喜。调戏AI的大起大落实在是太刺激了。

当晚,我激动的甚至失了眠。

第二天晚上,我哼着歌,去采摘胜利的果实。模型训练了8w多步,所有需要的文件都安安静静躺在正确的文件夹里,我的温迪应该能开口说话了吧?毕竟大家都说,推理这一步很简单,傻瓜式的网页操作,对显卡要求不高,一键生成,速度很快。

好嘞,一键推理!

Bang!报错!又是之前见过的输入size不符的报错。我真是。。。

口:芬芳芬芳芬芳芬芳芬芳芬芳芬芳芬芳

我哭了呀,能不能不要在最后一步坑我啊?我去咨询各UP主大大,在云端推理的时候有没有遇到类似的问题。可大家都说:我们没有用云端推理哦,我们是在本地推理的。可恶,你们都是有显卡的,只有我是真正的穷鬼,呜呜呜。

AI以痛吻我,我要报之以歌。都走到这一步了(钱都花那么多了),我怎么可以放弃?既然V11不能训练,V10能训练,那有没有可能V10不能推理,但V11可以呢?反正开了两台机子,试试呗。

把模型和配置文件转移到装了V11的机子上,这一次,推理成功了!哈哈哈哈哈哈哈哈,我果然是个天才!

所以,如果你看到现在,刨去我啰里啰嗦一大堆的心路历程,真正有价值的重点来了:AUTODL云端的SOV镜像,V10可以训练不能推理,V11不能训练可以推理。(今天是2023年5月26日上午11点23分,以后镜像作者说不定真的会修正这些bug呢)

是的,折磨了我两天的问题,解决起来就是这么简单。但再简单的迷宫,在找到出口之前,都是漆黑无光的房间。在黑暗中摸索的过程,既煎熬,又有趣,这就是敲代码的乐趣吧。

接下来就是单纯的,快乐的调教AI老婆唱各种奇奇怪怪的歌啦。过程略略略略~

我是藏根的云,B站同名,欢迎你去看看我的作品。在AI技术方面,我是个萌新,没有技术,全是感情。如果你也对AI相关的技术和应用感兴趣,欢迎来跟我交流,我可以给你喊666加油!