声音克隆与图像生成,AI 驱动的 CD 专辑定制
在 2023 年七夕前夕,我独立把“声音克隆以及图像生成”这套流程做成可交付的 CD 专辑成品。我运用人工智能技术去定制翻唱曲目以及专辑视觉,把它当作送给朋友的特别礼物。
本项目包含 33 首 AI 翻唱作品以及全部 CD 专辑设计素材。网页仅展示部分试听与图片,完整成果可通过百度网盘下载进一步查看。

媒体
图片(可放大)
MISSION BRIEFING
把 AI 创作做成一张“能送出去”的 CD
语音素材
≈ 3 小时
演讲比赛录音 + 日常录音整理
训练时长
≈ 20 小时
RTX 3090 云服务器长时训练
训练轮次
84,000
TensorBoard 监测损失曲线
最终曲目
32 首
多语言、多风格批量生成后精选
照片素材
75 张
聚焦面部细节,提升一致性
实体专辑
4 张
LOVE 系列完整落地成品
项目概述
在2023年七夕前夕,我独立设计并完成了一个运用人工智能技术制作的个性化 CD 专辑的项目,作为送给朋友的特别礼物。
项目大致可以分成声音合成与视觉设计两个核心部分。在声音合成上,我利用开源的 so-vits-svc 项目,独立完成了从音频素材收集、预处理、模型训练到最终推理的完整流程。最终成功实现以假乱真的“翻唱”效果,就连朋友的其他朋友们都听不出来是由 AI 代唱的。朋友也十分满意。
视觉设计方面,我使用 Stable Diffusion 基于朋友的照片训练了一个 LoRA 模型,并通过更精细的裁剪方式和提示词设计,生成了高质量且形象准确的个性化图像。然后我把这些图像当作核心素材,编排并设计了整张 CD 专辑,也就是封面、封底、内封以及内底这些部分,整体希望能接近商业设计水准。
技术栈与工具
音频处理技术
SVC
so-vits-svc
强大的开源语音合成工具,通过深度学习实现声音转换和克隆。用于训练个人声音模型,转换歌声风格。
UVR
Ultimate Vocal Remover
AI驱动的伴奏分离工具,能够从混音中分离人声和乐器。用于准备训练素材和制作纯伴奏。
RX
iZotope RX 10
专业音频修复软件,用于消除录音噪音、口水音和环境声,提高语音样本质量。
Au
Adobe Audition
专业音频编辑工具,用于音频样本的整理、剪辑、调音和后期处理。
图像生成技术
SD
Stable Diffusion
开源AI图像生成模型,可通过文本提示创建高质量图像,用于设计专辑封面和内页艺术素材。
LoRA
LoRA微调技术
低秩适应技术,能够以少量样本高效微调大型模型。用于训练个人肖像模型,生成符合特定风格的图像。
CN
ControlNet
Stable Diffusion的条件控制扩展,通过额外输入控制图像生成过程。用于精确控制图像的光影、姿势和构图。
PS
Photoshop
专业图像编辑软件,用于AI生成图像的润色、合成和布局设计,完成最终专辑封面的设计。
模型训练与监控
TB
TensorBoard
机器学习实验可视化工具包,用于监控模型训练过程,分析损失函数变化,调整超参数以优化声音合成模型的质量。
项目开发过程
点击每个阶段查看详细开发过程
AI翻唱展示
点击下方播放按钮在线播放
以下歌曲均由我训练的 AI 语音模型演唱,用来展示模型在多语言歌曲上的适配能力。我选用 so-vits-svc 来开展声音合成工作,它属于 SoVITS 系列的 SVC 方案。训练数据主要来自普通话与英语的音频素材,但在推理阶段也能覆盖中文、粤语以及日语等多种语言歌曲。
训练素材约 3 小时
音色还原度较高
多语言歌曲可推理
日不落
兰亭序
いつも何度でも
专辑详情展示
点击专辑封面、封底等图片可查看高清大图
设计细节(点击放大)
滚轮缩放 · 拖拽平移 · ←/→ 切图
曲目列表
33 tracks
全部曲目 · 共 33 首
点击列表里的播放按钮即可试听,支持歌词同步显示。
选择一首歌开始试听
实体CD成品
为了将AI创作的成果转化为有纪念价值的实体礼物。设计完后,我又找了专业的CD专辑制作商,将数字化设计成果转化为实体专辑送给了朋友,朋友感到很惊喜。也是这次经历让我感受到了AI技术在创意领域的无穷潜力。
专辑单品展示
点击可查看高清专辑图片
LOVE系列整体效果
点击图片可查看实物高清照片