四轨音频分离技术白皮书:从 MSS 架构演进看 Huge-SCNet 的终极取舍
TelkNet 当前四轨工具使用 Huge-SCNet-4stems V1.2,把完整混音分离为 Vocals、Drums、Bass 和 Other。文章从 MSS 架构演进、Mel-Band RoFormer 的强项与局限、SCNet 的子带建模和公开四轨分数解释这次模型取舍。
TelkNet 当前四轨工具使用 Huge-SCNet-4stems V1.2,把完整混音分离为 Vocals、Drums、Bass 和 Other。文章从 MSS 架构演进、Mel-Band RoFormer 的强项与局限、SCNet 的子带建模和公开四轨分数解释这次模型取舍。
TelkNet 当前四轨工具使用 Huge-SCNet-4stems V1.2,把完整混音分离为 Vocals、Drums、Bass 和 Other。文章从 MSS 架构演进、Mel-Band RoFormer 的强项与局限、SCNet 的子带建模和公开四轨分数解释这次模型取舍。
核心实体
引用来源
技术白皮书 / Audio MSS
AI 音乐源分离(Music Source Separation, MSS)早已过了“能不能把人声抠出来”的初级阶段。对重混、扒带、采样、Music-to-MIDI、空间音频重编和素材清理来说,真正影响工作流的不是试听时“像不像伴奏”,而是分出来的 stem 能不能继续编辑、能不能承受二次处理、能不能被拖进 DAW 里继续做编曲判断。
标准四轨分离的目标,是把完整混音拆成人声、鼓、贝斯和其它器乐四个顶级声部,而不是简单输出“人声 + 伴奏”。这意味着模型必须同时处理主唱语义、鼓组瞬态、低频骨架和高频器乐边界。一个模型在人声上很强,不代表它在四轨里一定最适合;一个平台 ensemble 很强,也不代表它是一个可下载、可复现、可单体比较的模型文件。
本项目当前四轨分离方案采用 Huge-SCNet-4stems V1.2,是围绕标准四轨高编辑性做出的取舍。本文把 MVSep Ensemble、SCNet XL IHF、BS-RoFormer、Mel-Band RoFormer 和 HTDemucs 放在同一个技术语境里拆开说明:哪些是架构,哪些是公开权重,哪些是平台级工作流,哪些才是真正交付给用户的四轨输出。
在传统二轨分离里,用户最熟悉的说法是“人声”和“伴奏”。这套说法适合卡拉 OK、翻唱、简单混音和清唱提取,因为它只关心一个核心问题:主唱能不能从混音里被拿出来。但标准四轨分离的逻辑完全不同,它不是把伴奏换个名字,而是把伴奏继续拆成 Drums、Bass 和 Other 三个结构不同的声部。
Vocals 承载主唱语义、咬字、气声、和声与混响尾巴;Drums 负责底鼓、军鼓、通鼓、镲片以及打击乐瞬态;Bass 提供低频骨架、基音和部分泛音;Other 则接住吉他、钢琴、弦乐、合成器、管乐、采样音效和所有没有被前三类覆盖的器乐。也就是说,Other 不是“低配伴奏”,而是四轨任务里最混乱、也最容易出错的集合。
这个口径来自音乐源分离长期使用的基准传统。MUSDB18 / MUSDB18-HQ 数据集围绕 vocals、drums、bass 和 other 组织 stem,社区讨论 4-stem 模型时,通常默认就是这个输出目标。平时听到的“伴奏”,在数学上更接近 drums、bass 和 other 三条轨道重新相加后的结果,而不是一个天然存在的单独声源。
这一区分会直接影响模型选择。如果只是做无人声伴奏,人声分离模型足够直接;如果要单独练鼓、分析贝斯线、把吉他或钢琴作为采样素材继续加工,二轨模型就会把太多东西混在一起。四轨分离的价值在于给后期制作留下可操作空间,而不是只交付一个“听起来像伴奏”的文件。
因此,工业级四轨工具不应把输出写成“主唱 / 伴奏 / 节奏 / 其它”这种含糊口径,而应明确对齐标准 MSS 的四个 stem。这样做的好处是用户预期清楚:人声、鼓、贝斯和其它器乐各自独立,后续重混、扒带、降噪、采样或转写时都更容易判断问题出在哪里。
音频源分离的本质,是在时间和频率交织的声学空间里,把一个混合波形重新拆回多个声源。早期模型已经能给出可听结果,但常见问题也很稳定:人声串入其它轨道、鼓点残留在伴奏里、贝斯和底鼓互相糊住、高频泛音被抹平,或者密集编曲高潮段出现电子感 artifacts。
U-Net 和 VR 类路线把 STFT 后的频谱当成图像处理,解决了“能不能分”的问题,但它们更擅长局部纹理,不擅长理解长距离音乐结构。HTDemucs 和 MDX-Net 把时域与频域结合起来,重建质量明显提升,也让很多产品第一次进入可用阶段。到了 BS-RoFormer 和 Mel-Band RoFormer,Transformer、频带拆分和 RoPE 开始让模型更擅长追踪跨时间的频率轨迹,尤其在人声、和声、滑音和长延音上表现突出。
SCNet 的关注点又向前走了一步。它不只问“怎么让人声更干净”,而是问“混合频谱里哪些区域真正携带信息,哪些区域可以压缩,哪些声部边界必须被保护”。这对四轨任务尤其关键,因为四轨不是单一目标优化,而是四个 stem 之间的互相让位。
| 阶段 | 代表路线 | 核心进展 | 仍然存在的问题 |
|---|---|---|---|
| 2020-2021 | VR Architecture / U-Net | 把频谱图当成图像处理,让基础人声/伴奏分离变得实用。 | 局部卷积窗口难以覆盖长程音乐结构和相位关系。 |
| 2022-2023 | HTDemucs / MDX-Net | 结合波形域和频谱域建模,重建质量与稳定性提高。 | 密集高潮、重混响和复杂瞬态仍可能产生 artifacts。 |
| 2023-2024 | BS-RoFormer / Mel-Band RoFormer | 使用频带拆分、RoPE 和更强的时频建模处理人声、和声、滑音与延音。 | 人声优势不等于所有四轨乐器都能被同样稳地拆开。 |
| 2025-2026 | SCNet / Huge-SCNet | 通过子带建模和稀疏压缩,把算力集中到信息更密集的时频区域。 | 目标是标准四轨,不应被混写成六轨或平台 ensemble。 |
这条演进线解释了一个容易被忽略的判断:模型选型不能只看“谁在人声上听起来最干净”。四轨分离还要保护鼓的瞬态、贝斯的基频与泛音、人声边界,以及 Other 里的高频乐器细节。任何一项被牺牲,都会在后期编辑里变成真实成本。
Mel-Band RoFormer 由字节跳动 Speech, Audio, and Music Intelligence(SAMI)团队提出。论文作者为 Ju-Chiang Wang、Wei-Tsung Lu 和 Minz Won,论文首页机构列为 SAMI, ByteDance。社区资料有时会用 ByteDance AI Labs 来概括这条研究线,但在正式引用时,最稳妥的写法仍是 SAMI, ByteDance 与论文作者名单。
它的核心吸引力在于把频带组织方式改得更接近人耳。人类对频率的感知不是线性的,100Hz 到 200Hz 的变化很明显,但 10000Hz 到 10100Hz 的变化就不一定容易察觉。Mel-scale 正是声学里常用的非线性频率尺度。Mel-Band RoFormer 把频谱 bins 映射到按梅尔刻度组织的重叠子带里,让中低频区域获得更细的表达。
这对人声尤其有利。主唱基频、共振峰、辅音、气声、颤音、滑音和许多混响尾巴都与中低频及相邻频段的连续变化有关。Mel-band 投影让模型更容易追踪这些变化,而不是把它们看成一堆孤立的频谱块。对清唱、人声/伴奏、主唱/和声这类任务,它的优势非常直接。
RoFormer 部分则来自 RoPE,也就是旋转位置编码。音频不是静态图片,滑音会移动,和声会延展,节奏会跨小节重复。RoPE 让 Transformer 更擅长表达相对位置关系,配合时间和频率维度上的轴向注意力,模型不只看“这一帧有什么”,也能更好地理解“这个声音在前后如何移动”。
从公式上看,RoPE 的核心在于把绝对位置关系转化为相对位置关系。其复数空间内积可写作:
借助 RΘ,n−md 旋转位置矩阵,模型不再僵硬地看死绝对时间点,而是去捕捉声音信号随时间移动的相对频率轨迹。这使它在处理长距离和声编织、长延音以及滑音时,配合轴向注意力获得更好的连续性。
它的名字基本就是技术路线本身:Mel 指梅尔频带,Ro 指 RoPE 旋转位置编码,Former 指 Transformer / 轴向注意力。需要特别澄清的是,SDX23 第一名的核心系统是它的前身 BS-RoFormer;Mel-Band RoFormer 是后续把 band-split 改成 mel-band 映射后的改进路线。两者关系很近,但不能把比赛结果、论文改进和社区权重混成一句话。
还有一个有趣的社区背景:原始比赛权重并没有作为官方可下载模型直接公开。后来能在社区工具里看到 Mel-Band / BS-RoFormer 系列,靠的是论文公开、lucidrains 的开源实现、ZFTurbo 的训练框架,以及 Kimberley Jensen、MVSep 等社区贡献者重新训练和微调出的权重。也正因为如此,讨论这条路线时必须分清三件事:论文架构、比赛系统、社区权重。
这段历史不是闲聊,它直接影响产品文案的准确性。把 Mel-Band RoFormer 写成“一个随处可下载的官方比赛模型”,是不准确的;把 BS-RoFormer 的 SDX23 结果直接写成 Mel-Band RoFormer 的四轨分数,也是不准确的。正确说法应该是:SAMI, ByteDance 提出了 BS-RoFormer / Mel-Band RoFormer 这条重要架构路线,社区后来围绕它训练出了可用权重和工具生态。
简短答案是看任务。如果目标是极致的人声/伴奏分离,Mel-Band RoFormer 仍然是非常强的人声导向路线。如果目标是干净、边界清晰、可用于后期二次编辑的标准四轨输出,当前 Huge-SCNet-4stems V1.2 方案更贴合产品目标。这个判断不是否定 Mel-Band,而是把它放回正确任务里。
最大的误区是跨榜单混用数字。Mel-Band RoFormer 论文报告的是 Mel-RoFormer 在 MUSDB18HQ 上相对 BS-RoFormer 的改进;MVSep 的 Mel Band Roformer 页面主要是人声/伴奏算法页,并说明原比赛模型没有直接发布。因此,不能把某个人声分离口径下的漂亮数字直接写成公开四轨单体模型成绩。
从架构直觉看,Mel-band 切分把更多表示能力给到低频和中频,这有利于人声,也有利于很多基音线索。但四轨任务里,6 kHz 到 20 kHz 区域同样重要。镲片空气感、吉他扫弦泛音、钢琴击弦和尾音、铜管亮度、合成器光泽,经常都堆在高频区域。高频处理一旦粗糙,听感上不一定表现为“人声不干净”,而是 Other 轨发糊、镲片被抹开、吉他和钢琴边界黏连。
这就是四轨任务的难点:它不是一场人声单项赛。主唱要干净,鼓要有瞬态,贝斯要稳,Other 还要保留足够多的器乐纹理。一个模型如果把优化重心放在人声区间,它在人声任务里可能很强,但在需要同时保护四类声部的场景里,就未必是综合最优。
| 公开四轨对比 | Vocals | Drums | Bass | Other | 阅读方式 |
|---|---|---|---|---|---|
| Huge-SCNet-4stems V1.2 | 9.6073 dB | 11.7422 dB | 12.0639 dB | 6.6485 dB | 当前四轨方案;鼓、贝斯和 Other 的均衡更适合可编辑 stem。 |
| BS Roformer 4-stem | 9.19 dB | 11.29 dB | 11.08 dB | 5.96 dB | 公开四轨 RoFormer 系列参考行;不应被改写成 Mel-Band RoFormer 分数。 |
SCNet(Sparse Compression Network,稀疏压缩网络)从另一个角度处理音乐源分离:它更关注频谱内部的信息分布,而不是把所有表达能力都押在某一个听感优势区。论文作者包括 Weinan Tong、Jiaxu Zhu、Jun Chen、Shiyin Kang、Tao Jiang、Yang Li、Zhiyong Wu 和 Helen Meng;首页列出的机构包括清华大学深圳国际研究生院、Skywork AI、鹏城实验室和香港中文大学。
它的核心思路之一是子带建模。不同乐器在频谱里的位置、能量和稀疏性并不相同:贝斯主要占低频,但泛音会向上延伸;鼓有极短瞬态,也有镲片高频空气感;人声有清晰语义,也有混响尾巴;Other 更复杂,可能同时包含吉他、钢琴、弦乐、合成器和效果声。把这些都压进同一种粗粒度表示里,必然会造成互相串扰。
SCNet 通过稀疏压缩把没有有效信号、信息密度较低的时频区域压缩掉,把建模能力集中到真正拥挤、真正容易混淆的声部边界上。它不是简单地“平均照顾每个频段”,而是尝试在保留有效信息和降低计算冗余之间做取舍。这对四轨任务很重要,因为四轨需要的是多个 stem 同时可用,而不是某一个 stem 极致漂亮。
SCNet 论文把完整系统描述为 audio encoder、基于 dual-path RNN 的 separation network 和 audio decoder。编码器把混合音频映射到频域子带表示,分离网络沿时间和频率建模,解码器再重建目标 stem。放到产品语言里,它的价值就是:鼓的瞬态不要被糊掉,贝斯不要和底鼓粘住,人声不要带太多伴奏残留,Other 也不要变成一团高频雾。
Huge-SCNet-4stems V1.2 属于这条路线。本项目把它用于四轨工具,不是因为它在每一个 stem 上都压过所有模型,而是因为它的均衡性符合产品目标:用户需要四个可以继续编辑的人声、鼓、贝斯和 Other 文件。四轨不是论文单项竞赛,它是后期工作流的入口。
MVSep Ensemble 2025.06.30 代表平台级多模型流程。公开算法页列出的不是单一模型家族,而是多个模型按 stem 和任务特点组合起来的工作流。人声路径可能使用 UVR-MDX-NET、Demucs、MDX23C、VitLarge23、BS Roformer、Mel Roformer、SCNet XL 等路线;贝斯、鼓和 Other 又可能调用不同 Demucs 或相关模型。
这种 ensemble 的强项来自分工:把人声强的材料交给人声专家,把低频和瞬态密集材料交给更强的乐器分离器,再融合结果。它可以作为质量上限参考,但它不是一个 checkpoint,也不是用户下载一个文件就能复现的单体模型。把它放进“单体模型排行榜”里,会让比较对象从模型架构变成托管工作流。
这也是为什么公开文章必须把 MVSep Ensemble 和 Huge-SCNet-4stems V1.2 分开写。前者回答“平台能把多个模型组合到什么上限”,后者回答“当前四轨工具交付给用户的公开单体模型是什么”。两句话看起来相近,产品含义完全不同。
下表使用公开可追溯的四轨参考数字。SDR 越高,通常表示目标 stem 相对参考轨的失真更少,但平均 SDR 不能替代试听,也不能把每个 stem 压成一个答案。一个模型可能贝斯和鼓很强,另一个模型可能人声更干净;Other 尤其困难,因为它包含许多乐器,且乐器类型会随歌曲风格大幅变化。
因此,读这张表时要看“任务适配”,而不是只看单个最高分。当前四轨方案更看重四个 stem 都能继续编辑,而不是把某一个 stem 做到听感上最亮眼。对用户来说,这意味着分离结果更像素材,而不是一次性试听效果。
| 模型 / 架构路线 | 平均 4-Stem SDR | Vocals | Drums | Bass | Other | 定位说明 |
|---|---|---|---|---|---|---|
| Huge-SCNet-4stems V1.2 | 10.02 dB | 9.6073 dB | 11.7422 dB | 12.0639 dB | 6.6485 dB | 当前四轨工具核心模型,四个 stem 的综合平衡度突出。 |
| SCNet XL IHF 4-stem | 9.92 dB | 9.68 dB | 11.58 dB | 11.94 dB | 6.48 dB | 强单体四轨候选,鼓和贝斯表现扎实,是重要参考线。 |
| BS Roformer 4-stem | 9.38 dB | 9.19 dB | 11.29 dB | 11.08 dB | 5.96 dB | RoFormer 路线的四轨参考,可观察到 Other 轨上的取舍。 |
| HTDemucs4 | 9.16 dB | 8.24 dB | 10.88 dB | 11.76 dB | 5.74 dB | 成熟经典基线,生态熟悉度高,但已不是当前单体四轨质量上限。 |
Huge-SCNet-4stems V1.2 的核心价值,在于它保持公开单体模型、标准四轨输出和可追溯参考分数的前提下,实现了各个声部的最大公约数平衡。SCNet XL IHF 仍是重要对照,MVSep Ensemble 仍是质量上限参考,但它们回答的是不同问题。
四轨和六轨经常被混在一起讨论,但它们并不是同一件事。四轨任务的核心是平衡:把混音拆成人声、鼓、贝斯和 Other,并尽量让每一轨都能继续编辑。六轨任务则进一步把 Other 拆开,通常会额外关注吉他、钢琴等器乐细分目标。
这会改变模型选择。六轨分离对吉他扫弦、钢琴击弦、键盘纹理和高频泛音更敏感,也更容易在边界处出现误判。六轨工具使用 BS Roformer SW 6-stem,这是和 Huge-SCNet-4stems V1.2 不同的模型,也是不一样的产品承诺。四轨工具不能承诺六轨结果,六轨模型也不能被简单拿来替代四轨判断。
公开文案不应把几件事压成一句话:RoFormer 很强,Mel-Band 对人声强,SCNet 更均衡地适配四轨,MVSep Ensemble 可以作为高质量参考。每句话回答的都是不同问题:架构、输出目标、公开可用性、工作流形态或产品 contract。说清楚这些边界,反而能让用户更快选对工具。
AI 音频分离的最终价值,不是把热门模型名堆在页面上,也不是把“人声模型”生搬硬套到所有器乐大乱斗里。真正重要的是模型在时间、频率和信息稀疏度之间怎样取舍,以及这个取舍是否符合当前产品目标。
当前选择 Huge-SCNet-4stems V1.2,是围绕标准四轨高编辑性做出的取舍。Mel-Band RoFormer 仍然是理解人声分离的重要路线,MVSep Ensemble 仍然适合作为质量参考。但在实际四轨工具里,真正交付给用户的,是四个声部独立、动态完整、可以拖入 DAW 继续二次创作的高质量分轨。