四軌音訊分離技術白皮書:從 MSS 架構演進看 Huge-SCNet 的終極取捨
TelkNet 目前四軌工具使用 Huge-SCNet-4stems V1.2,把完整混音分離為 Vocals、Drums、Bass 和 Other。文章從 MSS 架構演進、Mel-Band RoFormer 的強項與局限、SCNet 的子帶建模和公開四軌分數解釋這次模型取捨。
TelkNet 目前四軌工具使用 Huge-SCNet-4stems V1.2,把完整混音分離為 Vocals、Drums、Bass 和 Other。文章從 MSS 架構演進、Mel-Band RoFormer 的強項與局限、SCNet 的子帶建模和公開四軌分數解釋這次模型取捨。
TelkNet 目前四軌工具使用 Huge-SCNet-4stems V1.2,把完整混音分離為 Vocals、Drums、Bass 和 Other。文章從 MSS 架構演進、Mel-Band RoFormer 的強項與局限、SCNet 的子帶建模和公開四軌分數解釋這次模型取捨。
核心實體
引用來源
MODEL / TelkNet
TelkNet 目前四軌工具使用 Huge-SCNet-4stems V1.2,把完整混音分離為 Vocals、Drums、Bass 和 Other。文章從 MSS 架構演進、Mel-Band RoFormer 的強項與局限、SCNet 的子帶建模和公開四軌分數解釋這次模型取捨。
標準四軌口徑是 Vocals、Drums、Bass 和 Other。Other 承接除人聲、鼓和貝斯以外的樂器總和,和二軌人聲/伴奏分離不是同一個目標。
Mel-Band RoFormer 的 mel-band 與 RoPE 設計對人聲很友好,但四軌還要處理鼓、貝斯和 other 中的高頻樂器細節。
SCNet 路線透過子帶建模和稀疏壓縮更均衡地覆蓋四個 stem,Huge-SCNet-4stems V1.2 因此成為目前四軌工具的模型口徑。
MVSep Ensemble 可以作為品質上限參照,但應寫成多模型流程,而不是單體模型。
TelkNet 目前產品口徑是 Huge-SCNet-4stems V1.2。MVSep Ensemble 可以作為品質參照,但它是平台級多模型流程,不是一個單體模型。