開源音樂 AI 比較

ACE-Step 1.5 評測與比較 2026

Q: 什麼是 ACE-Step 1.5？

ACE-Step 1.5 是一個開源 AI 音樂模型（MIT 授權），它將語言模型規劃器與擴散變換器結合，從文字提示和歌詞創作音樂。它可以在消費級 GPU 上本機執行。

Q: ACE-Step 1.5 比 Suno 好嗎？

它們滿足不同的需求。Suno 是精緻的閉源雲端服務，而 ACE-Step 1.5 採用 MIT 授權並在本機執行，具有完整控制權。HeartMuLa 是另一個開源選擇，同時也提供即用型雲端平台。

Q: ACE-Step 1.5 需要多少顯存？

這取決於模型大小：2B 模型可在低於 4GB 顯存下執行，而 XL（4B DiT）模型至少需要 12GB（建議 20GB+）。UI 會為你的 GPU 自動選取配置。

Q: ACE-Step 1.5 能生成帶歌詞的人聲嗎？

可以。根據官方論文，ACE-Step 1.5 能生成帶歌詞的人聲並支援 50+ 種語言。

Q: ACE-Step 1.5 支援 LoRA 微調嗎？

支援。官方儲存庫指出，你只需少量歌曲即可訓練 LoRA，讓你無需完整微調就能將模型調整至特定曲風或風格。

Q: ACE-Step 1.5 與 HeartMuLa 相比如何？

就公開規格而言：ACE-Step 1.5 採用 MIT 授權、支援 50+ 種語言，並能製作長達約 10 分鐘的循環；HeartMuLa oss-3B 則採用 Apache 2.0。兩者皆為開源且可本機執行。詳情請參閱上方以來源為依據的比較表。

Q: 我可以將 ACE-Step 1.5 用於商業用途嗎？

可以，ACE-Step 1.5 以 MIT 授權條款釋出，允許商業使用。請確保你的訓練資料和生成內容符合你所在司法管轄區的著作權法律。

Q: ACE-Step 1.5 的主要取捨是什麼？

主要取捨在於本機設定的心力，以及較大的 XL 模型較高的硬體需求。品質與速度取決於你使用的模型大小和 GPU。

Q: ACE-Step 1.5 有 ComfyUI 工作流程嗎？

社群已為 ACE-Step 建立 ComfyUI 節點。至於 HeartMuLa，也有社群製作的 ComfyUI 自訂節點（benjiyaya/HeartMuLa_ComfyUI）可供使用。

Q: 我應該使用 ACE-Step 1.5 還是 HeartMuLa？

如果你追求最大程度的本機控制、小顯存的 2B 選項、50+ 種語言以及 LoRA 微調，請選擇 ACE-Step 1.5。如果你偏好無憂、即用型的雲端平台搭配開源模型，則選擇 HeartMuLa。

以官方資料為依據的 ACE-Step 1.5 總覽：架構深入解析、逐項規格與 HeartMuLa 及 Suno 的比較、安裝教學，以及 LoRA 微調筆記 — 全部取自官方論文與程式碼儲存庫

ACE-Step 1.5 是 2026 年撼動 AI 音樂生成領域的開源模型。本指南根據官方論文拆解其架構，將其公開規格與 HeartMuLa 和 Suno 進行比較，依照官方指令逐步示範本機安裝，並說明其 LoRA 微調支援。以下每一項數據都連結回第一手來源。

深入了解 ACE-Step 1.5 架構

ACE-Step 1.5 是由 ACE Studio 與 StepFun 以 MIT 授權條款釋出的開源 AI 音樂模型（arXiv 2602.00744）。它並非採用單一端到端流程，而是將規劃與合成分開：先由語言模型針對歌曲進行推理，再由擴散變換器（diffusion transformer）渲染音訊。以下是其架構的支柱，每一項皆取自官方論文。

語言模型規劃器

ACE-Step 1.5 使用 Qwen3 系列的語言模型（0.6B、1.7B 或 4B）作為規劃器。在收到你的提示後，它會逐步推理（思維鏈）以合成結構化的中繼資料、歌詞，以及描述目標歌曲的說明文字，這一切都在生成任何音訊之前完成。

擴散變換器（DiT）合成

規劃好的藍圖會作為條件，引導一個擴散變換器（DiT）生成實際音訊。2B DiT 針對低顯存環境設計，而更大的 XL（4B DiT）版本 — 於 April 2026 釋出 — 則以更高的記憶體成本換取更佳品質。

內在強化學習

ACE-Step 1.5 不依賴外部獎勵模型，而是透過內在強化學習來對齊其輸出，直接從模型自身的訊號中提升可控性與音樂性。

開源技術棧（MIT）

完整技術棧 — 權重、程式碼與 Gradio UI — 皆採用 MIT 授權，並託管於 GitHub 和 Hugging Face。ACE-Step 1.5 支援 50+ 種語言、僅需少量歌曲即可進行 LoRA 微調，以及封面生成、重繪、人聲轉 BGM 等編輯工作流程。

ACE-Step 1.5 vs HeartMuLa vs Suno：規格比較

以官方公開規格為依據的客觀比較 — 而非主觀的品質評分

屬性	ACE-Step 1.5	HeartMuLa oss-3B	Suno
授權條款	MIT	Apache 2.0	Proprietary
論文	arXiv 2602.00744	arXiv 2601.10547	—
最低顯存	<4GB (2B) / ≥12GB (XL)	Not published	雲端 (N/A)
速度	<2s (A100), <10s (RTX 3090)	RTF ≈ 1.0	雲端 (N/A)
最大時長	最長 10 分鐘	240s (預設)	—
語言	50+	多語言	—
本機部署	是	是	否
LoRA 微調	是（少量樣本）	Not published	否
編輯	封面 / 重繪 / 人聲轉 BGM	—	—

來源：ACE-Step 1.5 — arXiv 2602.00744 與 github.com/ACE-Step/ACE-Step-1.5；HeartMuLa — arXiv 2601.10547 與 github.com/HeartMuLa/heartlib。標示為 "Not published" 的欄位並未在官方文件中說明。驗證於 2026-07-16。

ACE-Step 1.5 本機安裝指南

依照官方儲存庫，在你的本機執行 ACE-Step 1.5 的逐步指南

檢查系統需求

根據你的 GPU 選擇模型：2B 模型可在低於 4GB 顯存下執行，而 XL（4B DiT）模型至少需要 12GB（建議 20GB+）。UI 會為你的 GPU 自動選取最佳配置。

複製儲存庫

git clone https://github.com/ACE-Step/ACE-Step-1.5.git && cd ACE-Step-1.5

安裝相依套件

uv sync — 使用 uv 套件管理器安裝專案及其相依套件。

啟動應用程式

uv run acestep 會在 http://localhost:7860 啟動 Gradio UI。模型檢查點會在首次執行時自動從 Hugging Face 下載。

生成音樂

在 UI 中輸入提示以及選填的歌詞並生成。若要改用 REST API，請執行 uv run acestep-api（http://localhost:8001）。

常見問題與解決方案

CUDA 記憶體不足

改用較小的模型（2B turbo 版本）、啟用 offload，或降低品質預設。XL 模型比 2B 需要更多顯存。

Gradio 連接埠衝突

如果連接埠 7860 被佔用，請在你的 .env 檔案中設定不同的 PORT，或釋放既有程序（例如 lsof -i :7860）。

模型下載問題

檢查點會在首次執行時自動從 Hugging Face 或 ModelScope 下載。如果下載卡住，請檢查你的網路，或透過 .env 檔案設定自訂的設定路徑。

Windows 特定問題

使用 WSL2 搭配 Ubuntu 以獲得最佳相容性。需要一張支援 CUDA 的 NVIDIA GPU 並安裝相符的驅動程式。

想要更簡單的選擇？

跳過繁瑣的設定。HeartMuLa 提供開源 AI 音樂生成能力，並配有即用型雲端平台。免費註冊，幾秒鐘內即可開始創作。

ACE-Step 1.5 LoRA 微調指南

LoRA（Low-Rank Adaptation）讓你能在特定音樂風格上微調 ACE-Step 1.5，而無需重新訓練完整模型。根據官方儲存庫，你只需少量歌曲即可訓練 LoRA，做法是在擴散變換器中注入小型的可訓練矩陣 — 以遠低於完整微調的運算量，教會模型一種新的曲風、人聲音色或製作美學。

準備你的資料集

一份精心準備的資料集比龐大的資料集更重要 — 少量乾淨、標註良好的曲目就足以改變模型的風格。

收集少量目標風格的高品質音訊樣本（WAV 格式，44.1kHz）
為每個樣本轉錄歌詞並標註中繼資料（曲風、情緒、節拍）
劃分為訓練集與驗證集

訓練筆記

ACE-Step 1.5 LoRA 訓練的一般性指引（請依你的資料與硬體調整）：

LoRA rank：越高的 rank 提供更大容量，但佔用更多顯存
學習率：從小值開始，並使用餘弦排程器
訓練輪次：留意驗證損失以避免過度擬合
批次大小：依你的顯存調整（梯度累積有助於較小的 GPU）

HeartTranscriptor：自動化資料集準備

HeartMuLa 的開源 HeartTranscriptor 工具能協助處理資料集準備中最繁瑣的部分。它不需你手動轉錄歌詞並為每個音訊檔案標註，而是運用語音辨識與音樂資訊檢索技術，更快地生成中繼資料。

將你的音訊檔案上傳到 HeartTranscriptor 進行自動轉錄與標註
審核並編輯生成的中繼資料、歌詞與風格標籤
匯出可直接用於 LoRA 訓練的資料集

為什麼選擇 HeartMuLa

生產級品質

HeartMuLa 提供生產級音訊，具有清晰的人聲、一致的風格，以及可直接發布的母帶級輸出。

零設定要求

無需 GPU，無需 Python，無需相依套件。HeartMuLa 的雲端平台讓你透過任何瀏覽器即時生成音樂。註冊後 60 秒內即可創作你的第一首歌。

積極開發與支援

HeartMuLa 持續活躍開發，定期更新，擁有不斷壯大的社群和專業支援。在你需要時獲得幫助，而不僅僅是 GitHub Issues。

商用就緒

採用 Apache 2.0 授權條款，商業條款清楚。生成的音樂可用於任何專案 — YouTube、Podcast、遊戲、廣告 — 無法律歧義。

ACE-Step 1.5 常見問題

什麼是 ACE-Step 1.5？