开源音乐 AI 对比

ACE-Step 1.5 评测与对比 2026

Q: 什么是 ACE-Step 1.5？

ACE-Step 1.5 是一个开源 AI 音乐模型（MIT 许可证），它将语言模型规划器与扩散 transformer 相结合，从文本提示和歌词创作音乐。它可以在消费级 GPU 上本地运行。

Q: ACE-Step 1.5 比 Suno 好吗？

它们满足不同的需求。Suno 是一个精致的闭源云服务，而 ACE-Step 1.5 采用 MIT 许可证并在本地运行，可实现完全掌控。HeartMuLa 则是另一个开源选择，同时还提供即用型云平台。

Q: ACE-Step 1.5 需要多少 VRAM？

这取决于模型规模：2B 模型可在 4GB 以下的 VRAM 上运行，而 XL（4B DiT）模型至少需要 12GB（建议 20GB+）。UI 会为你的 GPU 自动选择一种配置。

Q: ACE-Step 1.5 能生成带歌词的人声吗？

可以。根据官方论文，ACE-Step 1.5 能生成带歌词的人声，并支持 50+ 种语言。

Q: ACE-Step 1.5 支持 LoRA 微调吗？

支持。官方仓库声明，你只需几首歌曲即可训练一个 LoRA，让模型无需完整微调即可适配特定曲风或风格。

Q: ACE-Step 1.5 与 HeartMuLa 相比如何？

就公开规格而言：ACE-Step 1.5 采用 MIT 许可证，支持 50+ 种语言，可生成最长约 ~10 minutes 的循环片段；HeartMuLa oss-3B 采用 Apache 2.0。两者都是开源且可本地运行的。详情请参阅上方有据可依的对比表。

Q: 我可以将 ACE-Step 1.5 用于商业用途吗？

可以，ACE-Step 1.5 以 MIT 许可证发布，允许商业使用。请确保你的训练数据和生成内容符合所在司法管辖区的版权法律。

Q: ACE-Step 1.5 的主要取舍是什么？

主要取舍在于本地搭建的工作量，以及更大的 XL 模型更高的硬件要求。质量和速度取决于你使用的模型规模和 GPU。

Q: ACE-Step 1.5 有 ComfyUI 工作流吗？

社区已为 ACE-Step 提供了 ComfyUI 节点。对于 HeartMuLa，也有一个社区 ComfyUI 自定义节点（benjiyaya/HeartMuLa_ComfyUI）可用。

Q: 我应该使用 ACE-Step 1.5 还是 HeartMuLa？

如果你追求最大程度的本地掌控、小 VRAM 的 2B 选项、50+ 种语言以及 LoRA 微调，请选择 ACE-Step 1.5。如果你更喜欢一个无忧、即用型的云平台并搭配开源模型，请选择 HeartMuLa。

有据可依的 ACE-Step 1.5 全面概览：架构深度解析、与 HeartMuLa 和 Suno 的逐项规格对比、安装教程以及 LoRA 微调要点 —— 全部内容均取自官方论文与仓库

ACE-Step 1.5 是 2026 年撼动 AI 音乐生成领域的开源模型。本指南依据官方论文剖析其架构，将其公开规格与 HeartMuLa 和 Suno 逐项对比，按照官方命令演示本地安装流程，并讲解其 LoRA 微调支持。下文中的每一项数据都可回溯至第一方来源。

深入理解 ACE-Step 1.5 架构

ACE-Step 1.5 是由 ACE Studio 和 StepFun 以 MIT 许可证发布的开源 AI 音乐模型（arXiv 2602.00744）。它没有采用单一的端到端流程，而是将规划与合成分离：先由一个语言模型对歌曲进行推理，再由一个扩散 transformer 渲染音频。以下是其架构的几大支柱，每一项均取自官方论文。

语言模型规划器

ACE-Step 1.5 使用 Qwen3 家族的语言模型（0.6B、1.7B 或 4B）作为规划器。它会根据你的提示词，通过逐步推理（思维链）合成结构化的元数据、歌词以及一段描述目标歌曲的说明，然后才开始生成任何音频。

扩散 Transformer（DiT）合成

规划好的蓝图为一个扩散 Transformer（DiT）提供条件，由其生成真正的音频。2B DiT 面向低 VRAM 环境，而更大的 XL（4B DiT）变体 —— 于 April 2026 发布 —— 以更高的显存开销换取更优的质量。

内在强化学习

ACE-Step 1.5 不依赖外部奖励模型，而是使用内在强化学习来对齐其输出，直接从模型自身的信号中提升可控性与音乐性。

开源技术栈（MIT）

完整的技术栈 —— 权重、代码以及一个 Gradio UI —— 均采用 MIT 许可证，托管于 GitHub 和 Hugging Face。ACE-Step 1.5 支持 50+ 种语言，仅凭几首歌曲即可进行 LoRA 微调，并支持翻唱生成、重绘、人声转 BGM 等编辑工作流。

ACE-Step 1.5 vs HeartMuLa vs Suno：规格对比

对公开规格进行客观、有据可依的对比 —— 而非主观的质量评分

属性	ACE-Step 1.5	HeartMuLa oss-3B	Suno
许可证	MIT	Apache 2.0	Proprietary
论文	arXiv 2602.00744	arXiv 2601.10547	—
最低 VRAM	<4GB (2B) / ≥12GB (XL)	Not published	云端（N/A）
速度	<2s (A100), <10s (RTX 3090)	RTF ≈ 1.0	云端（N/A）
最大时长	最长 10 min	240s（默认）	—
语言	50+	多语言	—
本地部署	是	是	否
LoRA 微调	支持（少量样本）	Not published	否
编辑	cover / repaint / vocal-to-BGM	—	—

来源：ACE-Step 1.5 —— arXiv 2602.00744 及 github.com/ACE-Step/ACE-Step-1.5；HeartMuLa —— arXiv 2601.10547 及 github.com/HeartMuLa/heartlib。标记为 "Not published" 的字段在官方文档中未作说明。核实于 2026-07-16。

ACE-Step 1.5 本地安装指南

遵循官方仓库，在本地机器上运行 ACE-Step 1.5 的分步指南

检查系统要求

根据你的 GPU 选择模型：2B 模型可在 4GB 以下的 VRAM 上运行，而 XL（4B DiT）模型至少需要 12GB（建议 20GB+）。UI 会为你的 GPU 自动选择最佳配置。

克隆仓库

git clone https://github.com/ACE-Step/ACE-Step-1.5.git && cd ACE-Step-1.5

安装依赖

uv sync —— 使用 uv 包管理器安装项目及其依赖。

启动应用

uv run acestep 会在 http://localhost:7860 启动 Gradio UI。模型检查点会在首次运行时从 Hugging Face 自动下载。

生成音乐

在 UI 中输入提示词和可选的歌词，即可生成。如需改用 REST API，请运行 uv run acestep-api（http://localhost:8001）。

常见问题与解决方案

CUDA 内存不足

切换到更小的模型（2B turbo 变体）、启用 offload，或降低质量预设。XL 模型比 2B 需要更多 VRAM。

Gradio 端口冲突

如果端口 7860 被占用，请在 .env 文件中设置一个不同的 PORT，或释放现有进程（例如 lsof -i :7860）。

模型下载问题

检查点会在首次运行时从 Hugging Face 或 ModelScope 自动下载。如果下载卡住，请检查你的网络，或通过 .env 文件设置自定义配置路径。

Windows 特定问题

使用 WSL2 配合 Ubuntu 以获得最佳兼容性。需要一块支持 CUDA 的 NVIDIA GPU 以及匹配的驱动。

想要更简单的选择？

跳过繁琐的设置。HeartMuLa 提供开源 AI 音乐生成能力，并配有即用型云平台。免费注册，几秒钟内即可开始创作。

ACE-Step 1.5 LoRA 微调指南

LoRA（Low-Rank Adaptation）让你无需重新训练完整模型，即可在特定音乐风格上微调 ACE-Step 1.5。根据官方仓库，你只需几首歌曲，通过向扩散 transformer 注入小型可训练矩阵即可训练一个 LoRA —— 用远低于完整微调的算力，教会模型一种新的曲风、人声音色或制作美学。

准备你的数据集

一个精心准备的数据集比一个庞大的数据集更重要 —— 少量干净、标注良好的曲目就足以改变模型的风格。

收集几个目标风格的高质量音频样本（WAV 格式，44.1kHz）
为每个样本转录歌词并标注元数据（风格、情绪、节奏）
划分为训练集和验证集

训练要点

ACE-Step 1.5 LoRA 训练的一般性指导（请根据你的数据和硬件进行调整）：

LoRA rank：更高的 rank 增加容量，但占用更多 VRAM
学习率：从较小的值开始，并使用余弦调度器
训练轮次：关注验证损失以避免过拟合
批量大小：根据你的 VRAM 进行调整（梯度累积对较小的 GPU 有帮助）

HeartTranscriptor：自动化数据集准备

HeartMuLa 的开源 HeartTranscriptor 工具能帮你完成数据集准备中最繁琐的部分。它无需你手动转录歌词并逐一标注每个音频文件，而是利用语音识别和音乐信息检索技术更快地生成元数据。

将你的音频文件上传到 HeartTranscriptor 进行自动转录和标注
审核并编辑生成的元数据、歌词和风格标签
导出可直接用于 LoRA 训练的数据集

为什么选择 HeartMuLa

生产级质量

HeartMuLa 提供生产级音频，人声清晰、风格一致，输出经过母带处理，可直接发布。

零设置要求

无需 GPU，无需 Python，无需依赖。HeartMuLa 的云平台让你通过任何浏览器即时生成音乐。注册后 60 seconds 内即可创作你的第一首歌。

积极开发与支持

HeartMuLa 持续活跃开发，定期更新，拥有不断壮大的社区和专业支持。在你需要时获得帮助，而不仅仅是 GitHub Issues。

商用就绪

采用 Apache 2.0 许可证，商业条款清晰。生成的音乐可用于任何项目 —— YouTube、播客、游戏、广告 —— 无法律歧义。

ACE-Step 1.5 常见问题

什么是 ACE-Step 1.5？