Stable Audio 2.0 - Stability AI免费开源的AI一键音乐生成工具

美国

人工智能 AI音乐人工智能

Stable Audio 2.0 - Stability AI免费开源的AI一键音乐生成工具

AI 圈又有大新闻啦！Stability AI 又悄悄放出一个大招，这次不再是画图，而是音乐生成！而且还是开源的！

链接直达手机查看

AI 圈又有大新闻啦！Stability AI 又悄悄放出一个大招，这次不再是画图，而是音乐生成！而且还是开源的！

这个新工具叫 Stable Audio Open，简单来说，用文字就能生成各种音频——无论是鼓点、旋律，还是环境音效，全都不在话下！最最最重要的是，它还能为 Sora 和可灵这些视频生成配音！接下来我介绍3种使用方法

手动安装

首先，将存储库克隆到本地机器：

git clone https://github.com/RoyalCities/RC-stable-audio-tools.git
cd RC-stable-audio-tools

创建虚拟环境

Windows ：

python -m venv venv
venv\Scripts\activate

macOS 和 Linux：

python3 -m venv venv
source venv/bin/activate

安装所需的软件包

安装稳定的音频工具和必要的软件包setup.py：

pip install stable-audio-tools
pip install .

Windows 用户的额外步骤

为了确保 Gradio 使用 GPU/CUDA 而不是默认使用 CPU，请卸载并重新安装torch、，torchvision并torchaudio使用正确的 CUDA 版本：

{
    "model_directory": "models",
    "output_directory": "generations"
}

使用方法

🎚️ 运行 Gradio 界面

使用批处理文件或直接从命令行启动 Gradio 界面：

批处理文件示例：

@echo off
cd /d path-to-your-venv/Scripts
call activate
cd /d path-to-your-stable-audio-tools
python run_gradio.py --model-config models/path-to-config/example_config.json --ckpt-path models/path-to-config/example.ckpt
pause

或命令行：

python run_gradio.py --model-config models/path-to-config/example_config.json --ckpt-path models/path-to-config/example.ckpt

🎶 生成音频和 MIDI

Gradio 界面中的输入提示会生成音频和 MIDI 文件，这些文件将按照中指定的方式保存config.json。

该界面已经扩展了 Bar/BPM 设置（可修改用户提示 + 样本长度条件）、MIDI 显示 + 转换，还具有动态模型加载功能。

模型必须与附带的配置文件一起存储在其自己的子文件夹中。即，一次微调可以有多个检查点。所有相关检查点都可以放在同一个“model1”子文件夹中，但重要的是，它们的相关配置文件包含在与检查点本身相同的文件夹中。

要切换模型，只需使用下拉菜单选择要加载的模型，然后选择“加载模型”。

资源下载此资源仅限注册用户下载，请先

相关导航

OfferNow求职与编程学习平台：AI时代程序员进阶指南

OfferNow 是一个专注于计算机与人工智能学习的平台，致力于帮助程序员从入门到进阶，提升编程能力与面试竞争力。网站目前拥有 545 份精选资料，涵盖从算法、数据结构到AI实战的全链路内容，目标是让学习者快速掌握技能、顺利拿到理想的Offer。

Suno AI Music — Suno AI 音乐搜索和下载工具

Suno AI Music是一个在线免费的Suno AI 音乐搜索和下载工具网站，可以倾听热门的 AI 音乐，支持下载搜索。

AI Engineer Pack by ElevenLabs：全能AI工程师工具包 ElevenLabs打造开发者专属优惠平台

ElevenLabs推出的AI工程师工具包堪称开发者“技术百宝箱”，专为人工智能领域从业者量身打造。这个资源整合平台集结了文本转语音、对话AI、客户服务、数据处理等全流程工具，覆盖开发、协作到部署的每个环节。用户不仅能免费试用ElevenLabs自家先进的语音生成技术，还能解锁Mistral、Perplexity、Intercom等知名平台的独家优惠，从免费数月的高级会员到大幅折扣应有尽有，累计福利价值轻松突破数百美元。

CursorList：高效定制与管理Cursor AI提示词的平台

CursorList是一个专注于分享和发现实用提示词规则的平台，支持管理和查看.cursorrule文件及操作标准。平台提供Cursor使用技巧，帮助用户定制Cursor的AI行为，免费下载经过测试的规则，提升开发工作流效率，满足项目专属编码标准。

ComfyUI-SparkTTS

ComfyUI-SparkTTS 是 SparkTTS 的自定义 ComfyUI 节点实现，SparkTTS 是一种先进的文本转语音系统，它利用大型语言模型 (LLM) 的强大功能来生成高度准确且自然的语音。

TikTok Voice 免费在线文字转语音

TikTok Voice是一款由最新 TTS 技术开发的 AI TikTok 配音生成器：免费在线文字转语音工具/ TikTok Voice 的在线的 TTS 工具，帮助用户将文字转换为 TikTok 声音，如 Jessie 声音（女士声音）、Siri 声音、鬼脸声音、C3PO 声音等，工具还允许从 TikTok Voice 下载声音，目前工具包含15种语言，近 100 个声音，适合在 PC 上做Tiktok 视频，或者因地区问题用不了 TikTok Voice 的用户使用，

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...