Stable Audio Open 发布：48.6万个样本训练，可创建 47 秒短音频 [复制链接]

gythy1978

军衔等级：

少将

电梯直达

1^# 大中小

发表于 2024-6-6 15:12:27 |只看该作者 |倒序浏览

IT之家 6 月 6 日消息，Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。

Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长 3 分钟的完整音频。

本主题由版主或管理员于 2024-6-6 15:16 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-12-28 20:17 , Processed in 0.116013 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册