2023 Python 计算生态六月推荐榜 第64期
23年6月10日 · Python123 2160 人阅读
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
Audio Generation(音频生成)是一种人工智能技术,它使用深度学习算法和神经网络模型来生成音频信号。这种技术可以用于创作音乐、音效设计、语音合成等领域。音频生成的方法有很多种,其中最流行的是生成式对抗网络(GAN)和变分自编码器(VAE)。GAN是一种由两个神经网络组成的模型,一个生成器和一个判别器。生成器负责生成音频,判别器则负责判断生成的音频是否真实。通过不断地训练,生成器可以逐渐学习到如何生成更加真实的音频。VAE则是一种能够自动编码和解码音频的神经网络模型。它可以通过学习数据集中的音频特征来生成新的音频信号。
2023年6月,随着稳定扩散模型在音频领域的应用,好事者特别推荐10款优秀的Python计算生态,帮助您了解音频生成。
Diffusers
Diffusers是最先进的预训练扩散模型库,可用于生成图像、音频,甚至分子的3D结构。无论您是寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers都是一个模块化的工具箱,支持二者。
https://github.com/huggingface/diffusers
Riffusion
Riffusion是一个具有稳定扩散的实时音乐和音频生成库。
https://github.com/riffusion/riffusion
audiolm-pytorch
在 Pytorch 中实现AudioLM,一种来自 Google Research 的音频生成语言建模方法。
https://github.com/lucidrains/audiolm-pytorch
audio-diffusion-pytorch
在 PyTorch 中使用扩散模型生成音频。
https://github.com/archinetai/audio-diffusion-pytorch
tango
TANGO是一种用于文本到音频 (TTA) 生成的潜在扩散模型
(LDM)。TANGO可以根据文本提示生成逼真的音频,包括人类声音、动物声音、自然和人工声音以及音效。
https://github.com/declare-lab/tango
muspy
MusPy 是一个用于符号音乐生成的开源 Python 库。它为开发音乐生成系统提供了必要的工具,包括数据集管理、数据 I/O、数据预处理和模型评估。
https://github.com/salu133445/muspy
bark
Bark是由Suno创建的基于Transformer的文本转音频模型。Bark可以生成高度逼真的多语言语音,以及其他音频,包括音乐、背景噪音和简单的音效。
https://github.com/suno-ai/bark
musiclm-pytorch
谷歌最新的音乐生成模型MusicLM 使用Pytorch实现,该模型使用了注意力网络,是目前同类模型中的领先者。
https://github.com/lucidrains/musiclm-pytorch
msanii
一种新颖的基于扩散的模型,用于有效地合成长上下文、高保真音乐。
https://github.com/Kinyugo/msanii
vall-e
VALL-E(Zero-Shot
Text-To-Speech)的PyTorch实现。
Python3Turtle