audio-generation · GitHub Topics

#大语言模型#🤖 The free, Open Source alternative to OpenAI, Claude and others. Self-hosted and local-first. Drop-in replacement for OpenAI, running on consumer-grade hardware. No GPU required. Runs gguf, tr...

llama rwkv 人工智能大语言模型 stable-diffusion API Kubernetes gpt4all tts musicgen mamba audio-generation image-generation text-generation gemma mistral llama3 rerank distributed libp2p

Go 35.22 k

7 小时前

FunAudioLLM / CosyVoice

#大语言模型#Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

audio-generation gpt-4o text-to-speech tts cantonese 聊天机器人 ChatGPT 中文 english fine-grained fine-tuning japanese korean multi-lingual natural-language-generation Python cosyvoice cross-lingual 声音克隆

Python 16.38 k

2 天前

open-mmlab / Amphion

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, ...

audio-generation audio-synthesis audioldm music-generation naturalspeech2 singing-voice-conversion speech-synthesis text-to-audio text-to-speech vall-e voice-conversion audit fastspeech2 vits emilia maskgct vocoder

Python 9.38 k

4 个月前

multimodal-art-projection / YuE

#计算机科学#YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

foundation-models music-generation huggingface llama audio-generation 声音克隆大语言模型人工智能深度学习 gpt

Python 5.47 k

3 个月前

haoheliu / AudioLDM

AudioLDM: Generate speech, sound effects, music and beyond, with text.

audio-generation

Python 2.74 k

3 个月前

rsxdalv / TTS-WebUI

A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, Mus...

gradio text-to-speech tts 人工智能 audio-generation Generator music musicgen rvc magnet generative-ai openai-api

TypeScript 2.53 k

3 天前

haoheliu / AudioLDM2

Text-to-Audio/Music Generation

audio-generation

Python 2.49 k

1 年前

archinetai / audio-diffusion-pytorch

#计算机科学#Audio generation using diffusion models, in PyTorch.

人工智能 audio-generation 深度学习 denoising-diffusion

Python 2.07 k

2 年前

archinetai / audio-ai-timeline

#计算机科学#A timeline of the latest AI models for audio generation, starting in 2023!

人工智能 audio-generation 机器学习

1.9 k

2 年前

lucidrains / soundstorm-pytorch

#计算机科学#Implementation of SoundStorm, Efficient Parallel Audio Generation from Google Deepmind, in Pytorch

人工智能 audio-generation 深度学习 non-autoregressive transformers attention-mechanism

Python 1.53 k

5 个月前

FunAudioLLM / FunMusic

A fundamental toolkit designed for music, song, and audio generation

music-generation PyTorch audio-generation audio-processing

Python 1.19 k

4 个月前

declare-lab / tango

A family of diffusion models for text-to-audio generation.

audio-generation diffusion diffusion-models language-models large-language-models text-to-audio

Python 1.19 k

2 个月前

NVIDIA / BigVGAN

Official PyTorch implementation of BigVGAN (ICLR 2023)

audio-synthesis speech-synthesis music-synthesis neural-vocoder audio-generation singing-voice-synthesis

Python 1.1 k

1 年前

Yuan-ManX / ai-audio-datasets

#数据仓库#AI Audio Datasets (AI-ADS) 🎵, including Speech, Music, and Sound Effects, which can provide training data for Generative AI, AIGC, AI model training, intelligent audio tool development, and audio app...

aigc audio audio-effect 数据集人工智能 audio-generation 深度学习机器学习 music-generation

831

2 个月前

devnen / Chatterbox-TTS-Server

Self-host the powerful Chatterbox TTS model. This server offers a user-friendly Web UI, flexible API endpoints (incl. OpenAI compatible), predefined voices, voice cloning, and large audiobook-scale te...

人工智能 API audio-generation CUDA FastAPI huggingface openai-api Python PyTorch speech-synthesis text-to-speech tts tts-api 声音克隆 web-ui rocm

Python 519

2 个月前

researchmm / MM-Diffusion

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

audio-generation content-creation diffusion-models multi-modality video-generation

Python 441

1 年前

modelscope / FunCodec

FunCodec is a research-oriented toolkit for audio quantization and downstream applications, such as text-to-speech synthesis, music generation et.al.

audio-generation codec speech-synthesis speech-to-text tts

Python 425

2 年前

metame-ai / awesome-audio-plaza

Daily tracking of awesome audio papers, including music generation, zero-shot tts, asr, audio generation

music-generation asr audio-generation Awesome Lists tts zero-shot-tts

400

1 个月前

Yuan-ManX / audio-development-tools

#计算机科学#Audio Development Tools (ADT) is a project for advancing sound, speech, and music technologies, featuring components for machine learning, sound synthesis, speech and music generation, signal processi...

audio audio-processing music signal-processing speech-processing 深度学习 dsp speech 人工智能 audio-generation 机器学习 music-generation speech-synthesis

391

2 个月前

v-iashin / SpecVQGAN

Source code for "Taming Visually Guided Sound Generation" (Oral at the BMVC 2021)

transformer vqvae Generative Adversarial Network PyTorch audio-generation melgan multi-modal video-understanding evaluation-metrics audio Video

Jupyter Notebook 366

1 年前