GitHub 中文社区

回车: Github搜索 Shift+回车: Google搜索

©2025 GitHub中文社区论坛 GitHub官网网站地图 GitHub官方翻译

GitHub on X
GitHub on Facebook
GitHub on LinkedIn
GitHub on YouTube
GitHub on Twitch
GitHub on TikTok
GitHub’s organization on GitHub

集合主题趋势排行榜

#

multimodal-generation

Website
Wikipedia

eric-ai-lab / MiniGPT-5

Official implementation of paper "MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens"

diffusion-models multimodal-generation transformers

Python 860

4 个月前

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

#大语言模型#🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

aigc large-language-models large-vision-language-models multimodal-generation multimodal-large-language-models multimodal-models multimodality text-to-3d text-to-audio text-to-image text-to-speech text-to-video 大语言模型 mllm

HTML 509

5 个月前

chuhaojin / Text2Poster-ICASSP-22

#计算机科学#Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"

aigc 深度学习 multimodal-generation 图像处理 image-retrieval artificial-neural-networks PyTorch object-detection image-text-retrieval

Python 213

2 年前

wzk1015 / Awesome-Vision-to-Music-Generation

[ISMIR 2025] A curated list of vision-to-music generation: methods, datasets, evaluation and challenges.

music-generation survey multimodal-generation

92

1 个月前

YangLing0818 / ContextDiff

[ICLR 2024] Contextualized Diffusion Models for Text-Guided Image and Video Generation

diffusion-models text-to-image-generation text-to-video multimodal-generation

Python 70

1 年前

Gen-Verse / HermesFlow

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

multimodal-large-language-models image-to-text multimodal-generation text-to-image

Python 63

7 个月前

Nithin-GK / UniteandConquer

[CVPR '23] Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models

diffusion-models face-generation imagenet multimodal multimodal-deep-learning text-to-image multimodal-generation plug-and-play text-to-image-diffusion text-to-image-generation text-to-image-synthesis semantic-segmentation

Python 36

1 年前

PanguIR / MRAGSurvey

A Survey of Multimodal Retrieval-Augmented Generation

large-language-models 大语言模型 multimodal-generation multimodal-large-language-models multimodal-retrieval

19

5 个月前

MMDocRAG / MMDocRAG

The code used to train and run inference with MMDocRAG

information-retrieval 大语言模型 multimodal-generation retrieval-augmented-generation vision-language-model

JavaScript 7

4 个月前