multimodal-models · GitHub Topics

uncbiag / Awesome-Foundation-Models

A curated list of foundation models for vision and language tasks

foundation-models vision-transformer large-language-models transformer-models multimodal-models

1.08 k

3 个月前

AIDC-AI / Awesome-Unified-Multimodal-Models

Awesome Unified Multimodal Models

multimodal-large-language-models text-to-image-generation multimodal-models vision-language-model

690

1 个月前

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

#大语言模型#🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

aigc large-language-models large-vision-language-models multimodal-generation multimodal-large-language-models multimodal-models multimodality text-to-3d text-to-audio text-to-image text-to-speech text-to-video 大语言模型 mllm

HTML 509

5 个月前

zli12321 / Vision-Language-Models-Overview

A most Frontend Collection and survey of vision-language model papers, and models GitHub repository. Continuous updates.

blip2 claude clip deepseek gemini-pro gpt-4v llava multimodal-models reinforcement-learning world-models

364

10 天前

thaoshibe / awesome-personalized-lmms

#Awesome#A curated list of Awesome Personalized Large Multimodal Models resources

Awesome Lists large-language-models large-multimodal-models multimodal-models personalization personalized-generation

1 个月前

AmitPeleg / CLIC

Implementation of the paper "Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning", arXiv, 2025

clip compositionality multimodal-models retrieval

Python 7

3 个月前

pokarats / LAP-final-project

Multimodal Bi-Transformers (MMBT) in Biomedical Text/Image Classification

bert image-classification text-classification transfer-learning biomedical-image-processing transformer attention-mechanism multimodal-models huggingface-transformers

Jupyter Notebook 3

4 年前

antonio-f / Phi-3-Vision

#计算机科学#Phi-3-Vision model test - running locally

人工智能机器视觉 hugging-face Jupyter Notebook 大语言模型机器学习 multimodal-learning multimodal-models phi-3-vision image-to-text

Jupyter Notebook 0

1 年前

sitammeur / videollama3-litserve

#计算机科学#Leverage VideoLLaMA 3's capabilities using LitServe.

人工智能深度学习 FastAPI multimodal-models Python PyTorch transformers video-understanding

Python 0

7 个月前

sitammeur / gemma3-litserve

#计算机科学#Leverage Gemma 3's capabilities using LitServe.

人工智能深度学习 FastAPI gemma3 multilingual multimodal-models Python transformers

Python 0

6 个月前

RubenCasal / owl_vit_detector

NanoOWL Detection System enables real-time open-vocabulary object detection in ROS 2 using a TensorRT-optimized OWL-ViT model. Describe objects in natural language and detect them instantly on panoram...

机器视觉 multimodal-models natural-language object-detection transformers

C++ 0

4 个月前