language-vision · GitHub Topics

#向量搜索引擎#Pocket-Sized Multimodal AI for content understanding and generation across multilingual texts, images, and 🔜 video, up to 5x faster than OpenAI CLIP and LLaVA 🖼️ & 🖋️

huggingface-transformers language-vision multimodal PyTorch semantic-search transformer cross-attention vector-search bert 神经网络 pretrained-models multi-lingual clip openai contrastive-learning representation-learning clustering image-search llava

Python 1.17 k

12 天前

JacobYuan7 / RLIPv2

[ICCV 2023] RLIPv2: Fast Scaling of Relational Language-Image Pre-training

detection language-vision

Python 133

1 年前

Fsoft-AIC / Language-Conditioned-Affordance-Pose-Detection-in-3D-Point-Clouds

[ICRA 2024] Language-Conditioned Affordance-Pose Detection in 3D Point Clouds

diffusion-models language-vision pose-estimation Robotics

Python 42

8 个月前

jwu114 / CAP

[NAACL Findings 2025] Code and data of "Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting"

prompting vqa language-vision multimodal

Python 3

4 个月前

youcefgheffari3 / VisualGroundingAutonomy

#计算机科学#Visual Grounding for Autonomous Agents: linking language and vision for robotics or autonomous navigation

autonomy 深度学习 language-vision Robotics scene-understanding

Python 2

2 个月前

CharlesYang030 / MTA

MTA: A Lightweight Multilingual Text Alignment Model for Cross-language Visual Word Sense Disambiguation

language-vision multilingual multimodal

Jupyter Notebook 1

2 年前

ElDokmak / MultiModal-Models

Hands on some MultiModal Models

language-vision llava multimodality gpt-4-vision tts

Jupyter Notebook 0

2 年前