visual-language-models · GitHub Topics

zai-org / CogVLM

a state-of-the-art-level open visual language model | 多模态预训练模型

cross-modality language-model multi-modal pretrained-models visual-language-models

Python 6.66 k

1 年前

camel-ai / crab

🦀️ CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents. https://crab.camel-ai.org/

language-model-agent large-language-models multi-agent-systems visual-language-models

Python 373

2 个月前

MiniMax-AI / One-RL-to-See-Them-All

The official repo of One RL to See Them All: Visual Triple Unified Reinforcement Learning

rl vlm visual-language-models

Python 312

3 个月前

bilel-bj / ROSGPT_Vision

#大语言模型#Commanding robots using only Language Models' prompts

prompt-engineering Robotics ros2 ChatGPT language-models language-models-are-next large-language-models 大语言模型 visual-language-models

Python 102

7 个月前

hk-zh / language-conditioned-robot-manipulation-models

https://arxiv.org/abs/2312.10807

foundation-models imitation-learning reinforcement-learning visual-language-models robot-manipulation

9 个月前

xinyanghuang7 / Basic-Visual-Language-Model

Build a simple basic multimodal large model from scratch. 从零搭建一个简单的基础多模态大模型🤖

large-language-models visual-language-learning visual-language-models

Python 46

1 年前

kesimeg / awesome-turkish-language-models

#Awesome#A curated list of Turkish AI models, datasets, papers

large-language-models 大语言模型 speech turkish visual-language-models vlm Awesome Lists

23 天前

BioMedIA-MBZUAI / FetalCLIP

Official repository of FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

人工智能 foundation-models Medical imaging visual-language-models

Python 41

6 个月前

jaisidhsingh / CoN-CLIP

#计算机科学#Implementation of the "Learn No to Say Yes Better" paper.

compositionality 深度学习 image-text-matching multimodal PyTorch visual-language-models

Python 35

4 个月前

yangjie-cv / WeThink

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

mllm reinforcement-learning visual-language-models

Python 34

3 个月前

AlignGPT-VL / AlignGPT

Official repo for "AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability"

large-language-models multimodal-large-language-models visual-language-models

Python 33

1 年前

tianyu-z / VCR

#计算机科学#Official Repo for the paper: VCR: Visual Caption Restoration. Check arxiv.org/pdf/2406.06462 for details.

benchmark 深度学习 visual-language-models

Python 31

7 个月前

Sid2697 / HOI-Ref

Code implementation for paper titled "HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision"

dataset dataset-generation large-language-models visual-language-models vlm

Python 29

1 年前

amathislab / wildclip

Scene and animal attribute retrieval from camera trap data with domain-adapted vision-language models

behavior clip 机器视觉 visual-language-models

Python 25

2 年前

sduzpf / UAP_VLP

Universal Adversarial Perturbations for Vision-Language Pre-trained Models

adversarial-attacks 深度神经网络 visual-language-models

Python 21

1 个月前

csebuetnlp / IllusionVQA

This repository contains the data and code of the paper titled "IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models"

visual-language-models vqa

Jupyter Notebook 19

5 个月前

CristianoPatricio / concept-based-interpretability-VLM

#计算机科学#Code for the paper "Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models", ISBI 2024 (Oral).

clip 深度学习 explainable-ai interpretability Medical imaging visual-language-models

Jupyter Notebook 15

1 年前

Linvyl / DAM-QA

[ICCVW 2025] Implementation for DAM-QA: Describe Anything Model for Visual Question Answering on Text-rich Images

visual-language-models

Python 12

7 天前

declare-lab / Sealing

[NAACL 2024] Official Implementation of paper "Self-Adaptive Sampling for Efficient Video Question Answering on Image--Text Models"

video-understanding visual-language-models

Python 12

1 年前

GraphPKU / CoI

#大语言模型#Chain of Images for Intuitively Reasoning

聊天机器人 ChatGPT gpt4v llama llava multimodal visual-language-models

Python 10

2 年前