集合主题趋势排行榜

#

visual-question-answering

salesforce / BLIP

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering vision-language-transformer

Jupyter Notebook 5.48 k

1 年前

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

multimodal pretraining image-captioning text-to-image-synthesis visual-question-answering referring-expression-comprehension vision-language pretrained-models prompt prompt-tuning 中文

Python 2.53 k

1 年前

peteanderson80 / bottom-up-attention

Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

vqa visual-question-answering faster-rcnn caffe image-captioning mscoco

Jupyter Notebook 1.45 k

3 年前

lucidrains / flamingo-pytorch

#计算机科学#Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention net out of Deepmind, in Pytorch

人工智能 attention-mechanism 深度学习 transformers visual-question-answering

Python 1.26 k

3 年前

YehLi / xmodaler

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense r...

image-captioning video-captioning vision-and-language pretraining cross-modal-retrieval visual-question-answering tden

Python 968

3 年前

richard-peng-xia / awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

Medical imaging multimodal-deep-learning multimodal-learning visual-question-answering large-language-models large-multimodal-models multimodal-large-language-models

823

21 天前

jnhwkim / ban-vqa

Bilinear attention networks for visual question answering

visual-question-answering attention pytorch-implmention

Python 545

2 年前

MMMU-Benchmark / MMMU

#自然语言处理#This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

机器视觉深度学习深度神经网络 evaluation foundation-models large-language-models large-multimodal-models 大语言模型机器学习 multimodal multimodal-deep-learning multimodal-learning multimodality 自然语言处理 question-answering STEM visual-question-answering

Python 491

4 个月前

MILVLG / mcan-vqa

Deep Modular Co-Attention Networks for Visual Question Answering

visual-question-answering attention

Python 455

5 年前

zjukg / KG-MM-Survey

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

cross-modal-retrieval Entity resolution image-classification image-generation information-extraction knowledge-graph knowledge-graph-embeddings large-language-models multi-modal-learning paper-list survey surveys visual-question-answering awsome

445

9 个月前

davidmascharka / tbd-nets

#计算机科学#PyTorch implementation of "Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning"

机器学习 PyTorch 可视化深度学习 visual-question-answering vqa neural-networks

Jupyter Notebook 348

4 年前

lupantech / MathVista

#计算机科学#MathVista: data, code, and evaluation for Mathematical Reasoning in Visual Contexts

large-language-models 机器学习数学 science visual-question-answering

Jupyter Notebook 331

10 个月前

MILVLG / openvqa

#计算机科学#A lightweight, scalable, and general framework for visual question answering research

visual-question-answering vqa PyTorch 深度学习 benchmark

Python 327

4 年前

MILVLG / prophet

Implementation of CVPR 2023 paper "Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering".

gpt-3 multimodal-deep-learning prompt-engineering PyTorch visual-question-answering

Python 277

3 个月前

Cyanogenoid / pytorch-vqa

Strong baseline for visual question answering

PyTorch vqa visual-question-answering baseline

Python 241

3 年前

qiantianwen / NuScenes-QA

[AAAI 2024] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario.

autonomous-driving vision-language visual-question-answering

Python 207

10 个月前

MMStar-Benchmark / MMStar

#大语言模型#[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation large-language-models large-multimodal-models large-vision-language-model large-vision-language-models 大语言模型 multimodal multimodal-learning multimodality visual-question-answering

Python 194

1 年前

Yushi-Hu / tifa

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

image-to-text large-language-models text-to-image visual-question-answering

Python 173

1 年前

markdtw / vqa-winner-cvprw-2017

Pytorch implementation of winner from VQA Chllange Workshop in CVPR'17

PyTorch visual-question-answering

Python 163

7 年前

loading...

Website
Wikipedia