visual-commonsense-reasoning

Recognition to Cognition Networks (code for the model in "From Recognition to Cognition: Visual Commonsense Reasoning", CVPR 2019)

visual reasoning vision vcr visual-commonsense-reasoning commonsense

Python 468

4 年前

guyyariv / vLMIG

#计算机科学#This repo contains the official PyTorch implementation of vLMIG: Improving Visual Commonsense in Language Models via Multiple Image Generation

深度学习 language-model visual-commonsense-reasoning multimodal-deep-learning vision-and-language

Python 16

1 年前

marialymperaiou / knowledge-enhanced-multimodal-learning

A list of research papers on knowledge-enhanced multimodal learning

image-text-matching image-text-retrieval knowledge-graph multimodal-deep-learning multimodal-retrieval vision-and-language vision-and-language-pre-training vision-language-transformer visual-commonsense-reasoning visual-question-answering multi-task-learning

3 年前

baohuyvanba / Vision-Zephyr

Vision-Zephyr: a multimodal LLM for Visual Commonsense Reasoning—CLIP-ViT + Zephyr-7B with visual prompting; code, training scripts, and VCR evaluation.

clip 机器视觉 Python PyTorch transformers vcr vision-language visual-commonsense-reasoning visual-prompting Zephyr RTOS

Python 1

21 天前

Website
Wikipedia