GitHub 中文社区

回车: Github搜索 Shift+回车: Google搜索

©2025 GitHub中文社区论坛 GitHub官网网站地图 GitHub官方翻译

GitHub on X
GitHub on Facebook
GitHub on LinkedIn
GitHub on YouTube
GitHub on Twitch
GitHub on TikTok
GitHub’s organization on GitHub

集合主题趋势排行榜

#

vision-and-language-pre-training

Website
Wikipedia

OFA-Sys / Chinese-CLIP

#自然语言处理#本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务

中文机器视觉 multi-modal-learning 自然语言处理 PyTorch vision-and-language-pre-training image-text-retrieval clip pretrained-models vision-language 深度学习 multi-modal contrastive-loss transformers coreml-models

Jupyter Notebook 5.5 k

17 天前

salesforce / BLIP

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering vision-language-transformer

Jupyter Notebook 5.48 k

1 年前

phellonchen / awesome-Vision-and-Language-Pre-training

Recent Advances in Vision and Language Pre-training (VLP)

vision-and-language-pre-training vision-and-language pretraining multimodal-deep-learning

294

2 年前

zhjohnchan / awesome-vision-and-language-pretraining

A curated list of vision-and-language pre-training (VLP). :-)

multi-modal-learning pre-training vision-and-language-pre-training

59

3 年前

mala-lab / SIC-CADS

Code Implementation of "Simple Image-level Classification Improves Open-vocabulary Object Detection" (AAAI'24)

object-detection open-vocabulary-detection vision-and-language-pre-training vision-language-model foundation-models

Python 27

2 年前

PrithivirajDamodaran / vision-language-modelling-series

Companion Repo for the Vision Language Modelling YouTube series - https://bit.ly/3PsbsC2 - by Prithivi Da. Open to PRs and collaborations

multimodal-deep-learning multimodal-interactions vision-and-language vision-and-language-pre-training

Jupyter Notebook 14

3 年前

JianqiangWan / VLPT-STD

Vision-Language Pre-Training for Boosting Scene Text Detectors (CVPR2022)

vision-and-language-pre-training scene-text-detection multimodal-deep-learning

12

3 年前

marialymperaiou / knowledge-enhanced-multimodal-learning

A list of research papers on knowledge-enhanced multimodal learning

image-text-matching image-text-retrieval knowledge-graph multimodal-deep-learning multimodal-retrieval vision-and-language vision-and-language-pre-training vision-language-transformer visual-commonsense-reasoning visual-question-answering multi-task-learning

7

3 年前

SHTUPLUS / GITM-MR

The official implementation for the ICCV 2023 paper "Grounded Image Text Matching with Mismatched Relation Reasoning".

vision-and-language vision-language-model vision-and-language-pre-training

Python 6

2 年前

jyoung105 / koSigLIP

#自然语言处理#Korean version of CLIP which achieves Korean cross-modal retrieval and representation generation.

机器视觉 contrastive-loss coreml-models 深度学习 image-text-retrieval korean multi-modal multi-modal-learning 自然语言处理 pretrained-models PyTorch transformers vision-and-language-pre-training vision-language

0

10 个月前