multimodal-deep-learning · GitHub Topics

#计算机科学#LAVIS - A One-stop Library for Language-Vision Intelligence

深度学习 deep-learning-library image-captioning salesforce vision-and-language vision-framework vision-language-pretraining vision-language-transformer visual-question-anwsering multimodal-datasets multimodal-deep-learning

Jupyter Notebook 10.89 k

10 个月前

AI4Finance-Foundation / FinRobot

#大语言模型#FinRobot: An Open-Source AI Agent Platform for Financial Analysis using LLMs 🚀 🚀 🚀

aiagent fingpt ChatGPT finance large-language-models multimodal-deep-learning prompt-engineering robo-advisor

Jupyter Notebook 4.1 k

10 个月前

Yutong-Zhou-cv / Awesome-Text-to-Image

(ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

Generative Adversarial Network text-to-image image-synthesis image-generation survey image-manipulation multimodal multimodal-deep-learning

2.38 k

13 天前

KimMeen / Time-LLM

#计算机科学#[ICLR 2024] Official implementation of " 🦙 Time-LLM: Time Series Forecasting by Reprogramming Large Language Models"

cross-modal-learning cross-modality 深度学习 language-model large-language-models 机器学习 multimodal-deep-learning multimodal-time-series prompt-tuning time-series time-series-analysis time-series-forecasting

Python 2.25 k

10 个月前

kyegomez / BitNet

#计算机科学#Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

人工智能深度神经网络深度学习 gpt4 机器学习 multimodal multimodal-deep-learning

Python 1.88 k

7 天前

AlibabaResearch / AdvancedLiterateMachinery

A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

C++ 1.77 k

5 个月前

DWCTOD / CVPR2024-Papers-with-Code-Demo

#大语言模型#收集 CVPR 最新的成果，包括论文、代码和demo视频等，欢迎大家推荐！Collect the latest CVPR (Conference on Computer Vision and Pattern Recognition) results, including papers, code, and demo videos, etc., and welcome recommendations...

cvpr2021 cvpr 机器视觉 cvpr2022 cvpr2023 cvpr2024 大语言模型 multimodal-deep-learning object-detection segment-anything segmentation

1.39 k

1 年前

jrzaurin / pytorch-widedeep

#计算机科学#A flexible package for multimodal-deep-learning to combine tabular data with text and images using Wide and Deep models in Pytorch

PyTorch tabular-data text Image multimodal-deep-learning pytorch-nlp pytorch-transformers 深度学习 model-hub Python

Python 1.37 k

2 个月前

yuewang-cuhk / awesome-vision-language-pretraining-papers

Recent Advances in Vision and Language PreTrained Models (VL-PTMs)

vision-and-language pretraining multimodal-deep-learning bert

1.16 k

3 年前

TheShadow29 / awesome-grounding

#自然语言处理#awesome grounding: A curated list of research papers in visual grounding

机器视觉自然语言处理 grounding Awesome Lists papers arxiv video-understanding captioning-videos embodied-agent multimodal-deep-learning language-grounding Bukkit

1.11 k

2 个月前

declare-lab / multimodal-deep-learning

This repository contains various models targetting multimodal representation learning, multimodal fusion for downstream tasks such as multimodal sentiment analysis.

multimodal-deep-learning multimodal-learning multimodal-interactions

OpenEdge ABL 865

3 年前

richard-peng-xia / awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

Medical imaging multimodal-deep-learning multimodal-learning visual-question-answering large-language-models large-multimodal-models multimodal-large-language-models

823

20 天前

omriav / blended-latent-diffusion

#计算机科学#Official implementation for "Blended Latent Diffusion" [SIGGRAPH 2023]

深度学习 multimodal multimodal-deep-learning text-to-image text-to-image-synthesis 机器视觉 diffusion diffusion-models generative-model image-generation PyTorch text-driven-editing

Jupyter Notebook 617

1 年前

MMMU-Benchmark / MMMU

#自然语言处理#This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"