集合主题趋势排行榜

multimodal-ai

duixcom / Duix-Avatar

Heygem是一款专为Windows系统设计的全离线视频合成工具，它能够精确克隆您的外貌和声音，让您的形象数字化。您可以通过文字和语音驱动虚拟形象，进行视频制作。无需联网，保护隐私的同时，也能享受到便捷和高效的数字体验。

ai-avatar ai-avatars digital-human video-generation cloning cloning-tool multimodal-ai video-synthesis

C 11.42 k

17 天前

NeuralNodeOne814 / LocalineAI

LocalineAI brings powerful AI capabilities directly to your Windows terminal while keeping your data completely private and secure. No cloud dependencies, no data sharing - just pure AI power at your ...

ai-assistant 人工智能 cli-tool code-generation generative-ai image-generation local-ai local-llm multimodal-ai open-source-ai text-generation

290

5 个月前

CyberLinkGamma314 / LocalineAI

ai-assistant 人工智能 cli-tool code-generation generative-ai image-generation local-ai local-llm multimodal-ai open-source-ai text-generation

289

5 个月前

BinarySyncBeta995 / LocalineAI

ai-assistant 人工智能 cli-tool code-generation generative-ai image-generation local-ai local-llm multimodal-ai open-source-ai text-generation

287

5 个月前

NanoNetGamma531 / LocalineAI

ai-assistant 人工智能 cli-tool code-generation generative-ai image-generation local-ai local-llm multimodal-ai open-source-ai text-generation

268

5 个月前

Denis2054 / Building-Business-Ready-Generative-AI-Systems

This GitHub repository contains the complete code for building Business-Ready Generative AI Systems (GenAISys) from scratch. It guides you through architecting and implementing advanced AI controllers...

ai-agents chain-of-thought deepseek-r1 大语言模型 multi-agent-systems multimodal-ai rag context-engineering agentic-ai

Jupyter Notebook 103

2 个月前

thubZ09 / multimodal-research

#自然语言处理#Hub for researchers exploring VLMs and Multimodal Learning:)

机器视觉 multimodal-learning vision-language 深度学习机器学习 multimodal-ai multimodal-deep-learning multimodal-large-language-models vlms 自然语言处理 research

10 天前

seehiong / prompt-to-puzzle

A web app that dynamically generates playable 'Spot the Difference' games from a single text prompt using a multimodal pipeline with Google's Gemini and Imagen models.

Appwrite 机器视觉 game generative-ai generative-art google-ai-studio Cloud Run google-gemini html5-canvas multimodal-ai puzzle-game React text-to-image TypeScript

TypeScript 32

1 个月前

Livyatan-melvillei / ai-clips-maker

AI-powered tool to turn long videos into short, viral-ready clips. Combines transcription, speaker diarization, scene detection & 9:16 resizing — perfect for creators & smart automation.

automatic-speech-recognition multimodal-ai video-transcription

Python 25

2 个月前

sinanuozdemir / oreilly-multimodal-ai

Learn how multimodal AI merges text, image, and audio for smarter models

dalle-3 diffusion dreambooth generative-ai llama3 llava multimodal multimodal-ai openai stable-diffusion

Jupyter Notebook 25

9 个月前

neocortex-link / neocortex-unity-sdk

Neocortex Unity SDK for Smart NPCs and Virtual Assistants

人工智能 ai-tools conversational-ai game-ai 游戏开发 multimodal-ai npc smart-agents ai-agent ai-agents aiagent aiagents

C# 23

18 天前

microsoft / multimodal-ai

Enterprise-ready solution leveraging multimodal Generative AI (Gen AI) to enhance existing or new applications beyond text—implementing RAG, image classification, video analysis, and advanced image em...

人工智能 Azure Python azure-ai multimodal-ai video-analysis

HCL 16

1 个月前

alperensumeroglu / ai-clips-maker

AI-powered tool to turn long videos into short, viral-ready clips. Combines transcription, speaker diarization, scene detection & 9:16 resizing — perfect for creators & smart automation.

audio-analysis automatic-speech-recognition face-tracking multimodal-ai openai-whisper speaker-diarization video-transcription

Python 15

6 个月前

kiranbaby14 / TalkMateAI

🎭 Real-time voice-controlled 3D avatar with multimodal AI - speak naturally and watch your AI companion respond with perfect lip-sync

FastAPI multimodal-ai Next vlm WebSocket huggingface kokoro-tts whisper-ai

TypeScript 10

3 个月前

NxtGenLegend / TreeHacks-ZoneOut

#自然语言处理##3 Winner of Best Use of Zoom API at Stanford TreeHacks 2025! An AI-powered meeting assistant that captures video, audio and textual context from Zoom calls using multimodal RAG.

ai-assistant 人工智能 audio-processing conversational-ai Hackathon JavaScript 机器学习 meeting-assistant multimodal-ai 自然语言处理 rag speech-recognition video-analysis visual-language-models vlm WebSocket zoom-api

JavaScript 7

8 个月前

Sh1nr1 / mai-ai-assistant-self-hosted

#大语言模型#Mai is an emotionally intelligent, voice-enabled AI assistant built with FastAPI, Together.ai LLMs, memory persistence via ChromaDB, and real-time sentiment analysis. Designed to feel alive, empatheti...

ai-assistant async-python 聊天机器人 chromadb emotion-recognition FastAPI 大语言模型 memory-management multimodal-ai openai-whisper sentiment-analysis tts voice-ai

Python 6

4 个月前

VectorInstitute / VLDBench

#自然语言处理#VLDBench: A large-scale benchmark for evaluating Vision-Language Models (VLMs) and Large Language Models (LLMs) on multimodal disinformation detection.

ai-safety benchmark-framework benchmarking 机器视觉数据集深度学习大语言模型机器学习 multimodal-ai 自然语言处理 vlms

Python 6

4 个月前

debanjan06 / geospatial-rag

#计算机科学#AI Framework for Remote Sensing Image Analysis using RAG - 88%+ accuracy, multi-modal queries, ChatGPT-like interface

clip 机器视觉 earth-observation embeddings geospatial langchain 机器学习 multimodal-ai PyTorch rag remote-sensing

Python 5

3 个月前

AHMEDSANA / PaliGemma-flickr8k-finetuning

#自然语言处理#This repository contains code for fine-tuning Google's PaliGemma vision-language model on the Flickr8k dataset for image captioning tasks

机器视觉深度学习 fine-tuning flax image-captioning 图像处理 jax kaggle 机器学习自然语言处理 paligemma Python vision-language-model 人工智能 compter-vision image-annotation multimodal-ai PyTorch transfer-learning

Jupyter Notebook 2

5 个月前

UjjwalSaini07 / OllamaMulti-RAG

#大语言模型#OllamaMulti-RAG 🚀 is a multimodal AI chat app combining Whisper AI for audio, LLaVA for images, and Chroma DB for PDFs, enhanced with Ollama and OpenAI API. 📄 Built for AI enthusiasts, it welcomes c...

ai-chatbot audio-transcription chat-application image-understanding langchain multimodal-ai ollama openai pdf-processing rag vector-database Whisper 大语言模型 trend trending-topics

Python 2

1 个月前

Website
Wikipedia