audio-visual-speech-recognition

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

conformer PyTorch speech-recognition paraformer punctuation speaker-diarization rnnt audio-visual-speech-recognition pretrained-model voice-activity-detection Whisper dfsmn vad speechgpt speechllm

Python 12.59 k

6 天前

smeetrs / deep_avsr

A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper.

audio-visual-speech-recognition speech-recognition automatic-speech-recognition speech-to-text

Python 235

2 年前

ankurbhatia24 / MULTIMODAL-EMOTION-RECOGNITION

#计算机科学#Human Emotion Understanding using multimodal dataset.

深度学习机器学习 Keras audio-visual-speech-recognition Python Tensorflow librosa

Jupyter Notebook 102

5 年前

umbertocappellazzo / Llama-AVSR

[ICASSP 2025] Official Pytorch implementation of "Large Language Models are Strong Audio-Visual Speech Recognition Learners".

audio-visual-speech-recognition large-language-models

Python 32

2 个月前

georgesterpu / Taris

#计算机科学#Transformer-based online speech recognition system with TensorFlow 2

online speech-recognition audio-visual-speech-recognition multimodal multimodal-deep-learning transformer Tensorflow tensorflow2 Python mahcine-learning 深度学习

Python 26

5 年前

Sreyan88 / LipGER

#大语言模型#Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

audio-visual-speech-recognition generative-ai 大语言模型 prompting speech-recognition

Python 17

1 年前

sungnyun / avsr-temporal-dynamics

(SLT 2024) Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

audio-visual-speech-recognition

Python 13

1 年前

david-gimeno / tailored-avsr

Official source code for the paper "Tailored Design of Audio-Visual Speech Recognition Models using Branchformers"

audio-visual-speech-recognition interpretability

Python 13

7 个月前

sungnyun / cav2vec

(ICLR 2025) Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation

audio-visual-speech-recognition self-supervised-learning

Python 12

5 个月前

aidayang / FunASR-OneClick

FunASR实时语音识别版，识别麦克风和电脑内播放的声音，电脑语音打字软件

audio-visual-speech-recognition conformer dfsmn paraformer pretrained-models punctuation PyTorch rnnt speaker-diarization speech-recognition speechgpt speechllm vad voice-activity-detection Whisper

3 天前

lzuwei / end-to-end-multiview-lipreading

#计算机科学#End to End Multiview Lip Reading

audio-visual-speech-recognition 深度学习 end-to-end-learning

Python 10

8 年前

hmeutzner / kaldi-avsr

Kaldi-based audio-visual speech recognition

speech-recognition kaldi 深度神经网络 asr audio-visual-speech-recognition

Shell 6

3 年前

karlsimsBBC / cassette-bot

🤖 📼 Command-line tool for remixing videos with time-coded transcriptions.

text-to-video audio-visual-speech-recognition Video

Python 5

6 年前

zulfiqar-ali01 / audio-visual-Transcription

Real-Time Audio-visual Speech Recongition

audio-processing audio-visual-speech-recognition

Python 4

1 年前

luomingshuang / lipreading_with_icefall

In this repository, I try to use k2, icefall and Lhotse for lip reading. I will modify it for the lip reading task. Many different lip-reading datasets should be added. -_-

audio-visual-speech-recognition

Python 2

3 年前