reinforcement-learning-from-human-feedback

An Easy-to-use, Scalable and High-performance RLHF Framework based on Ray (PPO & GRPO & REINFORCE++ & vLLM & Ray & Dynamic Sampling & Async Agentic RL)

transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning openai-o1 proximal-policy-optimization

Python 7.93 k

9 小时前

PKU-Alignment / safe-rlhf

#数据仓库#Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

ai-safety alpaca 数据集 deepspeed large-language-models llama 大语言模型 reinforcement-learning reinforcement-learning-from-human-feedback rlhf transformers vicuna safety gpt transformer beaver

Python 1.53 k

7 天前

tatsu-lab / alpaca_farm

#自然语言处理#A simulation framework for RLHF and alternatives. Develop your RLHF method without collecting human data.

深度学习 instruction-following large-language-models reinforcement-learning-from-human-feedback 自然语言处理

Python 825

1 年前

openpsi-project / ReaLHF

#大语言模型#Super-Efficient RLHF Training of LLMs with Parameter Reallocation

大语言模型 llm-training reinforcement-learning-from-human-feedback reinforcement-learning distributed-systems distributed-computing large-language-models llm-framework deepspeed transformers

Python 315

5 个月前

nlp-uoregon / Okapi

#自然语言处理#Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

bloom 聊天机器人 dataset instruction-tuning language-model large-language-models multilingual 自然语言处理 question-answering reinforcement-learning reinforcement-learning-from-human-feedback rlhf llama

Python 97

2 年前

liushunyu / awesome-direct-preference-optimization

#大语言模型#A Survey of Direct Preference Optimization (DPO)

alignment 大语言模型 large-language-models reinforcement-learning-from-human-feedback dpo 代码审查 survey

2 个月前

martin-wey / CodeUltraFeedback

CodeUltraFeedback: aligning large language models to coding preferences (TOSEM 2025)

code-generation dpo large-language-models llm-as-a-judge reinforcement-learning-from-human-feedback

Python 72

1 年前

tlc4418 / llm_optimization

#计算机科学#A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

深度学习 large-language-models reinforcement-learning-from-human-feedback

Python 45

8 个月前

CJReinforce / RIME_ICML2024

#计算机科学#Official code for ICML 2024 paper, "RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences" (ICML 2024 Spotlight)

人工智能深度学习 reinforcement-learning reinforcement-learning-from-human-feedback locomotion manipulation Robotics

Python 34

1 年前

clam004 / minichatgpt

#自然语言处理#annotated tutorial of the huggingface TRL repo for reinforcement learning from human feedback connecting equations from PPO and GAE to the lines of code in the pytorch implementation

深度学习 deep-reinforcement-learning fine-tuning language-model large-language-models 自然语言处理 PyTorch reinforcement-learning transformers reinforcement-learning-from-human-feedback

Jupyter Notebook 20

5 个月前

WHUNextGen / LLMindCraft

Shaping Language Models with Cognitive Insights

Docker instruct-tuning large-language-models pretraining reinforcement-learning-from-human-feedback deepspeed transformers

Python 14

2 年前

ymetz / rlhfblender

RLHF-Blender: A Configurable Interactive Interface for Learning from Diverse Human Feedback

experimentation Python React reinforcement-learning reinforcement-learning-from-human-feedback

Python 13

12 天前

flint-xf-fan / Federated-RLHF

[AAMAS 2025] Privacy-preserving and Personalized RLHF, with convergence guarantees. The Code contains experiments for training multiple instances of GPT-2 for personalized sentiment aligned text gener...

大语言模型 reinforcement-learning-from-human-feedback rft rlhf

Python 10

5 个月前

rosinality / halite

Acceleration framework for Human Alignment Learning

evaluation-framework inference large-language-models proximal-policy-optimization reinforcement-learning reinforcement-learning-from-human-feedback transformers

Python 10

12 天前

liushunyu / Ask-AC

[TSMC] Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework

reinforcement-learning reinforcement-learning-from-human-feedback

Python 8

1 年前

SJ9VRF / Reinforcement-Learning-for-Human-Feedback-RLHF

This repository contains the implementation of a Reinforcement Learning with Human Feedback (RLHF) system using custom datasets. The project utilizes the trlX library for training a preference model t...

language-model 大语言模型 reinforcement-learning-from-human-feedback rlhf

Python 5

1 年前