集合主题趋势排行榜

#

proximal-policy-optimization

OpenRLHF / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework based on Ray (PPO & GRPO & REINFORCE++ & vLLM & Ray & Dynamic Sampling & Async Agentic RL)

transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning openai-o1 proximal-policy-optimization

Python 7.93 k

20 小时前

vwxyzjn / cleanrl

#计算机科学#High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)

wandb reinforcement-learning PyTorch Python gym 机器学习 deep-reinforcement-learning 深度学习 atari ale a2c proximal-policy-optimization ppo advantage-actor-critic actor-critic phasic-policy-gradient

Python 7.86 k

2 个月前

ikostrikov / pytorch-a2c-ppo-acktr-gail

#计算机科学#PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) ...

PyTorch reinforcement-learning 深度学习 deep-reinforcement-learning actor-critic advantage-actor-critic a2c ppo proximal-policy-optimization hessian atari mujoco roboschool continuous-control ale

Python 3.83 k

3 年前

nikhilbarhate99 / PPO-PyTorch

#计算机科学#Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch

pytorch-implmention PyTorch pytorch-tutorial proximal-policy-optimization reinforcement-learning-algorithms deep-reinforcement-learning ppo policy-gradient 深度学习 reinforcement-learning

Python 2.17 k

1 年前

Khrylx / PyTorch-RL

PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.

reinforcement-learning policy-gradient pytorch-rl proximal-policy-optimization ppo PyTorch a2c Generative Adversarial Network deep-reinforcement-learning

Python 1.25 k

5 年前

vietnh1009 / Super-mario-bros-PPO-pytorch

#计算机科学#Proximal Policy Optimization (PPO) algorithm for Super Mario Bros

reinforcement-learning ppo ppo2 PyTorch gym Python 深度学习 super-mario-bros mario 人工智能 proximal-policy-optimization openai openai-gym

Python 1.24 k

4 年前

TianhongDai / reinforcement-learning-algorithms

#算法刷题#This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are st...

deep-reinforcement-learning ddpg ppo proximal-policy-optimization 深度学习 actor-critic 算法 dqn flappy-bird a2c atari2600 dueling-dqn PyTorch soft-actor-critic sac

Python 683

5 年前

cpnota / autonomous-learning-library

A PyTorch library for building deep reinforcement learning agents.

reinforcement-learning reinforcement-learning-algorithms deep-reinforcement-learning soft-actor-critic proximal-policy-optimization deep-q-learning advantage-actor-critic deep-deterministic-policy-gradient sac a2c ddpg ppo dqn dqn-pytorch

Python 651

1 年前

ChenglongChen / pytorch-DRL

PyTorch implementations of various Deep Reinforcement Learning (DRL) algorithms for both single agent and multi-agent.

PyTorch deep-reinforcement-learning multi-agent deep-q-network actor-critic advantage-actor-critic a2c proximal-policy-optimization ppo deep-deterministic-policy-gradient ddpg rl dqn reinforcement-learning

Python 598

8 年前

Omegastick / pytorch-cpp-rl

PyTorch C++ Reinforcement Learning

PyTorch C++reinforcement-learning reinforcement-learning-algorithms a2c ppo pytorch-rl pytorch-cpp-frontend libtorch actor-critic advantage-actor-critic proximal-policy-optimization continuous-control

C++ 524

5 年前

idreesshaikh / Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning

#计算机科学#Deep Reinforcement Learning (PPO) in Autonomous Driving (Carla) [from scratch]

autonomous-driving reinforcement-learning self-driving-car deep-reinforcement-learning ppo 深度学习 proximal-policy-optimization carla-simulator openai PyTorch self-driving self-driving-cars

Python 457

2 年前

asieradzk / RL_Matrix

#计算机科学#Deep Reinforcement Learning in C#

深度学习 deep-reinforcement-learning .NET dqn 机器学习 multi-agent multi-agent-reinforcement-learning ppo proximal-policy-optimization reinforcement-learning reinforcement-learning-algorithms reinforcement-learning-environments sac soft-actor-critic

C# 281

2 个月前

miroblog / tf_deep_rl_trader

Trading Environment(OpenAI Gym) + PPO(TensorForce)

ppo proximal-policy-optimization tensorforce trading Tensorflow stock-market

Python 255

3 年前

lcswillems / torch-ac

Recurrent and multi-process PyTorch implementation of deep reinforcement Actor-Critic algorithms A2C and PPO

PyTorch reinforcement-learning actor-critic deep-reinforcement-learning multi-process a2c a3c ppo advantage-actor-critic proximal-policy-optimization recurrent-neural-networks

Python 205

3 年前

MarcoMeter / episodic-transformer-memory-ppo

Clean baseline implementation of PPO using an episodic TransformerXL memory

PyTorch deep-reinforcement-learning ppo transformer proximal-policy-optimization policy-gradient actor-critic transformer-xl

Python 187

1 年前

VachanVY / Reinforcement-Learning

PyTorch implementations of algorithms from "Reinforcement Learning: An Introduction by Sutton and Barto", along with various RL research papers.

reinforcement-learning 人工智能 deep-reinforcement-learning PyTorch actor-critic-algorithm dqn dqn-pytorch policy-gradient deep-deterministic-policy-gradient proximal-policy-optimization

Python 179

1 个月前

MarcoMeter / recurrent-ppo-truncated-bptt

#计算机科学#Baseline implementation of recurrent PPO using truncated BPTT

PyTorch deep-reinforcement-learning ppo recurrent-neural-networks recurrence lstm gru 深度学习 proximal-policy-optimization policy-gradient actor-critic

Jupyter Notebook 151

1 年前

adik993 / ppo-pytorch

#计算机科学#Proximal Policy Optimization(PPO) with Intrinsic Curiosity Module(ICM)

reinforcement-learning ppo PyTorch icm proximal-policy-optimization 深度学习

Python 147

7 年前

loading...

Website
Wikipedia