self-play

#计算机科学#A clean implementation based on AlphaZero for any game in any framework + tutorial + Othello/Gobang/TicTacToe/Connect4 and more

Tensorflow PyTorch Keras gobang alpha-zero alphago-zero alphago reinforcement-learning self-play mcts monte-carlo-tree-search 深度学习 alphazero 神经网络

Jupyter Notebook 4.24 k

8 个月前

opendilab / DI-engine

OpenDILab Decision AI Engine. The Most Comprehensive Reinforcement Learning Framework B.P.

reinforcement-learning multiagent-reinforcement-learning self-play imitation-learning inverse-reinforcement-learning exploration-exploitation distributed-system Python impala smac atari mujoco r2d2 reinforcement-learning-algorithms pytorch-rl model-based-reinforcement-learning

Python 3.51 k

2 个月前

opendilab / LightZero

[NeurIPS 2023 Spotlight] LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios (awesome MCTS)

alphazero atari continuous-control monte-carlo-tree-search muzero PyTorch reinforcement-learning mcts board-game gym self-play

Python 1.43 k

4 天前

opendilab / DI-star

#计算机科学#An artificial intelligence platform for the StarCraft II with large-scale distributed training and grand-master agents.

reinforcment-learning starcraft2 self-play 人工智能深度学习 league deep-reinforcement-learning

Python 1.29 k

6 个月前

uclaml / SPIN

#计算机科学#The official implementation of Self-Play Fine-Tuning (SPIN)

深度学习 fine-tuning large-language-models self-play

Python 1.2 k

1 年前

uclaml / SPPO

#计算机科学#The official implementation of Self-Play Preference Optimization (SPPO)

深度学习 fine-tuning large-language-models rlhf self-play

Python 580

8 个月前

inspirai / TimeChamber

A Massively Parallel Large Scale Self-Play Framework

deep-reinforcement-learning reinforcement-learning self-play multi-agent

Python 353

3 年前

ChuaCheowHuan / gym-continuousDoubleAuction

A custom MARL (multi-agent reinforcement learning) environment where multiple agents trade against one another (self-play) in a zero-sum continuous double auction. Ray [RLlib] is used for training.

multi-agent-reinforcement-learning gym-environment limit-order-book high-frequency-trading ray rllib financial-engineering self-play ppo quantitative-finance quantitative-trading marl lstm

Jupyter Notebook 150

20 天前

spiral-rl / spiral

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

large-language-models self-play multi-agent-reinforcement-learning reinforcement-learning

Python 143

14 天前

Naton1 / osrs-pvp-reinforcement-learning

#计算机科学#Train a neural network to PvP in Old School RuneScape using reinforcement learning.

人工智能深度学习 gym Java 机器学习 oldschool-runescape osrs ppo Python PyTorch reinforcement-learning rsps runescape self-play

Java 129

2 年前

blanyal / alpha-zero

#计算机科学#AlphaZero implementation for Othello, Connect-Four and Tic-Tac-Toe based on "Mastering the game of Go without human knowledge" and "Mastering Chess and Shogi by Self-Play with a General Reinforcement ...

alphazero alpha-zero alphago-zero Tensorflow reinforcement-learning mcts self-play game 深度学习机器学习 resnet tic-tac-toe deepmind

Python 90

7 年前