self-rewarding

#计算机科学#Implementation of the training framework proposed in Self-Rewarding Language Model, from MetaAI

Python 1.4 k

1 年前

SQL-o1: A Self-Reward Heuristic Dynamic Search Method for Text-to-SQL

Python 191

4 个月前

Reinforcement Learning of Vision Language Models with Self Visual Perception Reward

Python 120

3 天前

Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning

Python 15

3 个月前

#大语言模型#SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data

Python 13

14 天前

#大语言模型#Class-Conditional self-reward mechanism for improved Text-to-Image models

Jupyter Notebook 7

1 年前