强化学习

Starling-7B

增强 LLM 的可用性和安全性，Starling-7B官网入口网址

OpenAI Universe

用于测量和训练 AI 通用智能的软件平台，OpenAI Universe官网入口网址

RLLab

rllab是一个用于开发和评估强化学习算法的框架，支持自定义环境的实现和与OpenAI Gym的集成，适用于学术研究和工业应用，RLLab官网入口网址

Gym Retro

Gym Retro是一个用于游戏强化学习研究的平台，提供了超过1000个游戏的环境，支持泛化研究和多种游戏主机，Gym Retro官网入口网址

Coach

Reinforcement Learning Coach是一款强大的Python框架，可以模拟智能体与环境之间的交互，并通过组合不同的构建模块来建模智能体。支持多环境训练，提供多种强化学习算法，收集统计数据并支持高级可视化技术，Coach官网入口网址

Dopamine

Dopamine是一个用于快速原型开发强化学习算法的研究框架，旨在提供一个小型、易于理解的代码库，用户可以自由地尝试各种想法（探索性研究），Dopamine官网入口网址

SERL

SERL是一个高效的机器人强化学习软件套件，SERL官网入口网址

Deepmind Sparrow AI

Sparrow是一款信息查询对话代理，通过强化学习和人类反馈训练模型，提供更加有帮助、正确和无害的对话服务。它通过分解对话要求为自然语言规则，并提供支持事实性声明的来源证据，使得代理行为更加可靠和可信，Deepmind Sparrow AI官网入口网址

Eurus-2-7B-PRIME

基于PRIME方法训练的7B参数语言模型，专为提升推理能力而设计。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型，适用于多种文本生成任务。

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型，适用于文本生成和推理任务。

Tülu 3

开源的先进语言模型后训练框架

CUA

CUA 是一种能够通过图形界面与数字世界交互的通用接口。

MarS

金融市场模拟引擎，由生成式基础模型驱动

NotaGen

NotaGen 是一个用于符号音乐生成的模型，采用大语言模型训练范式，专注于生成高质量古典乐谱。

悟道·天鹰（Aquila）

悟道·天鹰（Aquila）是智源研究院开源的中英双语语言大模型，具备强大的语言理解和生成能力。模型在设计上注重商用和数据合规性，同时提供持续的开源更新和技术支持，悟道·天鹰（Aquila）官网入口网址

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型，适用于多种推理和生成任务。

RLLoggingBoard

一个用于强化学习人类反馈训练过程可视化的工具，帮助深度理解与调试。

Kimi k1.5

Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

Meta-Llama-3.1-8B-Instruct

多语言对话生成模型，Meta-Llama-3.1-8B-Instruct官网入口网址

SWE-RL

通过强化学习提升大型语言模型在开源软件演变中的推理能力

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型，专注于数学、代码和推理任务。

DeepCoder

一个开放源代码的 14B 参数编程模型，具备高效的代码推理能力。

Light-R1-14B-DS

一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

DeepScaleR-1.5B-Preview

一个基于强化学习优化的大型语言模型，专注于数学问题解决能力的提升。

NovaSky

NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。

Steiner-32b-preview

Steiner 是一个基于合成数据训练的推理模型，旨在探索多种推理路径并自主验证。

混元T1

业界首个超大规模混合 Mamba 推理模型，强推理能力。

HOMIEtele

HOMIE 是一种新型的人形机器人遥操作系统，集成人体运动捕捉与强化学习训练框架，用于实现精准的行走与操作任务。

O1-CODER

一个尝试复现OpenAI O1模型的编程辅助工具

强化学习

OpeniTab