强化学习

增强 LLM 的可用性和安全性，Starling-7B官网入口网址

用于测量和训练 AI 通用智能的软件平台，OpenAI Universe官网入口网址

rllab是一个用于开发和评估强化学习算法的框架，支持自定义环境的实现和与OpenAI Gym的集成，适用于学术研究和工业应用，RLLab官网入口网址

Gym Retro是一个用于游戏强化学习研究的平台，提供了超过1000个游戏的环境，支持泛化研究和多种游戏主机，Gym Retro官网入口网址

Reinforcement Learning Coach是一款强大的Python框架，可以模拟智能体与环境之间的交互，并通过组合不同的构建模块来建模智能体。支持多环境训练，提供多种强化学习算法，收集统计数据并支持高级可视化技术，Coach官网入口网址

Dopamine是一个用于快速原型开发强化学习算法的研究框架，旨在提供一个小型、易于理解的代码库，用户可以自由地尝试各种想法（探索性研究），Dopamine官网入口网址

SERL是一个高效的机器人强化学习软件套件，SERL官网入口网址

Sparrow是一款信息查询对话代理，通过强化学习和人类反馈训练模型，提供更加有帮助、正确和无害的对话服务。它通过分解对话要求为自然语言规则，并提供支持事实性声明的来源证据，使得代理行为更加可靠和可信，Deepmind Sparrow AI官网入口网址

多语言对话生成模型，Meta-Llama-3.1-8B-Instruct官网入口网址