增强 LLM 的可用性和安全性,Starling-7B官网入口网址
用于测量和训练 AI 通用智能的软件平台,OpenAI Universe官网入口网址
rllab是一个用于开发和评估强化学习算法的框架,支持自定义环境的实现和与OpenAI Gym的集成,适用于学术研究和工业应用,RLLab官网入口网址
Gym Retro是一个用于游戏强化学习研究的平台,提供了超过1000个游戏的环境,支持泛化研究和多种游戏主机,Gym Retro官网入口网址
Reinforcement Learning Coach是一款强大的Python框架,可以模拟智能体与环境之间的交互,并通过组合不同的构建模块来建模智能体。支持多环境训练,提供多种强化学习算法,收集统计数据并支持高级可视化技术,Coach官网入口网址
Dopamine是一个用于快速原型开发强化学习算法的研究框架,旨在提供一个小型、易于理解的代码库,用户可以自由地尝试各种想法(探索性研究),Dopamine官网入口网址
SERL是一个高效的机器人强化学习软件套件,SERL官网入口网址
Sparrow是一款信息查询对话代理,通过强化学习和人类反馈训练模型,提供更加有帮助、正确和无害的对话服务。它通过分解对话要求为自然语言规则,并提供支持事实性声明的来源证据,使得代理行为更加可靠和可信,Deepmind Sparrow AI官网入口网址
多语言对话生成模型,Meta-Llama-3.1-8B-Instruct官网入口网址
医疗领域复杂推理的大型语言模型
开源的先进语言模型后训练框架
通过强化学习微调大型视觉-语言模型作为决策代理
金融市场模拟引擎,由生成式基础模型驱动
一个尝试复现OpenAI O1模型的编程辅助工具
智谱深度推理模型,擅长数理逻辑和代码推理
基于PRIME方法训练的7B参数语言模型,专为提升推理能力而设计。
总奖金超 233 万!
报名即将截止