强化学习

HOMIE 是一种新型的人形机器人遥操作系统，集成人体运动捕捉与强化学习训练框架，用于实现精准的行走与操作任务。

VLM-R1 是一个稳定且通用的强化视觉语言模型，专注于视觉理解任务。

MultiOn的Agent Q为自主网络代理设定了一个新的重要里程碑，结合了先进的搜索技术、AI自我批评和强化学习来克服当前的限制，代表着自主代理能力的重大飞跃，Agent Q官网入口网址

一种无需搜索即可激励 LLM 搜索能力的框架。

医疗领域复杂推理的大型语言模型

通过强化学习微调大型视觉-语言模型作为决策代理

AiJuh.com（AI工具集）整理了 1000+ 的AI工具，每天更新最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你进入AI时代，提高生活、工作和学习的效率！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。