一个用于强化学习人类反馈训练过程可视化的工具,帮助深度理解与调试。
医疗领域复杂推理的大型语言模型
基于PRIME方法训练的7B参数语言模型,专为提升推理能力而设计。
一个开放源代码的 14B 参数编程模型,具备高效的代码推理能力。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
一种无需搜索即可激励 LLM 搜索能力的框架。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适