DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型,无需监督微调即可实现卓越推理能力。
DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型,专注于数学、代码和推理任务。
新一代最强推理模型
OpenAI o3-mini 是 OpenAI 推出的最新高性价比推理模型,专为 STEM 领域优化。
Dolphin R1是一个用于训练推理模型的数据集,包含80万条样本。
s1是一个基于Qwen2.5-32B-Instruct微调的推理模型,仅用1000个样本进行训练。
一个专注于整理最佳开源推理数据集的社区项目
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适