推理模型

新一代最强推理模型

s1是一个基于Qwen2.5-32B-Instruct微调的推理模型，仅用1000个样本进行训练。

DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

OpenAI o3-mini 是 OpenAI 推出的最新高性价比推理模型，专为 STEM 领域优化。

一款 21B 通用推理模型，适合低延迟应用。

DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型，专注于数学、代码和推理任务。

Dolphin R1是一个用于训练推理模型的数据集，包含80万条样本。

一个专注于整理最佳开源推理数据集的社区项目

UIGEN-T1-Qwen-7b 是一个基于 Qwen2.5-Coder-7B-Instruct 的 70 亿参数模型，用于推理生成 HTML 和 CSS 基础的 UI 组件。

Steiner 是一个基于合成数据训练的推理模型，旨在探索多种推理路径并自主验证。

业界首个超大规模混合 Mamba 推理模型，强推理能力。

一个通用框架，用于在测试时调节大型推理模型的思维进度。