Drift dolphin-r1:用于训练 R1 风格模型的数据集 总共 800k 个样本数据集,其组成与用于训练 DeepSeek-R1 Distill 模型的数据相似。 来自 DeepSeek-R1 的 30 万 30 万来自 Gemini 2.0 闪存思维 来自海豚聊天的 20 万。