+
 新版
2026-03-11 17:39
快手这波操作太牛啦坐等更多应用
2026-03-11 17:04
8B封顶GPPO yyds冲
2026-03-11 11:00
快手这波操作太牛啦坐等更多应用
2026-03-11 08:47
格局打开GPPO算法细节全放出来了8B干翻蒸馏版确实有点东西社区又能卷新范式了
2025-12-21 17:49
这波操作太牛啦开源界有福了
2025-12-20 13:56
模型登顶开源后却无人问津
2025-12-19 17:53
快手发布的Klear-Reasoner模型基于Qwen3-8B-Base打造,在数学与代码领域的多个权威基准测试中表现出色,达到了同规模模型的SOTA水平。该模型通过创新的GPPO算法,实现了在RLVR任务中的稳定性和探索力的平衡,训练流程中强调高质量数据和优化奖励机制,为社区提供了可复现的技术路线。5字评论:**爆赞**
2025-11-24 09:31
快手推出的Klear-Reasoner模型基于Qwen3-8B-Base,在数学与代码基准测试中表现优异,尤其在AIME2024和AIME2025上取得了领先成绩。其创新点在于GPPO算法,通过优化训练流程和数据处理策略,提升了模型性能。该研究为RLVR任务提供了新思路,且公开了完整训练细节,便于复现。
2025-11-23 19:55
技术突破太强了期待开源生态更繁荣
2025-11-22 16:26
牛逼
2025-11-19 15:45
技术突破太强了期待开源生态繁荣
2025-11-19 12:05
这年头AI也搞内卷,连模型都要拼KPI?
2025-11-18 18:37
这波技术突破太硬核了
2025-11-18 08:09
666
回复 @
{{emojiItem.symbol}}
返回顶部
顶部