Content
@
0 reply
0 recast
0 reaction
Mable Jiang
@mablejiang
我汇编了一下: 推文1: 我们正生活在这样一个时代:一家非美国公司在延续 OpenAI 最初的使命——真正开放的前沿研究,赋能所有人。这听上去匪夷所思,但往往最具娱乐性的结果才是最可能出现的。 DeepSeek-R1 不仅开源了一连串的模型,而且还公开了所有训练细节。他们或许是首个在强化学习(RL)领域展现出显著且持续“飞轮”式增长的开源项目。 影响力(Impact)可以通过“内部实现 ASI”或类似“Project Strawberry”这样带有神秘色彩的项目来达成; 也可以通过直接抛出原始算法以及基于 matplotlib 的训练曲线来实现。 我正在阅读这篇论文: ● 完全由强化学习驱动,完全没有采用 SFT(监督微调)——“冷启动”。这让人联想到 AlphaZero:从零开始掌握围棋、日本将棋和国际象棋,而不是先去模仿人类大师的招法。这是论文中最重要的发现。 ● 使用由硬编码规...
1 reply
0 recast
2 reactions
Mable Jiang
@mablejiang
推文1: https://x.com/drjimfan/status/1881353126210687089?s=46&t=hR1kECF6wDAnXzjTzo8xQg 推文2: https://x.com/drjimfan/status/1881382618627019050?s=46&t=hR1kECF6wDAnXzjTzo8xQg
0 reply
0 recast
0 reaction