Content pfp
Content
@
0 reply
0 recast
0 reaction

Kirin pfp
Kirin
@kirinprimates
DeepSeek 低成本训练并开源,Meta 陷入恐慌 【亮点🤓🤓:目前公司管理层正为「如何解释模型开发的巨额投入」而发愁,并且同样处境的高管有数十位。】 近期,有 Meta 员工在美国匿名职场社区 TeamBlind 发帖表示,Meta 的工程师正在疯狂分析 DeepSeek,并试图从中复制一部分内容。 帖子中提到 DeepSeek-V3 和 DeepSeek-R1 两款模型,它们分别发布于 2024 年 12 月和 2025 年 1 月。 其中,DeepSeek-V3 发布时便提到,该模型在多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上,和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分上下。 此前,博主 scaling01 对比分析,DeepSeek 不仅性能上赶超,参数量达 671B 的 DeepSeek-V3 训练成本也仅为 558 万美元。相较下,Meta 的 Llama3 系列模型的计算成本足够训练 DeepSeek-V3 至少 15 次。 而近期发布的 DeepSeek-R1 性能更强,据悉...
1 reply
0 recast
2 reactions

shura616 pfp
shura616
@shura616
deepseek写代码真的很好用,感觉现在程序员人手一个了
1 reply
0 recast
0 reaction