🦄aj九游会官网【极速线路】进入【欧洲杯官方合作网站】华人市场最大的线上娱乐服务供应商其中唯独特据一项突出 o1-九游会J9·(china)官方网站-真人游戏第一品牌

2026-03-26 05:02 点击次数：65

DeepSeek-R1，正在接收巨匠网友真金白银的考试。

花 30 秒用 manim 代码制作评释勾股定理的动画，一次完成无无理。

为了玩上这么的模子，有东谈主花上 10 多万元，组 7 台 M4 Pro Mac mini+1 台 M4 Max Macbook Pro 的家用超算。

臆想 496G 显存（64*7+48），智力跑起个 4bit 量化版，但属实算得上"家用 AGI "树立了。

另一个顶点是礼聘 R1 数据蒸馏版 Qwen 1.5B 小模子，小到浏览器就能跑，每秒能输出 60 个 tokens。

与此同期，多样榜单也在持紧测试，纷纷跑出了成果。

当先是 LiveBench，与 LiveCodeBench 一样，题目是随工夫更新的，是以相对受招供。

R1 的表咫尺 o1-preview 到 o1 之间，其中唯独特据一项突出 o1。

不外再带上老本老本约 1/30 这个条目看，又是不一样的嗅觉，给老哥整无言了。

惟一的怀恨是高下文窗口太短。

o1 系列一战成名的 ARC-AGI，测试成果分为公开数据和独到数据两部分。

DeepSeek R1 在独到数据上惩办了 15.8% 的问题，与 DeepSeek-V3 比拟翻倍还多。

公开数据上更是惩办了 20.5% 的问题，与 DeepSeek-V3 比拟高潮约 46%。

总的来看，DeepSeek-R1 表现与 o1-preview 周边，但稍低。

但相通，带上几毛钱就能惩办一齐题，o1 系列至少要 10 块钱这个布景来看，又是不一样的嗅觉。

教训任务蓄意才略的 PlanBench，相通的脚本再次献艺。

在缔造者 Xeophon 我方的个东谈主测试上，以至突出了 o1-preview。

消逝个测试上，R1 数据蒸馏的 Qwen 32B，与 DeepSeek-V3，GPT-4o 和 Gemini Flash 处于肃净水平。

临了，还有东谈主从中看到新的创业契机。

谁来构建一个平台，能疏漏地在 DeepSeek R1 上进行 OpenAI 立场的强化微调。

至少在短期内，是一个弘大的契机。

R1 在正确数据和微调规范下，可能在特定任务上大幅培育。

参考运动：

[ 1 ] https://x.com/alexocheema/status/1881561143736664180

[ 2 ] https://x.com/reach_vb/status/1881809400995934640

[ 3 ] https://livebench.ai/#/

[ 2 ] https://x.com/arcprize/status/1881761987090325517

[ 3 ] https://x.com/TheXeophon/status/1881443117787984265🦄aj九游会官网【极速线路】进入【欧洲杯官方合作网站】华人市场最大的线上娱乐服务供应商