惊了!最Open的开源新模型,竟出自小红书?

2025-11-05 -

一手实测

模型是否好用,得看在多维度的任务方面实际的测评表现怎样。接下来,在问答、写作、编码等等这些方面,我们要把小红书的 dots 模型拉上“考场”,展开一场全面的测评。

先进行这样一项考查:大舅前往二舅家,向三舅表述相关情况,四舅由于五舅的欺骗,去到六舅家,实施了偷窃行为。偷窃的物品是放在八舅柜子里的,由九舅借给十舅,准备发给十一舅作为工资的1000元,那么请问,谁才是那个小偷呢?

这道像绕口令般弯弯绕绕的题目,dots没被迷惑,它将句子逐步分解,再把那个“偷”动作的执行者找出来依靠的过程全分析清楚,最后得出正确答案。

凭借幽默且荒诞的段子而声名远扬的弱智吧,自大型模型火爆起来以后,“弱智吧”已然变成检测大型模型理解能力与否的其一标准了 。

那么就拿这道已然特别经典的问题来说,原本被称作班房的地方其实也就是牢房,然而为何能够上班却不被叫做坐牢呢,dots 最先开始从语言在历史进程里的演变情况、二者之间所存在的区别方面给出了那种非常正式且正经的回答,之后呢又玩起了梗,甚至还额外附上了生动的表情包。

不仅如此,dots 还很懂那些奇奇怪怪的谐音梗。

接下来瞧瞧 dots 的文本创作能力,它依据「老子今天要上班了」创作了一首藏头诗,还蛮有那种「活人所独具的气息」,借助一组清晨的景象画面,将「打工的人」的疲惫之感描绘得极为贴近现实生活。

此外,它具备的编码能力也还算可以,我们要求它去创建一个具备响应式特点的城市天气卡片组件,此使用 HTML、CSS 以及还有实现。在领到该项任务之后,dots 没有任何二话,直接就把代码给输出了。

不能不说,其制作的动态卡片色彩搭配挺让人感觉舒适,且汇集了城市、日期、天气、温度、湿度以及风速等各类要素,轻点右下角的按钮能够顺畅切换城市。

技术解读:高效 MoE 架构下的「以小搏大」

作为小红书hi lab首度开源的MoE模型,dots.llm1并非一味地去追求“大力出奇迹”,而是处于训练资源有一定限制的前提状况下,借助更为干净、更为优质的数据,运用更为高效的训练方式,以此来达成“以小搏大”这样的效果。

链接:

预训练数据:不靠合成也能「硬刚」

处于大模型训练期间,数据的质量属于决定模型上限的关键因素当中的一个, dots.llm1 运用了 11.2T 高质量 token 数据开展预训练,并且这些数据主要是源自 Crawl 以及自有抓取到的 web 数据 ,和很多开源模型径直使用粗粒度数据不一样,hi lab 团队在数据处理方面极其「较真」,摒弃低质或虚构内容,借助三道「工序」掌控数据质量 。

先是进行web文档准备工作,将web HTML数据,通过URL过滤的方式,把黄赌毒之类的内容予以删除,接着利用团队优化过后的软件包,提取HTML正文内容,最后开展语种过滤以及MD5去重,从而得到web。

接下来是规则处理,参照 的方案以及 的方案开展数据清洗以及过滤操作,引入 的策略还有行类别去重策略,切实过滤广告、导航栏等噪声文本。

末尾是模型处理,借由多个模型共同判断数据的网页类型,判断数据的质量,判断数据的语义重复性,判断数据的结构均衡性,于保障文本安全、准确之际提升知识类内容的占比。

走完上述处理流程,hi lab这一团队获取到一份高质量的预训练数据,并且经由人工校验,以及实验验证,证实该数据质量明显比对开源数据更具优势。

值得留意的是,dots.llm1没有运用合成语料,这在旁边方面显示出就算不依靠大规模数据合成,也能够训练出充足强大的文本模型。可是那个团队还表明,数据合成作为提高数据多样性以及模型能力的方式,依旧是将来值得探寻的重要方向。

训练效率:计算与通信高度并行

在MoE模型开展训练期间,EP rank相互间的A2A通信,于端到端时间里占据了颇为可观的份额,极大地影响了训练效能,尤其是针对Fine - MoE Model而言,其EP Size会相对较大,跨机通信基本难以避免。

为了应对这一难题,hi lab同中国团队携手合作,推导出了一套具备相当工程创新价值的解决办法:1F1B with A2A 。此办法之关键在于着力使EP A2A通信最大限度地贴近计算,依靠计算去遮蔽通信所需时长,从而提高训练效能。

具体而言,他们借助把稳态的1F1B stage当中第一个micro batch的fprop提前至stage,也就是step + 1,如此一来,便能够在1F1B达成1F1B稳态阶段不同micro batch前反向之间的EPA2A以及计算的 。

与此同时,hi lab团队针对GEMM展开了优化实现工作,他们把M_i(也就是专家i的token段),对齐至一个固定的块大小,而这个固定块大小,必然得是异步级别矩阵乘加(WGMMA,确切来说即wgmma.mma async)指令里边tile形状修饰符的M的整数倍数。

这种设计中,单个里的所有都用统一的,由该处理的整个token段Mi必然归于同一位专家,这番情况使得调度过程跟普通GEMM操作特别相像,,。

在经过实际测量验证之后,将其与其中所包含的GEMM API相比较,hi lab所实现的算子,于前向计算的过程当中,平均提升幅度达到了14.00%,而在反向计算的进程里,平均提升幅度为6.68%,这充分地证实了这一套解决方案具备有效性以及实用价值。

模型设计与训练:WSD 调度下的渐进式优化

在有关模型设计所处的层面这个范畴内,dots.llm1,它属于是一种基于 -only 的 MoE 模型这一类别,其针对整体架构所展开的设计工作,主要是从 系列那里借鉴而来的思路以及经验 。

关于训练策略这块的情况,此模型运用的是WSD学习率调度形式,这段完整的训练进程,主要是划分为这么两个阶段,一个是稳定训练这一阶段,再一个是退火优化这一阶段 。

处于稳定训练阶段时,模型维持着3e - 4的学习率,运用10T token语料来施行训练。为了提高训练效率,在这一阶段先后两次加大batch size,由64M逐渐增多至128M,整个训练进程极为稳定,未曾出现需要回滚的loss spike。

随后步入学习率退火的阶段,分两个阶段来训练 1.2T token 的语料。其中,在一段时间之中,模型的学习率从 3e - 4 退火降低至 3e - 5,在数据方面强化推理以及知识类型的语料,一共训练 1T token;在另一段时间之中,模型的学习率由 3e - 5 退火降低至 1e - 5,在数据方面提高 math 和 code 语料的占比,一共训练 200B token。

Post-train:高质量、多场景、结构化调教策略

预训练高质量完成之后,dots.llm1 借助两阶段监督微调,对模型的理解力以及执行力予以进一步打磨 。

实验室团队精心挑选了大概 40 万条具备高质量的指令数据,这些数据覆盖了多轮对话、知识问答、复杂指令遵循、数学推理以及代码生成这五个核心场景 。

整个微调过程分为两个阶段:

最终评测得出的状况所呈现的结果也是能够让人的眼睛突然之间有一亮的感觉的呢:就算只是将其中的14B参数给激活了,dots.llm1.inst在对于中文跟英文的辨析、了解,以及数学方面,代码的生成,还有对齐等这些任务当中依旧是能够展现出非常突出的状况的,是饱含拥有可跟Qwen2.5 - 32B - 、甚至Qwen2.5 - 72B - 展开竞争较量的能力的那般实力的。在去跟更加先进的Qwen3 - 32B进行相对比的时候,dots.llm1.inst同样是能在多个任务之上清晰地显示出类似甚至是更具优势的性能的。

结语

于热门开源模型的榜单之上,中国模型的身影展现而出啊,已然占据了半壁江山呢,开源这一行为正渐渐成为中国大模型团队的集体共识呀。

此次,dots.llm1进行开源,这不仅仅是小红书hi lab团队所做的一次技术成果展示,同时还是一种路线选择方面的「表态」,相较于闭门进行修炼他们转而更乐意走入江湖和高手开展交流。在开发者们的眼中,这表明又出现了一个值得去信赖的模型基座发生;而针对hi lab来讲,来自社区的微调成果也会对基模起到反哺作用,从而为模型注入更多的可能性。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。

扫一扫在手机阅读、分享本文