德国团队基于 DeepSeek 打造 R1T2 模型,速度碾压官方版

DeepSeek-R2 姗姗来迟,业内人士似乎等不及了?这不,德国 TNG Technology Consulting GmbH 公司(下称 TNG)基于 DeepSeek R1-0528 新版本,推出了一款速度提升 200% 的 DeepSeek-TNG R1T2 Chimera 模型(下称 R1T2)。

R1T2 是一款拥有 6710 亿参数的开源混合模型,也是 TNG 团队 Chimera 大模型系列中的最新型号。 DeepSeek-R1-0528 因其扩展的思维链推理而倾向于给出长篇大论的详细回答,而本次 R1T2 的设计更加简洁,它在使用明显更少的词汇的同时,也能给出同样智能的回答。另外, R1T2 再次使用了由 TNG 团队提出的集合专家(AoE , Assembly-of-Experts)方法。

当然,这个模型也是开源的,遵循 MIT 协议,并在 Hugging Face 上开放了权重。 Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera