DeepSeek推出NSA,用于超快速的长上下文训练和推理
时间:2025年02月18日 16:39
区块之家讯 DeepSeek 推出 NSA。DeepSeek 称,NSA 是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA 加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。(金十)
本分分类: 快讯
版权声明:本文由入驻区块之家实名用户小乐收集发布,不代表区块之家立场,如有侵权/不实内容请联系本站管理员进行核实处理!本文链接:https://www.btc5577.com/newsflash/15150.html