采用混合专家(MoE)架构的大型语言模型( LLMs)能够在降低计算成本的同时实现卓越的模型性能,但代价是高内存容量与带宽需求。通过混合键合(hybrid bonding)将内存直接堆叠在计算单元上的近内存处理(NMP)加速器,展现出高带宽和高能效的优势,使其成为MoE ...