sp; 这组数字之所以值得关注,还有一个维度:精度损失极小。以 Qwen3-8B 为例,W8A8(Per-channel)量化后的困惑度(PPL)为 9.756,与 FP16 原始精度(9.726)相比,差距仅为 0.03;同时其整体 Prefill 耗时从 FP16 的 179.9 秒大幅缩短至 123.5 秒,提速约 45%。也就是说,用极小的精度代价,换来了
当前文章:http://6cp.qiaobensai.cn/ljm5b/o7s.html
发布时间:14:41:55