本文展示了一些提高 DALI 资源使用率以及创建一个完全基于 CPU 的管道的技术。这些技术长期稳定内存使用率,将 CPU & GPU 管道的 batch 大小提高 50%。用特斯拉 V100 加速器显示 PyTorch+DALI 可以达到接近 4000 个图像/秒的处理速度,比原生 PyTorch 快了大约 4 倍。