为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了“技”高一筹系列专题直播。在6月10日的直播中,NVIDIA 亚太 AI 开发者技术解决方案经理王泽寰,对 NVIDIA 最新推荐系统解决方案 Merlin 进行全面解析,并对选手们的疑问进行了详细解答。这份来自技术大咖的“干货”,请查收!
Q1:Merlin 是否支持 10TB 以上的模型训练?
A:Merlin HugeCTR 专门为大模型训练设计了模型并行的Embedding层和Embedding Training Cache (Model Oversubscription)机制。通过模型并行 Embedding 层,我们将Embedding拆分到多个 GPU、多个节点从而充分利用多GPU的显存用来存储大模型。而 Embedding Training Cache 通过将完整的 Embedding 存储在外存中,并将每个子训练集(比如一个月的数据)中用到的 Feature 缓存在GPU中,可以充分利用训练数据的局部性减少对 GPU 显存的消费从而通过一台或几台机器完成 10TB 模型的训练。
Q2:训练数据读取太慢,怎么办?
A:Merlin NvTabular 重新实现了 TensorFlow 和 Pytorch 的DataReader,新的 DataReader 利用 GPU 加速数据的读取,并且支持在线 shuffle,在某些情况下性能可以达到原 TF DataReader 速度的24倍。
Q3:在 batchsize 很小的情况下,GPU 能用满吗?
A:Merlin HugeCTR 针对推荐系统模型和 GPU 硬件特性进行了算子的合并,从而充分利用 GPU 的众核架构,相比于其他框架在处理小 batch 时有更明显的优势,GPU 的计算效率更高。
Q4:一台机器一个 GPU 的低密度集群方案是否可以用于推荐系统训练?
A:由于腾讯新闻推荐系统的模型结构以浅层模型为主,计算和通信比较大,GPU 间通信速度对整体性能影响较大,因此高密度服务器(如 DGX 服务器)或集群(如 SuperPOD)往往有助于提高整个系统的性能。
Q5:Merlin 的官方网站是什么?
A:https://developer.nvidia.com/nvidia-merlin
https://github.com/NVIDIA-Merlin/Merlin
- 2022-03-04
腾讯新闻广告:2030年,腾讯将实现全面碳中… - 2022-03-04
腾讯广告投放:汽车经销商该扮演什么角色?… - 2022-03-04
腾讯广告投放:汽车经销商该扮演什么角色?… - 2022-03-03
腾讯广告推广:强生携手腾讯,共探健康护理… - 2022-02-25
婚恋行业怎样借助腾讯平台推广? - 2022-02-25
腾讯广告如何携手区域服务商加强建设? - 2022-02-25
洋酒品牌如何利用腾讯新闻广告获得核心客群… - 2022-02-24
腾讯新闻广告携手元宇宙唐朝穿越少女破圈而… - 2022-02-23
新职业教育是如何在腾讯新闻推广的? - 2021-12-07
腾讯新闻相较于腾讯视频平台的区别有哪些?…
管理员
该内容暂无评论