您好!欢迎光临腾讯新闻推广_腾讯新闻广告投放渠道商
腾讯新闻推广_腾讯新闻广告投放渠道商
联系我们
腾讯新闻推广_腾讯新闻广告投放渠道商
联系人:梁经理
电话:4009602809
地址:北京市朝阳区金盏乡皮村村西5号厂房(谷仓科技孵化器333号)
当前位置:首页 > 疑难解答

疑难解答

NVIDIA专家全面解析Merlin,GPU加速的推荐系统解决方案速速查收
发布时间:2021-06-18浏览次数:15

腾讯广告



为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了“技”高一筹系列专题直播。在6月10日的直播中,NVIDIA 亚太 AI 开发者技术解决方案经理王泽寰,对 NVIDIA 最新推荐系统解决方案 Merlin 进行全面解析,并对选手们的疑问进行了详细解答。这份来自技术大咖的“干货”,请查收!


Q1:Merlin 是否支持 10TB 以上的模型训练?


A:Merlin HugeCTR 专门为大模型训练设计了模型并行的Embedding层和Embedding Training Cache (Model Oversubscription)机制。通过模型并行 Embedding 层,我们将Embedding拆分到多个 GPU、多个节点从而充分利用多GPU的显存用来存储大模型。而 Embedding Training Cache 通过将完整的 Embedding 存储在外存中,并将每个子训练集(比如一个月的数据)中用到的 Feature 缓存在GPU中,可以充分利用训练数据的局部性减少对 GPU 显存的消费从而通过一台或几台机器完成 10TB 模型的训练。


Q2:训练数据读取太慢,怎么办?


A:Merlin NvTabular 重新实现了 TensorFlow 和 Pytorch 的DataReader,新的 DataReader 利用 GPU 加速数据的读取,并且支持在线 shuffle,在某些情况下性能可以达到原 TF DataReader 速度的24倍。


Q3:在 batchsize 很小的情况下,GPU 能用满吗?


A:Merlin HugeCTR 针对推荐系统模型和 GPU 硬件特性进行了算子的合并,从而充分利用 GPU 的众核架构,相比于其他框架在处理小 batch 时有更明显的优势,GPU 的计算效率更高。


Q4:一台机器一个 GPU 的低密度集群方案是否可以用于推荐系统训练?


A:由于腾讯新闻推荐系统的模型结构以浅层模型为主,计算和通信比较大,GPU 间通信速度对整体性能影响较大,因此高密度服务器(如 DGX 服务器)或集群(如 SuperPOD)往往有助于提高整个系统的性能。


Q5:Merlin 的官方网站是什么?


A:https://developer.nvidia.com/nvidia-merlin


https://github.com/NVIDIA-Merlin/Merlin


原文链接:https://qqnews.juxuan.net/tengxunxinwen/jd/194.html

腾讯新闻推广,腾讯新闻开户平台

你觉得这篇文章怎么样?

0 0
网友评论

管理员

该内容暂无评论

山西省临汾市网友
4009602809