窝牛号

介绍 TorchRec,一个用于现代产品推荐系统的pytorch库

Facebook宣布TorchRec,一个用于推荐系统的 PyTorch 库。这个新库提供了通用的稀疏性和并行性原语,使研究人员能够构建最先进的个性化模型并将其部署到生产中。

推荐系统 (RecSys) 包含当今大量部署在生产环境中的 AI,但您可能不会通过查看 Github 了解它。与 Vision 和 NLP 等领域不同,RecSys 的大部分持续创新和开发都是在封闭的公司门后进行的。对于研究这些技术的学术研究人员或构建个性化用户体验的公司而言,该领域远未实现民主化。此外,RecSys 作为一个领域,很大程度上是由稀疏和/或顺序事件上的学习模型定义的,这与 AI 的其他领域有很大的重叠。许多技术是可转移的,特别是对于扩展和分布式执行。全球对人工智能的很大一部分投资用于开发这些 RecSys 技术,因此封锁它们会阻止这项投资流入更广泛的人工智能领域。

到 2020 年年中,PyTorch 团队收到了大量反馈,称开源 PyTorch 生态系统中还没有大规模的生产质量推荐系统包。当我们试图找到一个好的答案时,Meta 的一组工程师希望将 Meta 的生产 RecSys 堆栈作为 PyTorch 域库贡献出来,并坚定地致力于围绕它发展一个生态系统。这似乎是一个让 RecSys 领域的研究人员和公司受益的好主意。因此,从 Meta 的堆栈开始,我们开始模块化和设计一个完全可扩展的代码库,该代码库适用于各种推荐用例。我们的目标是从 Meta 的软件堆栈中提取关键构建块,以同时实现创造性探索和扩展。近两年后,一系列基准测试、迁移、并在 Meta 上进行测试,facebook最终能与 RecSys 社区一起踏上这段旅程。facebook希望这个软件包能在 RecSys 行业开启对话和协作,从 Meta 作为第一个相当大的贡献者开始。

介绍 TORCHREC

TorchRec 包括一个可扩展的低级建模基础以及丰富的电池模块。我们最初的目标是“双塔”([ 1 ],[ 2 ])架构,这些架构具有单独的子模块来学习候选项目和查询或上下文的表示。输入信号可以是浮点“密集”特征或需要训练大型嵌入表的高基数分类“稀疏”特征的混合。此类架构的有效训练涉及将复制计算的“密集”部分的数据并行性和将大型嵌入表分区到多个节点的模型并行性相结合。

特别是,该库包括:

建模原理,例如嵌入包和锯齿张量,可以使用混合数据并行和模型并行轻松创作大型、高性能的多设备/多节点模型。

由FBGEMM提供支持的优化 RecSys 内核,包括对稀疏和量化操作的支持。

一个分片器,它可以使用各种不同的策略对嵌入表进行分区,包括数据并行、逐表、逐行、逐表行和逐列分片。

可以自动为模型生成优化的分片计划的规划器。

以重叠数据加载设备传输(复制到 GPU)、设备间通信(input_dist)和计算(前向、后向)以提高性能。

GPU 推理支持

RecSys 的通用模块,例如模型和公共数据集(Criteo 和 Movielens)。

为了展示此工具的灵活性,让我们看一下从我们的 DLRM 事件预测示例中提取的以下代码片段:

34;t_{feature_name}& Import and instantiate the model with the embedding configuration 34;meta&34;meta& Distribute the model over many devices, just as one would with DDP. model = DistributedModelParallel( module=train_model, device=device, ) optimizer = torch.optim.SGD(params, lr=args.learning_rate) Or, you can use the pipeliner to synchronize communication and compute for epoch in range(epochs): # Train扩展性能

TorchRec 拥有最先进的大规模推荐 AI 基础设施,为 Meta 的一些最大模型提供支持。它用于训练一个 1.25 万亿参数的模型,于 1 月投入生产,还有一个即将投入生产的 3 万亿参数模型。这应该很好地表明 PyTorch 完全有能力解决业界最大规模的 RecSys 问题。我们从社区中的许多人那里听说,分片嵌入是一个痛点。TorchRec 清楚地解决了这个问题。不幸的是,使用公共数据集提供大规模基准测试具有挑战性,因为大多数开源基准测试都太小而无法大规模显示性能。

开源和开放技术具有普遍的好处。Meta 正在为 PyTorch 社区播种最先进的 RecSys 软件包,希望许多人加入到构建它的过程中,支持新的研究并帮助许多公司。TorchRec 背后的团队计划无限期地继续着这个计划,建立 TorchRec 以满足 RecSys 社区的需求,欢迎新的贡献者,并继续推动 Meta 的个性化。我们很高兴开始这一旅程,并期待贡献、想法和反馈

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1