随着自然语言处理(NLP)模型变得越来越强大,并在更现实的环境中进行部署,理解它们的行为变得越来越重要。尽管建模方面的进步为许多NLP任务带来了空前的性能,但仍然存在许多研究问题,这些问题不仅涉及这些模型在领域转移和对抗环境下的行为,还涉及它们根据社会偏见或浅层启发法表现的趋势。
对于任何新模型,人们可能想知道模型在哪种情况下效果不佳,模型为何做出特定的预测,或者模型在变化的输入(例如文字样式或代词性别)变化下是否会表现一致。但是,尽管最近在模型理解和评估方面的工作激增,但没有用于分析的&34;。从业人员必须经常尝试多种技术,研究本地解释,汇总指标和输入的反事实变化,以更好地理解模型行为,而这些技术中的每一种通常都需要使用自己的软件包或定制工具。Google先前发布的假设工具旨在通过对分类和回归模型进行黑盒探测来应对这一挑战,从而使研究人员可以更轻松地调试性能,并通过交互和可视化分析机器学习模型的公平性。但是仍然需要一种工具来解决NLP模型特有的挑战。
考虑到这些挑战,Google构建并开放了语言可解释性工具(LIT),这是一个用于理解NLP模型的交互式平台。LIT以从假设分析工具中获得的经验教训为基础,具有极大的扩展功能,涵盖了一系列NLP任务,包括序列生成,跨度标记,分类和回归,以及可自定义和可扩展的可视化和模型分析。
LIT支持局部说明,包括显着性图,注意力和模型预测的丰富可视化,以及包括度量,嵌入空间和灵活切片的聚合分析。它使用户可以轻松地在可视化效果之间进行切换,以测试局部假设并通过数据集对其进行验证。LIT为反事实生成提供支持,可以在其中即时添加新的数据点,并立即可视化它们对模型的影响。并排比较允许同时显示两个模型或两个单独的数据点。有关LIT的更多详细信息,请参见Google在EMNLP 2020上发表的系统演示文件。
可定制性为了更好地满足希望使用LIT的具有不同兴趣和优先级的广泛用户的需求,Google从一开始就构建了易于定制和扩展的工具。在特定的NLP模型和数据集上使用LIT仅需要编写少量Python代码。可以使用Python编写自定义组件,例如特定于任务的指标计算或反事实生成器,并通过Google提供的API将其添加到LIT实例中。此外,可以使用直接集成到UI中的新模块来定制前端本身。有关扩展该工具的更多信息,可以查看GitHub上的文档。
演示为了说明LIT的一些功能,Google使用预先训练的模型创建了一些演示。完整列表可在LIT网站上找到,Google在这里描述其中两个:
· 情感分析:在此示例中,用户可以探索基于BERT的二进制分类器,该分类器可预测句子是正面还是负面的情绪。该演示使用电影评论中的Stanford Sentiment Treebank句子来演示模型行为。可以使用多种技术(例如LIME和积分梯度)提供的显着性图来检查局部解释,还可以使用反向翻译等技术来利用受干扰的(反事实)示例来测试模型行为。,单词替换或对抗性攻击。这些技术可以帮助查明模型在什么情况下会失败,以及这些失败是否可以泛化,然后可以用来告知如何最好地改进模型。
掩盖的单词预测:掩盖的语言建模是一项&34;任务,其中模型预测可以完成一个句子的不同单词。例如,在提示&34;的提示下,模型可能会预测&34;的得分较高。在LIT中,可以通过键入句子或从预加载的语料库中进行选择,然后单击特定的标记以查看像BERT这样的模型对语言或世界的理解,从而以交互方式进行探索。
LIT在实践和将来的工作中尽管LIT是一种新工具,但Google已经看到了它可以为模型理解提供的价值。它的可视化可用于查找模型行为中的模式,例如嵌入空间中的外围聚类,或对预测而言具有重要意义的单词。对LIT的探索可以检验模型中的潜在偏见,正如Google在对LIT探索共同参照模型中的性别偏见的案例研究中所证明的。这种类型的分析可以为提高模型性能提供后续步骤,例如应用MinDiff减轻系统偏差。它也可以用作为任何NLP模型创建交互式演示的便捷方法。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除
热门信息
阅读 ()
1 注册微信号怎么注册第二个阅读 ()
2 怎么把照片变成卡通头像阅读 ()
3 手机越充越少电怎么解决