谷歌提出“T5”新NLP模型，多基准测试达SOTA

发布时间：2021-03-02 11:34:48 所属栏目：评论来源：互联网

导读：者在论文《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》中，提出了一个大规模的实证评估，以确定哪些迁移学习技术效果最好，并大规模应用这些迁移学习技术来创建一个新模型，作者将这个新模型称之为文本到文本的迁移Transformer （Text-To-T

者在论文《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》中，提出了一个大规模的实证评估，以确定哪些迁移学习技术效果最好，并大规模应用这些迁移学习技术来创建一个新模型，作者将这个新模型称之为文本到文本的迁移Transformer （Text-To-Text Transfer Transformer，T5）。与此同时，他们还引入了一个新的开源预训练数据集——Colossal Clean Crawled Corpus（C4）。

作者在C4数据集上对T5 模型进行预训练，让模型在许多 NLP 基准上都实现了最佳结果，与此同时还拥有足够的灵活性，进行微调后可应用到多个重要的下游任务上。

一、共享的文本到文本框架

创建了T5模型后，作者将所有的 NLP 任务都重新构建为统一的文本到文本格式，输入和输出都始终是文本字符串，与只能输出类标签或者输入范围的 BERT 式的模型截然不同。

该文本到文本的框架让他们可以在任何 NLP 任务上都使用相同的模型、损失函数以及超参数，包括机器翻译、文档摘要、问答和分类任务（如情感分析）等等。

T5 模型甚至可以被应用到回归任务上，具体方式是训练 T5 模型来预测一个数字的字符串表示，而不是这个数字本身。

（编辑：平凉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!