谷歌提出“T5”新NLP模型,多基准测试达SOTA
|
者在论文《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》中,提出了一个大规模的实证评估,以确定哪些迁移学习技术效果最好,并大规模应用这些迁移学习技术来创建一个新模型,作者将这个新模型称之为文本到文本的迁移Transformer (Text-To-Text Transfer Transformer,T5)。与此同时,他们还引入了一个新的开源预训练数据集——Colossal Clean Crawled Corpus(C4)。 作者在C4数据集上对T5 模型进行预训练,让模型在许多 NLP 基准上都实现了最佳结果,与此同时还拥有足够的灵活性,进行微调后可应用到多个重要的下游任务上。 一、共享的文本到文本框架创建了T5模型后,作者将所有的 NLP 任务都重新构建为统一的文本到文本格式,输入和输出都始终是文本字符串,与只能输出类标签或者输入范围的 BERT 式的模型截然不同。 该文本到文本的框架让他们可以在任何 NLP 任务上都使用相同的模型、损失函数以及超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)等等。
T5 模型甚至可以被应用到回归任务上,具体方式是训练 T5 模型来预测一个数字的字符串表示,而不是这个数字本身。 (编辑:平凉站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

