行业首个少样本NER数据集，清华连结阿里达摩院开发

发布时间：2021-06-05 16:23:09 所属栏目：大数据来源：互联网

导读：NER（命名实体识别）作为NLP的一项基本任务，其日常是训练人工智能（zhang）对一段文本中的专有名词（人名、地名、机构名等）进行识别和分类。行业首个少样本NER数据集，清华联合阿里达摩院开发 △烟台：我招谁惹谁了？翻译成计算机语言，就是从一段非结构

NER（命名实体识别）作为NLP的一项基本任务，其日常是训练人工智能（zhang）对一段文本中的专有名词（人名、地名、机构名等）进行识别和分类。

行业首个少样本NER数据集，清华联合阿里达摩院开发

△烟台：我招谁惹谁了？

翻译成计算机语言，就是从一段非结构化的自然语言中找到各种实体，并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题

但在数据缺乏，样本不足的前提下，如何基于先验知识进行分类和学习，这就是目前NLPer面临的一道难题——少样本（Few-Shot）。

虽然已有越来越多针对少样本NER的研究出现（比如预训练语言模型BERT），但仍没有一个专属数据集以供使用。

而现在，共包含来自维基百科的18万条句子，49万个实体和460万标注，并具有8个粗粒度（coarse-grained types）实体类型和66个细粒度（fine-grained types）实体类型的数据集来了。

行业首个少样本NER数据集，清华联合阿里达摩院开发

△目前已被ACL-IJCNLP 2021接受

这就是清华大学联合阿里达摩院共同开发的，行业内第一个人工标注（human-annotated）的少样本NER数据集，FEW-NERD。

什么样的数据集？

对比句子数量、标记数、实体类型等统计数据，FEW-NERD比相关领域内已有的NER数据集都要更大。

行业首个少样本NER数据集，清华联合阿里达摩院开发

此外，它也是规模最大的人工标注的数据集。

为实体命名常常需要联系上下文，尤其是在实体类型很多时，注解难度将大大增加。

而FEW-NERD的注释来自70位拥有语言学知识的注释者，以及10位经验丰富的专家。

具体而言，每个段落会交由两人独立完成注释，然后由专家审查，再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。

行业首个少样本NER数据集，清华联合阿里达摩院开发

比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”，就被准确标注成了“Art-Music”。

而在以段落为单位进行标注时，因为样本量并不多，所以FEW-NERD数据的类别分布预计是相对平衡的，这也是它与以往NER数据集的一个关键区别。

并且在实践中，大多数未见的实体类型都是细粒度的。而传统的NER数据集（如CoNLL’03、WNUT’17、OntoNotes）只包含4-18个粗粒度的类型。

这就难以构建足够多的N元任务（N-way metatasks），并训练学习相关特征。

相比之下，FEW-NERD共包含了112个实体标签，并具有8个粗粒度实体类型，和66个细粒度实体类型。

（编辑：平凉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何策划数据可视化平	新时代开源数据调度在
终于有人把元数据说明	如何使用技术处理方案