加入收藏 | 设为首页 | 会员中心 | 我要投稿 平凉站长网 (https://www.0933zz.com.cn/)- 图像处理、语音技术、媒体智能、运维、低代码!
当前位置: 首页 > 大数据 > 正文

行业首个少样本NER数据集,清华连结阿里达摩院开发

发布时间:2021-06-05 16:23:09 所属栏目:大数据 来源:互联网
导读:NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。 行业首个少样本NER数据集,清华联合阿里达摩院开发 △烟台:我招谁惹谁了? 翻译成计算机语言,就是从一段非结构
NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。
行业首个少样本NER数据集,清华联合阿里达摩院开发
△烟台:我招谁惹谁了?
翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题
但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。
虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。
而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。
行业首个少样本NER数据集,清华联合阿里达摩院开发
△目前已被ACL-IJCNLP 2021接受
这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD。
什么样的数据集?
对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。
行业首个少样本NER数据集,清华联合阿里达摩院开发
此外,它也是规模最大的人工标注的数据集。
为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。
而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。
具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。
行业首个少样本NER数据集,清华联合阿里达摩院开发
比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。
而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。
并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。
这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。
相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。

(编辑:平凉站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读