引言
本文是论文Neural Architectures for Named Entity Recognition的阅读笔记,这是16年发表的一篇基于LSTM+CRF做命名实体识别的论文,比较经典。
简介
命名识别任务通常的数据集特别少,且以前的系统严重依赖于手工精心设计的特征函数来为标签添加约束,使得模型的泛化性很不好。
而论文提出了基于LSTM+CRF的方法通过学习的方式自动学到这种约束,使用字符级别的单词嵌入获取 orthographic sensitivity(被标记的单词长什么样),同时通过Dropout组合单词嵌入获取distributional sensitivity(被标记的单词位置信息)。
同时作者在论文中对比了另外一种Transition-Based Chunking Model,不过由于该模型感觉用的比较少,这里就不介绍了。
本篇论文对如何计算LSTM+CRF的损失进行了充分的介绍,后续很多CRF的实现都参考了本篇论文。
标签格式
-
BIO(Beginning-inside-outside) : B代表一个实体的开始;I表示一个实体的剩余部分;O表示非实体。比如B-LOC表示地点实体的开始;I-PER表示人名实体的剩余部分。
-
BIOES:扩展了BIO。 对于E(End)和S(Single),E表示实体的结束,S表示单字符组成的实体。上面用B-LOC和I-LOC就可以表示实体LOC,这里要用B-LOC、I-LOC和E-LOC。