英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
电子病历中命名体识别的混合方法
摘要
背景:随着电子病历的迅速普及和医疗大数据时代的到来,自然语言处理技术在生物医学中的应用已成为研究的热点。
方法:首先,将BiLSTM-CRF模型应用于中国电子病历中的医学命名实体识别。根据中文电子病历的特点,以句子为单位获取每个词的低维词向量。然后将词向量输入BiLSTM,实现句子特征的自动提取。然后,CRF执行句子级的单词标记。其次,在BiLSTM和CRF之间添加了注意力机制,以构建Attention-BiLSTM-CRF模型,该模型可以利用文档级信息来减轻标签不一致的问题。此外,本文提出了一种实体自动校正算法,可以根据历史实体信息对实体进行校正。最后,精心构建了药物词典和后处理规则以纠正实体,从而进一步提高性能。
结果:在给定的测试数据集上,BiLSTM-CRF和Attention-BiLSTM-CRF模型的最终F1得分分别为90.15和90.82%,两者均高于89.26%,这是测试数据集上除我们以外最佳的F1得分。
结论:我们的方法可用于识别中国电子病历上的医学命名实体,并在给定的测试数据集上实现最先进的性能。
关键字:BiLSTM-CRF,Attention,中文电子病历,命名实体识别,药物词典
背景
命名实体识别(NER)是自然语言处理(NLP)中的一项基本任务。其目的是识别文本中的命名提及,为诸如关系提取之类的任务铺平道路。从狭义上讲,NER可以识别三种命名实体,即名称,位置和组织[1]。在医疗领域,随着电子病历和临床信息的快速发展,医生需要信息化手段,来快速,准确地从大量电子病历(EMR)中获取患者相关信息,从而提高工作效率。EMR有两种主要类型,即门诊病历和住院病历。门诊病历通常很短,信息较少,医生可以轻松地从中获取所需信息;住院病历包括众多信息,例如医院记录,病历记录,订购单,病例数据等。其中,病历记录是关键部分,重点关注现存疾病的发生,演变和治疗,包括很多疾病。医学实体是EMR的关键研究内容。如今,这仍对中国电子病历是一个巨大的挑战,有以下原因;首先,没有统一的标准来命名医疗实体。不同的医院,甚至不同的医生,对同一实体的命名也可能不同。其次,一个实体可能有多个名称,例如,一种药物可以具有数十个商品名称;第三,不断创造新的实体。最后但并非最不重要的一点是,中文的用法很灵活。没有上下文,某些单词不能被判断为命名实体,并且汉字之间没有空格作为边界标记。
在以前的NER任务中,BiLSTM-CRF是双向长短时记忆(LSTM)的缩写,结合条件随机场(CRF)层,这种方法表现出最佳的性能[2,3],这是执行NER任务的常用方法。与基于CRF的方法相比,此方法无需手动编辑复杂的特征模板。相反,可以通过LSTM自动提取特征。但是,尽管LSTM可以通过门机制保留很长时间的信息[4],仍然会导致长句识别错误[5],在[6]中定义为标记不一致。注意机制可用于解决标签不一致问题,这种机制最近已广泛用于深度学习的各个领域,例如图像处理,语音识别,NLP等。[7,8].最近,罗[6]等,通过在BiLSTM-CRF模型中添加关注机制来解决化学NER中的标签不一致问题。
我们的工作重点是中国的EMR,这是医学领域的一些公开会议的子任务,例如中国知识图谱和语义计算会议(CCKS)和中国健康信息处理会议(CHIP)。这些任务不仅加速了对中国的EMR的研究,而且为中国临床实体识别提供了一些宝贵的语料库。本文首先利用BiLSTM-CRF模型在中国的EMR上实现医学NER。然后,我们通过在BiLSTM-CRF模型中添加Attention机制来构建Attention-BiLSTM-CRF模型,以缓解标签不一致问题并提高系统性能。我们的贡献总结如下。
我们使用BiLSTM-CRF模型在中国的EMR中实现医学NER。并通过在BiLSTM-CRF中添加注意力机制,构建Attention-BiLSTM-CRF模型并将其应用于中国的EMR中的NER,目的是通过利用文档级信息来缓解标签不一致问题。据我们所知,我们是第一个将Attention-BiLSTM-CRF模型应用于中国的EMR中的医学NER。
我们提出了一种实体自动校正算法,该算法依赖于历史实体信息,以在必要时自动纠正实体。除以收集医学信息后,我们建立了药物词典来帮助识别药物实体。药品词典基本上涵盖了目前市场上的所有药品,包括其产品名称和商品名称。最后,通过分析识别结果,编辑通用的后处理规则以纠正实体边界划分错误,并提取无法被神经网络模型识别的实体。
由于上述贡献,我们的方法实现了CCKS 2018提供的中国的EMR中医学NER任务的最新性能。
相关的研究
NER已成为信息提取,数据挖掘和NLP中的重要研究领域[9]。NER的发展基本上经历了从规则到统计的转变,主要涵盖以下三种方法。
基于规则的方法
手写规则用于匹配文本以提取命名实体。例如,对于中国的EMR,可以使用诸如“术”(“surgery”)和“手术”(“surgery”)之类的词。作为手术结束的实体;单词“炎”(“inflamma-tion”)和“癌”(“cancer”)可用作直接下一个解剖实体的词。规则构建通常需要专业的语言知识,规则冲突需要谨慎处理。此外,很难将规则从一个领域推广到另一个领域。
基于特征模板的方法
统计机器学习方法将NER视为序列标记任务,并使用大型语料库来学习标记模型[10, 11]。NER任务中使用的模型包括生成的模型(例如HMM),判别模型(例如CRF)等。最流行的方法是“特征模板 CRF”方案:特征模板通常是一些手动定义的二进制特征函数,挖掘命名实体和上下文的内部特征。可以组合不同的特征模板以形成新的特征模板。CRF的优势在于它可以使用在标记序列过程中已经生成的信息,并可以使用维特比解码来获得最佳序列。
基于神经网络的方法
近年来,随着硬件功能的发展和单词嵌入的出现,神经网络模型可以有效地处理许多NLP任务。这种类型的模型将单词从离散的一键式表示映射到低维和密集的单词嵌入,然后将句子的嵌入序列输入到递归神经网络(RNN)中以自动提取特征,然后基于神经网络的方法近年来,随着硬件功能的发展和单词嵌入的出现,神经网络模型可以有效地处理许多NLP任务。这种类型的模型将单词从离散的一键式表示映射到低维和密集的单词嵌入,然后将句子的嵌入序列输入到递归神经网络(RNN)中以自动提取特征,然后
最近,研究人员提出了用于序列标记的LSTM-CRF模型,该模型是基于特征模板的方法和基于神经网络的方法的结合。LSTM-CRF方法在许多NLP任务中展现了最先进的结果。科洛伯特[12]等。首先提出了将CRF模型与LSTM模型结合的概念。黄[13]和Lample [14]使用LSTM-CRF进行句子级别的标签预测,这使得标记过程不再独立于每个标记。嘛[15]等。将LSTM引入英语NER任务。董[16]等。首先将LSTM-CRF应用于中文NER任务。
数据集,实体定义和语料库
本文使用的培训数据和测试数据来自CCKS2018,由清华大学知识工程实验室和宜都云(北京)技术有限公司共同提供。培训数据包括600份中文EMR,每份包括两份部分:一个原始的中国EMR和相应的带标签的实体。已标记的实体将根据特定的应用程序要求进行手动标记,包括实体名称,实体起始位置,实体终止位置和实体类别。测试数据包括400个原始的中国EMR。
本文中,中国EMR中NER的目标是识别五种实体类别,分别是解剖结构,手术,药物,独立症状和症状描述。并应将识别出的实体组织为项目,如下例所示。
“胃(stomach) 12 13 解剖部位(anatomy)”
项目中的“胃(stomach)”是实体名称,“12”代表EMR中的实体起始位置,而“13”代表终止位置,“解剖部位(anatomy)”代表实体类别。这四个部分项目由制表符分隔。实体的五类定义规则如下所示。
1.解剖结构:一种结构功能单元,由多种组织组成,例如“腹部”(腹部)。
2.症状描述:指患者的经验和生理功能异常的感觉。当病人生病时。同时,它需要与解剖结构分开输出,例如“腹部不适”(“腹部不适”),“腹部”(“腹部”)和需要分别输出“不适”(“不适”)作为解剖结构和症状描述。
3.独立症状:指患者生病时的自我经验和对患者生理功能的感觉,例如“眩晕”(“头晕”)。
4.药物:用于治疗,预防疾病或促进健康的化学物质。
5.手术:指用医疗器械对患者的身体进行治疗,例如切除,缝合等。
根据相应的标记实体,中文的EMR使用BIO(开始,内部,外部)标记架构进行编码,以构建训练语料库。其中,B-BO和I-BO分别代表解剖学的开头和内部。与解剖结构相似,B-SU和I-SU代表手术,B-DR和I-DR代表药物,B-SD,I-SD代表症状描述,B-IS和I-IS代表独立症状。O表示该词不属于任何实体。数字1给出了BIO标记架构的示例。
在这里,我们要解决CCKS提供的数据集的问题。中文的EMR中的实体非常复杂,在许多情况下很难找到通用的标准来定义。因此,手动标记的实体不可避免地会出现人为标记错误。据我们所知,训练数据集总共包含15,080个实体,其中大多数是无争议的,其余的是不确定的,被视为噪声实体。
与[6]中描述的标记不一致问题,图1显示了在中文的EMR上医学NER的标签不一致。以“肝S2、3虑转移瘤,较前缩小。2016年03月16日在我院行扩大左半肝切除术, 术后病理:1(S2, 3肿物)病灶减小hellip;”。例如,以中国EMR的细分市场为“术,预测病理学:1 (S2,3肿物)病灶植入hellip;”。BiLSTM-CRF模型可以识别粗体字。,医生可以将“肝S2,3”缩写为“S2,3”或其他形式,例如“S2”,“S3”等。这些提及应使用相同的标签进行标记。但是,模型无法识别带有下划线的提及“S2、3”。在中文的 EMR中有很多类似的情况,因此这是影响模型性能的重要因素。
图1
方法
在本节中,我们首先介绍基于神经网络的中文的EMR医疗NER方法的体系结构。然后分别介绍了BiLSTM-CRF 模型和Attention-BiLSTM-CRF模型。然后我们介绍了实体自动校正算法。最后介绍了药物词典和后处理规则。
基于神经网络的方法架构
在中国EMR上基于神经网络的医学NER方法的体系结构图如图2所示。2.在这种方法中,采用了神经网络BiLSTM-CRF或Attention-BiLSTM-CRF从中国电子病历中识别出五类实体。此外,我们添加了三种辅助措施来提高实体识别的准确性。辅助措施是实体自动校正算法,药物词典和后处理规则,将分别在以下部分中详细介绍。
图2
BiLSTM-CRF模型
BiLSTM-CRF模型的架构如图3所示。类似于论文[15,17]。
图3
BiLSTM-CRF模型记录包含以下内容的句子:以句子为单位将n个单词作为(句子级)。其中表示单词词典中句子的第i个单词的id,因此可以获得每个单词的one-hot矢量,矢量维为词典大小。
模型的第一层是查找层,它使用预先训练或随机初始化的嵌入矩阵为了将句子中的每个单词从一个热门向量映射到一个低维的密集单词向量(单词嵌入)isin;,d是单词嵌入的维数。本文利用《中国日报》的语料库对预训练的嵌入矩阵进行了训练,其中包含约230万个单词。信号丢失设置为缓解过度拟合。
模型的第二层是双向 LSTM 层,该层自动提取句子特征。句子的字嵌入序列作为输入的每个时间步的双向LSTM,和隐式状态输出序列的正向LSTM和输出序列的反向LSTM连接给,并得到完整的句子的隐藏状态序列,可以由表示。
然后设置线性层,以将隐藏状态矢量从 m 维映射到 k 维(k 是数字标记集中定义的标记),然后自动得到经提取的句子特征,并记录为矩阵。的每个元素都可以视为分数,用标签标记单词。接下来,CRF 层是设置为标记单词。
该模型的第三层是 CRF 层,它执行序列级单词标记。CRF 层的参数是维度为,而代表从第i个标签到j个标签的转换分数,因此,标记新单词时,可以使用以前标记的标签。标记序列可以用表示,而n等于句子长度,用于计算等于标记序列y的句子X标记的公式如公式(1)。
(1)
可以看出分数(X, y)等于句子中所有单词的分数,每个分数由两部分组成,第一部分来自上述转换矩阵A,第二部分来自上述矩阵P。然后,将Softmax函数用于归一化概率,如公式(2)。
(2)
训练时,用于训练样本(X, yX)公式(3)可以作为对数概率公式来最大化标签序列的对数概率。
(3)
在编码过程中,使用维特比算法通过动态计划来计算最佳标签路径,如公式(4)所示。
(4)
Attention-BiLSTM-CRF 模型
如上所述,BiLSTM-CRF是一种句子级NER方法。虽然LSTM可以通过gate机制保持长时间信息,但这仍然导致长句中的标记不一致性,因为句子中后一种词比前一种词占主导地位。收到罗[6]的影响,在本文中,我们构建了Attention-BiLSTM-CRF 模型来减轻上述标记的不一致的问题。Attention-BiLSTM-CRF 模型如图4所示。
图4
我们的 Attention-BiLSTM-CRF 模型与其他模型之间的区别在于,我们模型中的注意力机制用于捕获文档级别的相关单词标记信息,以保持单词标记的一致性。
可以将中文 EMR作为输入文件描述为,其中表示由 EMR 组成的 m 个句子。每个句子都可以表示为,其中n是句子X 的长度。此外,将 N 定
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235948],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。