[1]高国忠,李宇,华远鹏,等.基于BERT-BiLSTM-CRF模型的油气领域命名实体识别[J].长江大学学报(自然科学版),2024,(1):57-65.
点击复制

基于BERT-BiLSTM-CRF模型的油气领域命名实体识别
分享到:

长江大学学报(自然科学版)[ISSN:1673-1409/CN:42-1741/N]

卷:
期数:
2024年第1期
页码:
57-65
栏目:
地质资源与地质工程
出版日期:
2024-01-02

文章信息/Info

文章编号:
1673-1409 (2024) 01-0057-09
作者:
高国忠李宇华远鹏吴文旷
长江大学地球物理与石油资源学院, 湖北 武汉 4 3 0 1 0 0 中国石油勘探开发研究院, 北京 1 0 0 0 8 3
关键词:
油气领域 命名实体识别 BERT 双向长短期记忆网络 条件随机场 BERT - B i L STM - CRF模型
分类号:
TP 3 9 1 .1 TE 1 9
文献标志码:
A
摘要:
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、 识别效率低的问题, 提出了一种基于B ERT - B i L S TM - CRF模型的命名实体识别研究方法。 该方法首先利用 B ERT (b i d i r e c t i o n a le n c o d e rr e p r e s e n t a t i o n sf r omt r a n s f o r m e r s ) 预训练模型得到输入序列语义的词向量; 然后将训练后的词向量输入双向长短期记忆网络 (b i - d i r e c t i o n a ll o n gs h o r t - t e r m memo r y, B i L STM) 模型进一步获取上下文特征; 最后根据条件随机场 (c o n d i t i o n a lr a n d omf i e l d s, CRF) 的标注规则和序列解码能力输出最大概率序列标注结果, 构建油气领域命名实体识别模型框架。 将 BERT - B i L STM - CRF模型与其他2种命名实体识别模型 (B i L STM - CRF、 B i L STM -A t t e n t i o n - CRF) 在包括3 万 多 条 文 本 语 料 数 据、 4 类 实 体 的 自 建 数 据 集 上 进 行 了 对 比 实 验。 实 验 结 果 表 明,BERT - B i L STM - CRF模型的准确率 (P) 、 召回率 (R) 和 F1 值分别达到9 1 .3%、 9 4 .5%和9 2 .9%, 实体识别效果优于其他2种模型。

参考文献/References:


[1] ANURADHAJ .Ab r i e f i n t r o d u c t i o no nb i gd a t a5V sc h a r a c t e r i s t i c sa n dh a d o o pt e c h n o l o g y [J] .P r o c e d i aC omp u t e rS c i e n c e, 2 0 1 5,4 8: 3 1 9 - 3 2 4 .
[2] 黄恒琪, 于娟, 廖晓, 等. 知识图谱研究综述 [J] . 计算机系统应用, 2 0 1 9, 2 8 (6): 1 - 1 2 .HUANG H Q, YUJ, L I AOX, e ta l .R e v i e wo nk n ow l e d g eg r a p h s [J] .C omp u t e rS y s t ems& Ap p l i c a t i o n s, 2 0 1 9, 2 8 (6): 1 - 1 2 .
[3] J ISX, PANSR, CAMBR I A E, e ta l .As u r v e yo nk n ow l e d g eg r a p h s: r e p r e s e n t a t i o n, a c q u i s i t i o n, a n da p p l i c a t i o n s [J] . I EEET r a n s a c t i o n so nNe u r a lNe t wo r k sa n dL e a r n i n gS y s t ems, 2 0 2 2, 3 3 (2): 4 9 4 - 5 1 4 .
[4] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述 [J] . 计算机研究与发展, 2 0 1 6, 5 3 (3): 5 8 2 - 6 0 0 .L I U Q, L IY, DUAN H, e ta l .Kn ow l e d g eg r a p hc o n s t r u c t i o nt e c h n i q u e s [J] .J o u r n a lo fC omp u t e rR e s e a r c h An dD e v e l o pme n t,第2 1卷 第1期 高国忠 等: 基于 BERT - B i L STM - CRF模型的油气领域命名实体识别 ·6 3·2 0 1 6, 5 3 (3): 5 8 2 - 6 0 0 .
[5] 秦长江, 侯汉清. 知识图谱: 信息管理与知识管理的新领域 [J] . 大学图书馆学报, 2 0 0 9, 2 7 (1): 3 0 - 3 7, 9 6 .Q I NCJ, HOU H Q .Ma p p i n gk n ow l e d g ed oma i n: An e wf i e l do f i n f o r ma t i o nma n a g eme n ta n dk n ow l e d g ema n a g eme n t [J] .J o u r n a lo fA c a d em i cL i b r a r i e s, 2 0 0 9, 2 7 (1): 3 0 - 3 7, 9 6 .
[6] NADEAU D, S EK I NES .As u r v e yo fn ame de n t i t yr e c o g n i t i o na n dc l a s s i f i c a t i o n [J] .2 0 0 7, 3 0 (1): 3 - 2 6 .
[7] 羊艳玲, 李燕, 钟昕妤, 等. 基于 B i L STM - CRF的中医医案命名实体识别 [J] . 中医药信息, 2 0 2 1, 3 8 (1 1): 1 5 - 2 1 .YANGYL, L IY, ZHONGXY, e ta l .Name de n t i t yr e c o g n i t i o no fTCM me d i c a lr e c o r d sb a s e do nB i L STM - CRF [J] . I n f o r ma t i o no nT r a d i t i o n a lC h i n e s eMe d i c i n e, 2 0 2 1, 3 8 (1 1): 1 5 - 2 1 .
[8] 谢腾, 杨俊安, 刘辉. 基于 BERT - B i L STM - CRF模型的中文实体识别 [J] . 计算机系统应用, 2 0 2 0, 2 9 (7): 4 8 - 5 5 .X I ET, YANGJ A, L I U H .C h i n e s ee n t i t yr e c o g n i t i o nb a s e do nBERT - B i L STM - CRF mo d e l [J] .C omp u t e rS y s t ems & Ap p l i c a -t i o n s, 2 0 2 0, 2 9 (7): 4 8 - 5 5 .
[9] 刘浏, 王东波. 命名实体识别研究综述 [J] . 情报学报, 2 0 1 8, 3 7 (3): 3 2 9 - 3 4 0 .L I UL, WANGDB .Ar e v i e wo nn ame de n t i t yr e c o g n i t i o n [J] .J o u r n a lo ft h eC h i n aS o c i e t yf o rS c i e n t i f i ca n dT e c h n i c a lI n f o r ma t i o n,2 0 1 8, 3 7 (3): 3 2 9 - 3 4 0 .
[1 0] 焦凯楠, 李欣, 朱容辰. 中文领域命名实体识别综述 [J] . 计算机工程与应用, 2 0 2 1, 5 7 (1 6): 1 - 1 5 .J I AO K N, L IX, ZHU RC .Ov e r v i e wo fC h i n e s ed oma i nn ame de n t i t yr e c o g n i t i o n [J] .C omp u t e rE n g i n e e r i n ga n dAp p l i c a t i o n s,2 0 2 1, 5 7 (1 6): 1 - 1 5 .
[1 1] TODOROV I CBT, RANC I CSR, MARKOV I CIM, e ta l .N a m e de n t i t yr e c o g n i t i o na n dc l a s s i f i c a t i o nu s i n gc o n t e x tH i d d e n Ma r k o vMo d e l[C] .9 t hS ymp o s i umo nNe u r a lNe t wo r kAp p l i c a t i o n si nE l e c t r i c a lE n g i n e e r i n g . I EEE, 2 0 0 8: 4 3 - 4 6 .
[1 2] BERGER AL, DELLAP I ETRASA, DELLAP I ETRA VJ .A ma x i mume n t r o p ya p p r o a c ht on a t u r a ll a n g u a g ep r o c e s s i n g [J] .C omp u t a t i o n a lL i n g u i s t i c s, 1 9 9 6, 2 2 (1): 3 9 - 7 1 .
[1 3] I SOZAK IH, KAZAWA H .S p e e d i n gu pn ame de n t i t yr e c o g n i t i o nb a s e do nS u p p o r tV e c t o rMa c h i n e s [J] . I p s jS i gNo t e s, 2 0 0 2, 1:1 - 8 .
[1 4] LAF FERTYJ, MCCALLUM A, PERE I RAF .C o n d i t i o n a lr a n d omf i e l d s: p r o b a b i l i s t i cmo d e l sf o rs e gme n t i n ga n dl a b e l i n gs e q u e n c ed a t a[C] .1 8 t hI n t e r n a t i o n a lC o n f e r e n c eo nMa c h i n eL e a r n i n g, 2 0 0 1: 2 8 2 - 2 8 9 .
[1 5] 张晓艳, 王挺, 陈火旺. 基于混合统计模型的汉语命名实体识别方法 [J] . 计算机工程与科学, 2 0 0 6, 2 8 (6): 1 3 5 - 1 3 9 .ZHANGX Y, WANG T, CHEN H W .A m i x e ds t a t i s t i c a lmo d e l - b a s e d m e t h o df o rC h i n e s en a m e de n t i t yr e c o g n i t i o n [J] .C omp u t e rE n g i n e e r i n g& S c i e n c e, 2 0 0 6, 2 8 (6): 1 3 5 - 1 3 9 .
[1 6] 王丹, 樊兴华. 面向短文本的命名实体识别 [J] . 计算机应用, 2 0 0 9, 2 9 (1): 1 4 3 - 1 4 5, 1 7 1 .WANG D, FANXH .N a m e de n t i t yr e c o g n i t i o nf o rs h o r tt e x t [J] . J o u r n a lo fC omp u t e rA p p l i c a t i o n s, 2 0 0 9, 2 9 (1): 1 4 3 - 1 4 5, 1 7 1 .
[1 7] 孙镇, 王惠临. 命名实体识别研究进展综述 [J] . 现代图书情报技术, 2 0 1 0 (6): 4 2 - 4 7 .SUNZ, WANG H L .Ov e r v i e wo nt h ea d v a n c eo ft h er e s e a r c ho nn ame de n t i t yr e c o g n i t i o n [J] .Ne w T e c h n o l o g yo fL i b r a r ya n dI n f o r ma t i o nS e r v i c e, 2 0 1 0 (6): 4 2 - 4 7 .
[1 8] 郑洪浩, 宋旭晖, 于洪涛, 等. 基于深度学习的中文命名实体识别综述 [J] . 信息工程大学学报, 2 0 2 1, 2 2 (5): 5 9 0 - 5 9 6 .ZHENG H H, SONGX H, YU H T, e ta l .S u r v e yo fC h i n e s en ame de n t i t yr e c o g n i t i o nb a s e do nd e e pl e a r n i n g [J] .J o u r n a lo fI n f o r ma t i o nE n g i n e e r i n gUn i v e r s i t y, 2 0 2 1, 2 2 (5): 5 9 0 - 5 9 6 .
[1 9] COLLOBERTR, WE STONJ, BOTTOU L, e ta l .Na t u r a ll a n g u a g ep r o c e s s i n g (a l mo s t) f r oms c r a t c h [J] .J o u r n a lo fMa c h i n eL e a r n i n gR e s e a r c h2 0 1 1, 1 2: 2 4 9 3 - 2 5 3 7 .
[2 0] HUANGZ H, XU W, YU K .B i d i r e c t i o n a lL S TM - CRF mo d e l sf o rs e q u e n c et a g g i n g [E B /OL] .2 0 1 5: a r X i v: 1 5 0 8 .0 1 9 9 1 .h t t p s: / /a r x i v .o r g / a b s / 1 5 0 8 .0 1 9 9 1 .p d f .
[2 1] MA XZ, HOVY E .E n d - t o - e n ds e q u e n c el a b e l i n gv i aB i - d i r e c t i o n a lL S TM - CNN s - CRF [E B /OL] .2 0 1 6: a r X i v: 1 6 0 3 .0 1 3 5 4 .h t t p s: / /a r x i v .o r g / a b s / 1 6 0 3 .0 1 3 5 4 .p d f .
[2 2] Q I UJH, ZHOU Y M, WANGQ, e ta l .C h i n e s ec l i n i c a ln a m e de n t i t yr e c o g n i t i o nu s i n gr e s i d u a ld i l a t e dc o n v o l u t i o n a ln e u r a ln e t w o r kw i t hc o n d i t i o n a lr a n d omf i e l d [J] . I EEET r a n s a c t i o n so nNa n o b i o s c i e n c e, 2 0 1 9, 1 8 (3): 3 0 6 - 3 1 5 .
[2 3] YAN H, DENGBC, L IXN, e ta l .TENER: a d a p t i n gt r a n s f o r me re n c o d e rf o rn ame de n t i t yr e c o g n i t i o n[EB /OL] .2 0 1 9: a r X i v:1 9 1 1 .0 4 4 7 4 .h t t p s: / / a r x i v .o r g / a b s / 1 9 1 1 .0 4 4 7 4 .p d f .
[2 4] 曾青霞, 熊旺平, 杜建强, 等. 结合自注意力的 B i L S TM - CRF的电子病历命名实体识别 [J] . 计算机应用与软件, 2 0 2 1, 3 8 (3):1 5 9 - 1 6 2, 2 4 2 .ZENG QX, X I ONG WP, DUJQ, e ta l .E l e c t r o n i cm e d i c a l r e c o r dn a m e de n t i t yr e c o g n i t i o nc omb i n e dw i t hs e l f - a t t e n t i o nb i l s t m - c r f [J] .C omp u t e rA p p l i c a t i o n sa n dS o f t w a r e, 2 0 2 1, 3 8 (3): 1 5 9 - 1 6 2, 2 4 2 .
[2 5] Q I U QJ, X I EZ, WU L, e ta l .B i L STM - CRFf o rg e o l o g i c a ln ame de n t i t yr e c o g n i t i o nf r omt h eg e o s c i e n c el i t e r a t u r e [J] .E a r t hS c i e n c eI n f o r ma t i c s, 2 0 1 9, 1 2 (4): 5 6 5 - 5 7 9 .
[2 6] 刘文聪, 张春菊, 汪陈, 等. 基于 B i L STM - CRF的中文地质时间信息抽取 [J] . 地球科学进展, 2 0 2 1, 3 6 (2): 2 1 1 - 2 2 0 .L I U W C, ZHANG CJ, WANG C, e ta l .G e o l o g i c a lt i m ei n f o r m a t i o ne x t r a c t i o nf r om C h i n e s et e x tb a s e do nB i L S TM - CRF [J] .Ad v a n c e si nE a r t hS c i e n c e, 2 0 2 1, 3 6 (2): 2 1 1 - 2 2 0 .
[2 7] 林立涛, 王东波, 刘江峰, 等. 数字人文视域下典籍动物命名实体识别研究: 以 S i k u BERT 预训练模型为例 [J] . 图书馆论坛,2 0 2 2, 4 2 (1 0): 4 2 - 5 0 .·6 4· 长江大学学报 (自然科学版) 2 0 2 4年1月L I NLT, WANGDB, L I UJF, e ta l .An i ma ln ame de n t i t yr e c o g n i t i o ni na n c i e n tC h i n e s ec l a s s i c sf r omt h ep e r s p e c t i v eo fd i g i t a lh uma n i t i e s:b a s e do nS i k u BERTp r e - t r a i n i n gmo d e l [J] .L i b r a r yT r i b u n e, 2 0 2 2, 4 2 (1 0): 4 2 - 5 0 .
[2 8] 刘巨升, 于红, 杨惠宁, 等. 基于多核卷积神经网络 (BERT+Mu l t i - CNN+CRF) 的水产医学嵌套命名实体识别 [J] . 大连海洋大学学报, 2 0 2 2, 3 7 (3): 5 2 4 - 5 3 0 .L I UJS, YU H, YANG H N, e ta l .R e c o g n i t i o no fn e s t e dn ame de n t i t i e si na q u a t u r eme d i c i n eb a s e do nmu l t i - k e r n e lc o n v o l u t i o n(BERT+Mu l t i - CNN+CRF) [J] .J o u r n a lo fD a l i a nO c e a nUn i v e r s i t y, 2 0 2 2, 3 7 (3): 5 2 4 - 5 3 0 .
[2 9] 曾兰兰, 王以松, 陈攀峰. 基于 BERT 和联合学习的裁判文书命名实体识别 [J] . 计算机应用, 2 0 2 2, 4 2 (1 0):3 0 1 1 - 3 0 1 7 .ZENGLL, WANGYS, CHENPF .N a m e de n t i t yr e c o g n i t i o nb a s e do nB ERTa n dj o i n t l e a r n i n gf o r j u d gm e n td o c um e n t s [J] . J o u r n a lo fC omp u t e rAp p l i c a t i o n s, 2 0 2 2, 4 2 (1 0): 3 0 1 1 - 3 0 1 7 .
[3 0] 杨培, 杨志豪, 罗凌, 等. 基于注意机制的化学药物命名实体识别 [J] . 计算机研究与发展,2 0 1 8,5 5 (7):1 5 4 8 - 1 5 5 6 .YANGP, YANGZH, LUOL, e ta l .A na t t e n t i o n - b a s e da p p r o a c hf o rc h e m i c a l c omp o u n da n dd r u gn a m e de n t i t yr e c o g n i t i o n [J] . J o u r n a lo fC omp u t e rR e s e a r c ha n dD e v e l o pm e n t, 2 0 1 8, 5 5 (7): 1 5 4 8 - 1 5 5 6 .
[3 1] 刘国强, 龚仁彬, 石玉江, 等. 油气层测井知识图谱构建及其智能识别方法 [J] . 石油勘探与开发, 2 0 2 2, 4 9 (3): 5 0 2 - 5 1 2 .L I U G Q, GONGRB, SH IYJ, e ta l .C o n s t r u c t i o no fw e l l l o g g i n gk n o w l e d g eg r a p ha n di n t e l l i g e n t i d e n t i f i c a t i o nm e t h o do fh y d r o c a r b o n -b e a r i n gf o r m a t i o n [J] .P e t r o l e um E x p l o r a t i o na n dD e v e l o pme n t, 2 0 2 2, 4 9 (3): 5 0 2 - 5 1 2 .
[3 2] 张雪英, 叶鹏, 王曙, 等. 基于深度信念网络的地质实体识别方法 [J] . 岩石学报, 2 0 1 8, 3 4 (2): 3 4 3 - 3 5 1 .ZHANGXY, YEP, WANGS, e ta l .G e o l o g i c a le n t i t yr e c o g n i t i o nme t h o db a s e do nD e e pB e l i e fNe t wo r k s [J] .A c t aP e t r o l o g i c aS i n i c a, 2 0 1 8, 3 4 (2): 3 4 3 - 3 5 1 .
[3 3] 钟原, 刘小溶, 王杰, 等. 基于 NER 的石油非结构化信息抽取研究 [J] . 西南石油大学学报 (自然科学版), 2 0 2 0, 4 2 (6):1 6 5 - 1 7 3 .ZHONG Y, L I U X R, WANG J, e t a l .R e s e a r c h o f e x t r a c t i o n o n p e t r o l e um u n s t r u c t u r e di n f o r m a t i o n b a s e d o n n a m e d e n t i t yr e c o g n i t i o n [J] . J o u r n a lo fS o u t h w e s tP e t r o l e um Un i v e r s i t y(S c i e n c e& T e c h n o l o g yE d i t i o n), 2 0 2 0, 4 2 (6): 1 6 5 - 1 7 3 .
[3 4] 郭军成, 万刚, 胡欣杰, 等. 基于 BERT 的中文简历命名实体识别 [J] . 计算机应用, 2 0 2 1, 4 1 (S 1): 1 5 - 1 9 .GUOJC, WAN G, HU XJ, e ta l .C h i n e s er e s um en a m e de n t i t yr e c o g n i t i o nb a s e do nB ERT [J] . J o u r n a lo fC omp u t e rA p p l i c a t i o n s,2 0 2 1, 4 1 (S 1): 1 5 - 1 9 .
[3 5] DEVL I NJ, CHANG M W, LEEK, e ta l .B ERT:p r e - t r a i n i n go fd e e pb i d i r e c t i o n a l t r a n s f o r m e r sf o r l a n g u a g eu n d e r s t a n d i n g [E B /OL] .2 0 1 8: a r X i v: 1 8 1 0 .0 4 8 0 5 .h t t p s: / / a r x i v .o r g / a b s / 1 8 1 0 .0 4 8 0 5 .p d f .
[3 6] 岳增营, 叶霞, 刘睿珩. 基于语言模型的预训练技术研究综述 [J] . 中文信息学报, 2 0 2 1, 3 5 (9): 1 5 - 2 9 .YUEZY, YEX, L I U R H .As u r v e yo fl a n g u a g emo d e lb a s e dp r e - t r a i n i n gt e c h n o l o g y [J] . J o u r n a lo fC h i n e s eI n f o r m a t i o nP r o c e s s i n g,2 0 2 1, 3 5 (9): 1 5 - 2 9 .
[3 7] ZHOU M, DUAN N, L I USJ, e ta l .P r o g r e s s i nn e u r a lNL P: mo d e l i n g,l e a r n i n g,a n dr e a s o n i n g [J] .E n g i n e e r i n g, 2 0 2 0, 6 (3):1 5 5 - 1 8 8 .
[3 8] 陈德光, 马金林, 马自萍, 等. 自然语言处理预训练技术综述 [J] . 计算机科学与探索, 2 0 2 1, 1 5 (8): 1 3 5 9 - 1 3 8 9 .CHENDG, MAJL, MAZP, e ta l .R e v i e wo fp r e - t r a i n i n gt e c h n i q u e sf o rn a t u r a l l a n g u a g ep r o c e s s i n g [J] .J o u r n a lo fF r o n t i e r so fC omp u t e rS c i e n c ea n dT e c h n o l o g y, 2 0 2 1, 1 5 (8): 1 3 5 9 - 1 3 8 9 .
[3 9] VASWAN IA, SHAZEERN, PARMARN,e ta l .A t t e n t i o ni sa l ly o un e e d[C] .P r o c e e d i n g so ft h e3 1 s tI n t e r n a t i o n a lC o n f e r e n c eo nNe u r a lI n f o r ma t i o nP r o c e s s i n gS y s t ems .ACM, 2 0 1 7: 6 0 0 0 - 6 0 1 0 .
[4 0] 林佳瑞, 程志刚, 韩宇, 等. 基于 BERT 预训练模型的灾害推文分类方法 [J] . 图学学报, 2 0 2 2, 4 3 (3): 5 3 0 - 5 3 6 .L I NJR, CHENGZG, HAN Y, e ta l .D i s a s t e rt w e e t sc l a s s i f i c a t i o n me t h o db a s e do np r e t r a i n e dBERT mo d e l [J] .J o u r n a lo fG r a p h i c s, 2 0 2 2, 4 3 (3): 5 3 0 - 5 3 6 .
[4 1] 张心宇, 刘源, 宋佳凝. 基于 L STM 神经网络的短期轨道预报 [J] . 系统工程与电子技术, 2 0 2 2, 4 4 (3): 9 3 9 - 9 4 7 .ZHANGXY, L I U Y, SONGJN .S h o r t - t e r mo r b i tp r e d i c t i o nb a s e do nL S TMn e u r a ln e t w o r k [J] .S y s t e m sE n g i n e e r i n ga n dE l e c t r o n i c s,2 0 2 2, 4 4 (3): 9 3 9 - 9 4 7 .
[4 2] 李丽双, 郭元凯. 基于 CNN - BL STM - CRF模型的生物医学命名实体识别 [J] . 中文信息学报, 2 0 1 8, 3 2 (1): 1 1 6 - 1 2 2 .L ILS, GUO YK .B i ome d i c a ln ame de n t i t yr e c o g n i t i o nw i t hCNN - BL STM - CRF [J] .J o u r n a lo fC h i n e s eI n f o r ma t i o nP r o c e s s i n g,2 0 1 8, 3 2 (1): 1 1 6 - 1 2 2 .
[4 3] 余本功, 范招娣. 面向自然语言处理的条件随机场模型研究综述 [J] . 信息资源管理学报, 2 0 2 0, 1 0 (5): 9 6 - 1 1 1 .YUBG, FAN Z D .A r e v i e w o fc o n d i t i o n a lr a n d om f i e l d mo d e l sf o rn a t u r a ll a n g u a g ep r o c e s s i n g [J] .J o u r n a lo fI n f o r ma t i o nR e s o u r c e sMa n a g eme n t, 2 0 2 0, 1 0 (5): 9 6 - 1 1 1 .

更新日期/Last Update: 2024-01-25