1. 标题
基于深度学习的地质报告实体提取研究
2. 成果信息
Qiu Qinjun, Xie Zhong, Wu Liang* &Tao Liufeng. GNER: A Generative Model for Geological Named Entity Recognition Without Labeled Data Using Deep Learning[J]. Earth and Space Science, 2019, 6(6): 931-946.
Qiu Qinjun, Xie Zhong, Wu Liang* &Tao Liufeng. BiLSTM-CRF for geological named entity recognition from the geoscience literature[J]. Earth Science Informatics, 2019: 1-15.
This study was financially supported by the National Natural Science Foundation of China (41871311, 41671400, 41871305), the National Key Research and Development Program (2017YFB0503600, 2017YFC0602204, 2018YFB0505500).
3. 成果团队成员
邱芹军(第一作者),博士生,bat365官网登录入口。研究方向:深度学习,地质大数据。
Email: qiuqinjun@cug.edu.cn
谢 忠,教授,bat365官网登录入口。研究方向:时空数据挖掘与知识发现,地理信息系统。
吴 亮(通讯作者),教授,bat365官网登录入口。研究方向:空间分析建模和应用,空间信息服务。
Email: wuliang@cug.edu.cn
陶留峰,讲师,bat365官网登录入口。研究方向:深度学习,地质大数据。
4. 成果介绍
长期以来地质数据都以文档、目录文件的形式存储,对于地质数据的检索、更新、统计效率低下,不利于数据的挖掘、查询等应用,与此同时地质资料包含大量非结构化数据(图片、多媒体、文本等信息),同结构化数据共同构成了海量的地质空间资料。这些以结构化、半结构化形式存在的地质数据大多采用离线分散式存储方式,文件“小而碎”且总量巨大。命名实体识别是自然语言处理NLP里的一项很基础的任务,就是指从文本中识别出命名性指称项,为关系抽取等任务做铺垫。地学领域命名实体识别未地学领域数据分析及知识的挖掘提供了机遇及挑战。现有的NER模型或技术主要是基于规则和有监督的方法,构建大量的规则或训练数据集耗时费力。在本文中,我们设计了一个针对地学领域NER识别与提取的框架。在此框架下,收集地学领域实体和通用领域词作为种子词,然后对搜集的这些词汇按照词频进行预处理及分组操作;急着采用随机抽取算法基于一元文法统计模型生成大规模训练数据集。实验结果表明,该模型能有效地地质命名实体。
图1 算法流程图
图2 不同参数设置下模型算法性能
图3 不同训练集大小下模型算法性能
创新点:
(1)针对专业领域需要标注大量语料库耗时费力问题,提出了一种基于单词语料生成式的深度学习模型,将该模型应用到地学领域命名实体识别中,获得了不错效果。同时,该思想能够较好地扩展到其他专业领域。
(2)提出了一种基于Bi-LSTM+CRF架构的地学领域命名实体识别模型,实验结果展示,该模型能够有效提取地学领域实体。