论生物医学信息综合检索的步骤和内容

论生物医学信息综合检索的步骤和内容

一、论生物医学信息综合检索步骤与内容(论文文献综述)

卢熙[1](2021)在《药物临床试验文献的实体抽取研究及应用》文中提出随着临床医学领域的快速发展,越来越多的研究成果以临床试验文献的形式不断发表,大量的临床证据以非结构化的文本形式蕴含在文献中。临床证据是临床实践指南制定与更新的重要依据,因此从这些非结构化的临床试验文献文本中自动化地抽取出基础的证据信息如药物名称、疾病名称以及疗效指标,对临床实践指南的制定与更新起着至关重要的作用。然而,目前缺乏用于临床试验文献中药物名称、疾病名称以及疗效指标抽取的标准数据集,从而在此领域的实体抽取方法研究进展缓慢。另外,专门用于临床试验文献实体抽取的系统较少,临床研究人员往往缺乏计算机相关背景知识,对开展相关研究造成了障碍。因此,围绕着以上问题,本文主要开展了以下三个方面的工作:(1)本文构建了临床试验文献中药物名称、疾病名称以及疗效指标实体抽取的标准数据集。首先从Pub Med中收集了总共223622篇药物临床试验文献,其中包含系统评价、Meta分析以及随机对照试验三类文献。然后按照收集到的这三类文献类型的数量比例从中随机选取了8000篇文献的摘要文本,通过“人机协同”的方式对其进行命名实体标注与审核,最终得到了包含46578个药物名称、25559个疾病名称以及18970个疗效指标的标准数据集。(2)本文提出了基于BioBERT的多任务学习及键值记忆网络的实体抽取模型(MT-BioKMNER),并且分别在构建的数据集以及四个公开数据集(BC5CDR、BioNLP11ID、BC2GM、NCBI-Disease)上与CRF、BILSTM-CRF、BERT、BioBERT等四个模型进行了对比试验,此外还重点比较分析了多任务学习机制和键值记忆网络对模型的影响。通过实验分析表明,本文提出的MT-BioKMNER模型在构建的数据集以及公开数据集上,性能都优于其他四个模型。在构建的数据集上,三种实体的平均F1值达到了75.82%,比其他模型中最优的BioBERT模型高了2.54%,其中药物名称的F1值达到了81.72%,疾病名称的F1值达到了68.58%,疗效指标的F1值达到了77.17%。多任务学习以及键值记忆网络的影响分析实验也验证了本文引入这两个机制对模型性能提升的有效性。(3)本文基于MT-BioKMNER模型设计开发了临床试验文献实体抽取系统。系统操作界面简单友好,临床研究人员可方便查看并检索收集的临床试验文献信息,并实现文献摘要文本中药物名称、疾病名称以及疗效指标的自动化抽取。

季京辉[2](2021)在《基于深度学习的药物知识图谱构建及智能问答应用研究》文中指出药物是一种被广泛研究的生物医学实体,大量被应用于临床治疗当中。药物不仅可以治愈疾病,有时也会产生一些不良反应,损伤病人的身体,严重者可能诱发其他疾病。因此,研究药物与症状、疾病等表型之间的相互关系至关重要。如今,生物医学文献是最新、最全面的药物知识来源。但如何从海量的生物医学文献中获取临床需要的、有价值的药物知识并加以利用还存在如下挑战:(1)生物医学文献都是以非结构化的文本形式记载,人工处理和提取相关知识费时费力;(2)现有的药物信息抽取研究主要针对的是药物与药物之间的相互作用关系,而针对药物与表型之间关系的研究较少;(3)如何让抽取出的数据为临床辅助诊疗所使用也是急需解决的问题。基于此,本文主要研究内容包含以下三个方面:(1)本文进行基于深度学习的药物表型实体关系联合抽取方法研究。本文首先基于Semmed数据库,筛选出药物表型相关的实体及关系构建药物表型实体关系抽取标准数据集,然后针对数据集中存在的标注问题进行人工审核修复,最终形成了包含21751条关系数据的Semmed药物表型关系抽取语料库。基于此关系抽取数据集和NYT、DDI、CPI数据集,分别利用基于Bio BERT+BILSTM的实体关系联合抽取模型和流水线关系抽取模型进行实体及关系的抽取。其中,本文所提出的联合抽取模型在各数据集实现较高F1分数(Semmed:73.80%,NYT:75.35%,DDI:69.62%,CPI:37.23%)的情况下,实现了实体类别信息的抽取,解决了部分现有联合抽取方法无法抽取实体类别信息的缺点。相比之下,流水线模型的关系抽取F1分数均低于联合抽取模型,这说明了分解策略的有效性。同时,流水线模型的实验结果中查全率普遍高于查准率的情况,也验证了流水线方法中存在的冗余实体问题。(2)本文进行药物表型知识图谱构建研究。本文以抽取出的Semmed药物表型关系数据为基础,融合OpenFDA不良反应数据和DrugBank药物数据构建药物表型知识图谱。针对于不同数据源中存在的“多词一义”问题,采用字典法进行实体对齐,知识图谱对齐前含有229608个实体和3756234条关系,对齐后含有185584个实体,3421286条关系。(3)本文进行基于药物表型知识图谱的问答应用研究。本文以药物表型知识图谱为基础搭建了基于模板的智能问答系统。该问答系统使用规则的方法将用户问句转换为Cypher图查询语句,共计支持21种问答类型。基于模板的方法具有可解释性强、易于实现和不需要标注训练数据的优点,适用于领域知识库问答系统的构建。

熊婷[3](2021)在《子宫内膜异位症中医慢病管理方案及管理工具的构建研究》文中研究说明研究目的:子宫内膜异位症严重影响患者的健康和生活质量,被认为是一种慢性疾病,需要长期治疗和管理。本文的目的是在文献研究和小组讨论的基础上,构建子宫内膜异位症中医慢性病管理方案及管理工具,为内异症中医慢性病管理提供一种新的途径,以期提高内异症患者的健康水平。研究方法:1运用文献研究法,通过收集、识别和整理国内外与子宫内膜异位症管理相关的文献、书籍和着作以及网络资源,总结出可供借鉴的经验,为本研究子宫内膜异位症中医慢病管理方案的构建提供更好的参考和指导。2采用小组讨论、专家访谈的方法,对查阅文献后拟定的子宫内膜异位症中医慢性病管理方案的主要内容进行讨论和分析,形成最终的子宫内膜异位症中医慢性病管理方案。3以构建的子宫内膜异位症中医慢性病管理方案为核心,探讨内异症中医慢病管理工具的核心功能,结合软件开发技术构建内异症中医慢病管理工具。研究结果:1形成子宫内膜异位症中医慢病管理方案:(1)子宫内膜异位症生物医学干预管理方案从未婚未育、合并盆腔包块、合并痛经、合并不孕、术后复发、青少年内异症、内异症随访7个角度制定19条具体建议。(2)子宫内膜异位症非医学干预管理方案包括疾病认知、饮食指导、运动管理、心理干预4个子方案。疾病认知方案从发病、诊断、治疗、监测及预防保健等方面制定子宫内膜异位症疾病认知调查表,共24个问题条目。饮食指导方案包括饮食原则及内异症食材数据库。其中饮食原则从饮食规律性、多样性、伴随疾病等角度制定6条具体原则;内异症食材数据库包括常见食材分类表、常见食材偏性表、常见食材中医性味表、常见食材中医中医辩证推荐表、内异症避免食用食材类别表、内异症少食食材类别表共6个模块。运动管理方案围绕BMI、包块大小、体质类型、经期、运动方式等角度提出7条具体建议。心理干预方案根据SDS及SAS结果制定3个管理分级。2完成子宫内膜异位症中医慢病管理工具构建,包括门诊问诊工具、医生工作平台、患者APP客户端3个子系统的互联网搭建。

刘喆[4](2021)在《基于弱监督的生物医学命名实体识别研究》文中研究说明生物医学命名实体识别,是生物医学信息挖掘的首要步骤。深度神经网络已经成功地应用于生物医学命名实体识别,但是深度神经网络模型的训练,需要大规模高质量的标注语料。人工标注语料的规模较小,难以训练获得高性能的深度神经网络模型。因此,自动构建大规模高质量的弱监督语料,成为提高生物医学命名实体识别性能的有效途径。(1)双角度弱监督语料的构建提出利用生物医学领域的大规模无标注文献和知识库,自动构建弱监督语料。首先,利用PubTator和知识库,分别从召回率的角度和精确率的角度考虑,自动构建弱监督语料。然后,为了全面地识别命名实体,基于召回率角度的弱监督语料,训练获得命名实体识别模型。最后,为了提高命名实体识别的精确率,基于精确率角度的弱监督语料,利用课程学习和遮掩操作,对命名实体识别模型进行进一步地精炼。在CDR和NCBI disease数据集上,该方法取得了比其他弱监督方法更优的性能,证明了本文自动构建弱监督语料方法的有效性,及双角度弱监督语料的互补关系。(2)基于标签迭代纠错的生物医学命名实体识别提出利用人工标注语料,对弱监督语料进行标签迭代纠错。首先,基于弱监督语料和人工标注语料训练获得标签纠错模型。然后,利用标签纠错模型,对弱监督语料进行标签纠错,获得标签纠错后的弱监督语料。由于弱监督语料和人工标注语料的质量差距较大,需要对纠错后的弱监督语料进行迭代纠错,获得高质量的弱监督语料。最后,分别基于双角度的高质量弱监督语料,训练获得两个命名实体识别模型,并利用知识蒸馏的方法,融合两个命名实体识别模型。在CDR、NCBI disease和CHEMDNER数据集上,该方法取得了最先进的性能,证明了标签迭代纠错能够不断地提升弱监督语料的质量,知识蒸馏有效地融合了双角度的命名实体识别模型。(3)基于伪平行语料纠错的生物医学命名实体识别提出利用人工标注语料和弱监督语料,构建伪平行语料,对弱监督语料进行一次性大量噪音纠错。首先,基于弱监督语料,利用课程学习,训练获得知识获取模型,用于识别人工标注语料训练集中的命名实体,获得训练集的弱标签。训练集的人工标签与弱标签平行,构成伪平行语料。然后,基于伪平行语料,训练获得噪音纠错模型,对大规模弱监督语料纠错,获得高质量的弱监督语料。最后,分别采用标签遮掩和Partial-CRF,融合双角度的高质量弱监督语料,训练获得命名实体识别模型。在CDR、NCBI disease和CHEMDNER数据集上的实验结果表明,该方法比基于标签迭代纠错的实体识别方法更优越,证明了利用伪平行语料纠错可以高效地提升弱监督语料的质量,标签遮掩和Partial-CRF能够有效地融合双角度的弱监督语料。

陈禄明[5](2021)在《基于真实世界医疗大数据的中文医学本体重构的研究》文中指出高质量的医学本体,可以打破不同医学文本数据之间的藩篱,使得医学数据能以统一的标准形式被各类信息处理方法充分利用,进而形成一套有效的医学知识表示体系,从而产生有价值的临床应用。相较于西方发达国家,尤其是英语国家,国内的生物医学本体无论从规模、数量还是内容上都处于相对滞后的水平,因此我们急需发展出一套具有中国特色的中文医学本体构建策略与技术路径,来实现中文信息处理技术与中文临床生物医学数据间的有效融合。在我们的调研工作之中,我们会系统性调研并分析整理出国际上已有生物医学本体的构建策略与技术路径,再依据中文语言特性、国内临床现状及中文临床生物医学数据的特点提出一套自己的具有创新性的中文医学本体构建策略,其包括问题定义、术语富集、关系属性提取等七个关键步骤。以此为基础,我们将中文生物医学本体重构定义为三个不同层次的问题,即:中文生物医学本体关注问题的重构、内容的重构及结构的重构。内容的重构是医学本体构建的基础,因此本论文以生物医学本体内容的重构作为研究重心。我们首先尝试了面向内容重构中文生物医学实体挖掘。此外,大部分本体都是表型概念,缺乏表型属性,因此我们提出了一种通过表型属性的定义,实现临床表型信息的精细表征,即实现疾病的细粒度知识表征图谱。属性作为本体内容的进一步丰富和扩充,为本体在实际场景中的应用提供了更细粒度的信息表示策略,因此我们提出一种利用本体属性的细粒度语义信息模型PhenoSSU(表型的语义结构单元),可为本体对疾病知识的描述提供更为丰富的表达能力,为临床诊断提供依据。。在中文生物医学实体挖掘的工作之中,我们首先构建了基于深度学习模型的有监督生物医学实体挖掘方法,该方法以Bert预训练语言模型为核心结合Bi-LSTM神经网络,实现生物医学实体的挖掘。然而,有监督方法存在依赖人工标注质量和上下文多样性方面的问题。因此,我们又基于n-gram统计语言模型以及句法分析模型实现了基于无监督方法的中文生物医学实体挖掘。最后,为了更近一步的提高实体挖掘的收录范围,将罕见词汇、不规范词汇也尽可能进行挖掘,我们提出利用双语映射方法引入高质量英文生物医学本体辅助中文生物医学本体建设的思路,并以UMLS术语集、SimAlign双语词对齐工具以及MetaMap术语标注工具为基础,完成了基于双语资源的中文生物医学实体挖掘。最终采用多方法有机组合的策略,在海量真实世界中文医学大数据语料的加持之下,完成了中文生物医学实体挖掘。为了评测基于多方法融合策略的实体挖掘成果,我们将挖掘后的扩展词表与现有最全面、权威的中文术语集合进行对比,来测试重构所得中文生物医学实体的表达能力是否能得到显着提高。相比已有术语集合,挖掘所得的生物医学术语扩展词表,对真实世界医学信息的描述能力得到明显提升,从原来的58.2%上升到80.2%,提高了37.8%。在构建细粒度本体属性语义模型PhenoSSU工作中,我们旨在用一系列属性和值来获取表型描述背后的完整语义信息。选取维基百科中193个传染病临床指南作为研究语料,基于表型概念和属性值的共现性,将SNOMED-CT中的12个属性引入到PhenoSSU模型中。通过分析PhenoSSU实例是否能够捕获对应表型描述背后的完整语义来评估PhenoSSU模型的表达能力。为了自动构建细粒度表型知识图,提出了一种融合MetaMap标注工具以及机器学习属性识别算法的混合策略。最后,用BRAT标注工具手工构建了 193种传染病的细粒度表型知识图。共形成4020个PhenoSSU语义单元,其中3757个(89.5%)能够很好地捕获临床指南中列出的相应表型描述的完整语义。相比之下,其他信息模型,如CEM和HL7-FHIR模型,分别只能捕获48.4%(2034/4020)和21.8%(914/4020)的完整语义信息。混合策略在表型概念识别子任务上的F1得分为0.732,在属性值预测子任务上的加权平均准确率为0.776。因此,PhenoSSU是一个有效的进行临床指南知识表征的语义信息模型。

陈维龙[6](2021)在《基于两步态多模型的论文引文匹配算法》文中认为科学研究能够带领社会走向更加科技化的生活信息时代,科学家们在各个领域发表了大量的论文,论文中的创新点能推动社会的进步。科研工作者在发表论文的同时也会引用其他文章,一些开创性的文章也会变成被许多后来的科研人引用成为高引文章。许多论文能引导未来的研究者更深一步的思考,文章中新颖的产出也可以去引领科研未来的方向。本文开发了一套算法,可以自动地理解、识别描述对应的被引论文,不仅可以帮助在写论文时能够减少作者查询时间,还能在对论文理解的领域中有所帮助。本文以信息检索为基础,提出了基于两步骤多模型的论文引文匹配算法。论文引文匹配算法总共包含了两个部分,一个是基于融合文本召回算法的论文引文匹配召回算法,一个是基于树与预训练模型的论文引文匹配算法。在召回侧中,提出了解决大规模引文初筛的召回策略,利用词向量的weighted Boosting的算法和weighted bag-of-gram的算法,做到了精确并快速的召回。在基于树与预训练模型的论文引文匹配算法中,利用经过优化的特定领域的预训练模型对论文引文进行匹配,同时,还在不借助外部数据的情况下开发了一套基于论文引文特征框架的梯度提升决策树算法,并在最后的阶段利用模型的差异性做了集成学习,将两者模型融合到一起。该算法也获得了 WSDM CUP 2020年的第一名。

郑蕊[7](2020)在《基于PubMed和预印本网站的生物医学检索课分层设计研究——以新型冠状病毒的认识特点为例》文中指出为加大图书馆对于生物医学学科的文献推广,整体提高生物医学学生检索水平和文献阅读水平,针对现有的生物医学检索课程设置形式单一、不注重学科的发展性和连贯性等问题,在PubMed平台及预印本平台上,以新型冠状病毒的认识特点、文献获取为例,将生物医学检索课程分成本、硕、博3个阶段,提出分阶段更深入的嵌入式课程设计,并指出该框架的建立,可以为生物医学检索课程的教学实践提供一个分层次、目标明确的资源获取思路。

王尚[8](2020)在《中草药文献知识抽取方法研究与应用》文中研究指明随着中医现代化的提出,与中草药相关的文献资源迅速增长。这些文本内容中隐藏着诸多中草药实体知识及关系,如何从非结构化的文本中挖掘有意义的实体关系是目前信息抽取领域的研究热点,也是构建知识库或实体关系网络(知识图谱)的基础。然而目前该领域的研究并不是很多,针对现有的一些研究可以概括为三个方面:一是实体关系的抽取多基于中文语料,然而英文文献中也包含中草药知识。二是抽取方法多基于传统算法,准确率并不是很高,所以有必要结合深度学习技术做进一步的研究。三是对抽取结果的利用,应结合领域知识做进一步的应用。因此本文的主要工作有以下几个方面:一、从PubMed数据库中检索和收集了中草药相关的英文文章。结合中药与其他实体在文献中的关系描述,定义了中药与疾病、中药与化学物质这两种定向关系。在医学工作者的帮助下构建了实体关系抽取语料库,以实现对关系抽取问题的研究。二、为了提高中草药相关的实体关系抽取准确率,本文结合深度学习技术进行了算法的研究。首先提出了SETATT-CNN模型,该模型创新性体现在根据分段输入特征提出了具有分段注意力机制的SEGATT层。在模型训练上设计了具有权值系数的交叉熵损失函数。其次为了进一步利用高阶特征张量,又设计实现了基于混合特征的关系分类方法。该方法通过预训练深度学习模型以获得高阶语义特征,然后通过拼接特征向量并结合不同分类器,以提高关系分类的准确性。三、通过对中医领域主要实体概念及关系的辨析与获取,结合第四章抽取的实体关系,设计并构建了以中药为核心的实体关系网络,实现了将英文实体关系连接到中医实体关系网络中来。首先根据中药知识体系定义了顶层数据模式,其中定义了相关实体和关系,实体包括:中草药、证候、疾病、方剂等;关系包括:治愈、组成、现象表达等。接着抽取顶层数据模式定义好的实体关系以完成数据的实例化填充。最后通过构建同义词库和中英文映射,将从英文文献中抽取的关系三元组连接到以中药为核心的实体关系网络上,实现了实体和关系的整合连接。最后实体关系网络由中医药专家验证其正确性。为了验证本文工作:首先在三组数据上进行了实验,以验证模型性能。实验结果表明:1.本文方法应用到草药与疾病、草药与化学物质这两种关系抽取任务上,经过与其他相关方法对比分析,本文模型取得了较好的结果。2.在BioCreativeV数据集上做进一步验证,和当前采用深度学习方法进行特征提取的模型相比,本文设计的方法在F值上比最好的结果约高2.7%。其次,在为了方便对构建好的知识库进行检索与使用,本文设计并完成了可视化的检索系统。该平台面向领域专家能够实现对实体知识及关系的管理。面向用户具有中医实体知识检索、实体关系查询等各种检索功能,简化了实体关系网络的展示与检索,用户可以更直接的查看和研究实体关系。

乔幸潮[9](2020)在《中药材本体构建研究》文中提出目的:中医药术语标准是中医药信息学的重要组成部分,是支撑中医药信息学快速发展的基石。近年来中药术语标准化研究有了很大的发展,但相对于中医药信息学的要求还有差距。行业内的知识标准,例如国标《中药编码》及《中国药典》,都是文本数据,并不是开放的中药信息智能数据库。中药材知识是中药知识的源头和重要的基础知识,中药术语标准化研究工作应该从中药材术语研究开始,逐步提升到整个中药学领域,为信息智能化奠定坚实的基础。为实现中药材术语概念内涵从自然语言描述向计算机语言的转换,本研究利用本体(ontology)的理论和技术方法,结合中医药领域本体研究现状,基于现有的成熟的本体构建规范,参考OBO Foundry本体开发原则,研究构建一个开放的、语义表达良好的、可验证的中药材领域本体,以实现计算机对中药材多来源数据的识别和匹配,探索中医药领域特色的本体构建方法。方法:使用OBO Foundry推荐的本体构建方法构建中药材本体。首先采用文献调研法调研国内外中医药本体现状,确定本体的主题和覆盖范围。然后收集已有公认的中药材领域权威知识《中国药典》和国标《中药编码》中的中药材术语,并将数据进行初步处理,梳理中药材相关的核心概念,选择顶层本体以及领域周围的可复用本体,用于构建中药材本体。本研究选择的顶层本体是BFO(Basic Formal Ontology,基本形式化本体),复用的本体有NCBI Taxonomy(NCB1生物分类数据库)、PO(Plant Ontology,植物学本体)等,使用OntoFox工具导入复用的本体。中药材本体类的划分采用自上而下和自下而上结合的方法,并依据《中国药典》和国标《中药编码》知识体系本身的特性来确定分类结构和本体类的属性,完成本体的框架设计。使用Protege工具和OWL语言创建本体类和属性,对中药材术语类进行形式化定义,使用本体推理机验证本体并根据推理结果对本体进行整编,完成中药材本体的构建。构建完成后采用文献抽样验证和专家咨询问卷的方式进一步验证本体的通用性、完备性和共识性。本研究共抽取了各类中药材相关文献中的103条中药材术语来验证中药材本体,发放了 12份中药材本体专家咨询问卷检验本研究的方法、本体设计的科学性并确保本体框架和核心概念的共识性。结果:本项研究包含了《中国药典》、国标《中药编码》中的843种中药材术语。在中药材本体框架的文献抽样验证中,共抽取了 103条中药材术语,其中101条术语可以适用于中药材本体框架,可适用率达98.06%,由此得出中药材本体可以覆盖大部分的中药材概念,基本具备通用性和完备性,但仍有进一步完善的可能。中药材本体专家咨询问卷的结果经统计得出本研究的研究方法、本体设计较为合理,本体框架和核心概念等具备共识性。中药材本体的构建实现了中药材术语概念内涵从自然语言描述向计算机语言的转换,使原本只能相互映射的中药材术语集可以映射到中药材本体中来,为中药学计算机人工智能的发展提供了可能。中药材本体还可应用于中医药标注系统的语义标注。结论:中药材本体的构建探索了中医药领域的本体构建的新方法,使中药材术语更适合于计算机的自动理解,更利于规范化、标准化、智能化。中药材本体的构建遵循OBO Foundry的本体开发原则,复用了多个OBO中的生物医学本体,将“中医药知识”与“现代生物医学本体”进行了沟通与连接,为以后中药材本体加入OBO本体提供了基本条件。中药材本体的构建为以后中医药领域本体的构建提供了方法学上的参考。

曲直[10](2020)在《基于多组学数据的本体注释与知识图谱构建方法研究》文中研究指明随着测序技术的不断发展,测序费用逐年降低,各国相继发展了大规模精准医疗计划。随着这些大规模精准医疗计划的实施,相关的生物数据呈爆炸式增长。当前对于如何管理和分析海量的生物变异数据是目前生物信息学研究人员面临的巨大难题之一。虽然有不少基于变异数据的管理软件,但是大部分没有与本体数据结合,然而这些本体信息数据在疾病研究、分子诊断上有着不可忽视的作用。精准医疗计划的实施离不开复杂性疾病的研究。复杂性疾病是由基因或环境等多领域因素导致的疾病。在治疗复杂性疾病时,单一组学数据的分析往往是不够的,而是需要基于多组学知识进行全方位的理解。然而这些组学数据往往存储在不同的数据库中,给生物医学工作者来了极大的不便。因此基于多组学数据对变异文件进行本体注释,构建多组学知识图谱是未来生物医学领域重要课题之一。本文主要研究成果如下:(1)研究了测序分析工作流与本体注释方法。本文选择较流行的比对和变异检测软件搭配,完成了DNA二代、DNA三代和RNA测序。并基于检测的变异文件,开发了本体注释方法,通过该方法可以将本体信息注释到变异文件上,在一个文件上整合多个数据库,极大的提高了查询效率。(2)搭建了多组学知识图谱与基于知识图谱的语义检索模型。通过先构建数据模式层,然后基于数据模式层建立多组学知识图谱。目前该图谱包含30多万个节点,600多万个关系。最后基于知识图谱构建了语义搜索模型,用以满足用户的语义搜索需求。(3)建立了变异管理与多组学知识图谱集成平台。并包含了基于知识图谱的语义搜索模型。平台采用B/S架构,后端使用Mongo DB和Neo4j两种数据库。前端采用WEB界面,满足用户的变异管理需求和多组学语义搜索需求,方便用户使用。

二、论生物医学信息综合检索步骤与内容(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、论生物医学信息综合检索步骤与内容(论文提纲范文)

(1)药物临床试验文献的实体抽取研究及应用(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要工作
    1.4 论文章节安排
2 相关研究及方法
    2.1 相关研究
        2.1.1 实体抽取
        2.1.2 句法分析
        2.1.3 预训练模型
    2.2 相关方法
        2.2.1 条件随机场
        2.2.2 双向长短时记忆网络与CRF模型
        2.2.3 BERT与 BioBERT模型
    2.3 评价指标
    2.4 本章小结
3 临床试验文献的实体抽取数据集构建
    3.1 实验数据收集
    3.2 实验数据处理
        3.2.1 数据标注
        3.2.2 标准数据集构建
        3.2.3 语法信息构建
    3.3 本章小结
4 基于BioBERT的多任务学习及键值记忆网络模型实现
    4.1 相关实验数据集
    4.2 模型实现
        4.2.1 多任务学习
        4.2.2 键值记忆网络
        4.2.3 模型框架
        4.2.4 模型训练过程
    4.3 实验结果及分析
        4.3.1 实验环境
        4.3.2 总体结果分析
        4.3.3 KVMN影响分析
        4.3.4 多任务影响分析
    4.4 本章小结
5 临床试验文献实体抽取系统研发
    5.1 系统介绍
        5.1.1 系统概述
        5.1.2 系统开发工具
        5.1.3 系统技术架构
    5.2 系统相关表结构信息
    5.3 系统功能设计与实现
        5.3.1 系统管理模块
        5.3.2 文献管理模块
        5.3.3 文献抽取模块
    5.4 系统案例分析
    5.5 本章小结
6 总结与展望
    6.1 研究工作总结
    6.2 未来工作展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

(2)基于深度学习的药物知识图谱构建及智能问答应用研究(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 知识图谱构建
        1.2.2 知识库问答应用
    1.3 本论文主要研究内容
    1.4 本论文组织结构安排
2 相关研究与方法
    2.1 相关研究
        2.1.1 实体关系抽取相关研究
        2.1.2 实体对齐相关研究
        2.1.3 知识库问答相关研究
    2.2 相关方法
        2.2.1 BioBERT方法
        2.2.2 BILSTM方法
    2.3 本章小结
3 基于深度学习的药物实体关系联合抽取研究
    3.1 药物表型关系抽取数据集构建
        3.1.1 数据集概述
        3.1.2 数据集存在的问题
    3.2 基于BioBERT+BILSTM的实体关系联合抽取模型
        3.2.1 分层边界标记器
        3.2.2 实体关系联合抽取模型框架
    3.3 基于BioBERT+BILSTM的流水线关系抽取模型
        3.3.1 命名实体识别模型框架
        3.3.2 关系分类模型框架
    3.4 实验结果与分析
        3.4.1 评价指标
        3.4.2 实验设置
        3.4.3 联合抽取模型实验结果与分析
        3.4.4 流水线模型实验结果与分析
    3.5 本章小结
4 药物表型知识图谱构建研究
    4.1 Schema构建
    4.2 数据源与数据预处理
        4.2.1 Semmed药物表型数据
        4.2.2 OpenFDA不良反应数据集
        4.2.3 DrugBank药物数据
    4.3 实体对齐
        4.3.1 非“药物”实体对齐
        4.3.2 “药物”实体对齐
    4.4 知识图谱的存储与可视化
    4.5 本章小结
5 基于药物表型知识图谱的问答应用研究
    5.1 问句分类模块
        5.1.2 问句实体抽取
        5.1.3 问句分类
    5.2 问句解析模块
        5.2.1 Cypher语言简述
        5.2.2 问句解析
    5.3 答案抽取模块
    5.4 本章小结
6 总结与展望
    6.1 研究工作总结
    6.2 未来工作展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

(3)子宫内膜异位症中医慢病管理方案及管理工具的构建研究(论文提纲范文)

摘要
ABSTRACT
符号说明
文献综述
    综述一 子宫内膜异位症慢病管理的西医研究进展
        1 子宫内膜异位症慢病概念的提出
        2 国内外慢性病管理模式研究进展
        3 国内外子宫内膜异位症慢病管理理念研究进展
        4 国内外子宫内膜异位症慢病管理临床研究现状
    综述二 子宫内膜异位症慢病管理的中医研究进展
        1 中医学对子宫内膜异位症的认识
        2 中医学中的慢病管理
        3 子宫内膜异位症中医慢病管理的临床研究进展
        4 子宫内膜异位症中医慢病管理工具构建现状
    参考文献
前言
研究一 EM中医慢病管理方案的构建研究
    一、EM生物医学干预管理方案的构建
        1 研究方法
        2 研究结果
        3 讨论
    二、EM非医学干预管理方案的构建
        1 研究方法
        2 研究结果
        3 讨论
研究二 EM中医慢病管理工具的构建研究
    1 研究方法
        1.1 小组讨论法
        1.2 软件开发及数据库技术
    2 研究结果
        2.1 门诊问诊工具
        2.2 医生工作平台
        2.3 患者APP客户端
    3 讨论
        3.1 EM中医慢病管理工具构建方法探讨
        3.2 EM中医慢病管理工具临床可行性分析
结语
参考文献
致谢
附录
    附录1 子宫内膜异位症指南生物医学干预管理相关内容整理表1-12
    附录2 24条EM医学干预建议
    附录3 子宫内膜异位症疾病认知调查表
    附录4 常见食材中医性味表
    附录5 子宫内膜异位症常见食材中医辩证推荐表
在学期间主要研究成果

(4)基于弱监督的生物医学命名实体识别研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究内容及意义
    1.2 国内外研究现状
    1.3 评测数据集
    1.4 评测指标
    1.5 知识库
    1.6 论文主要研究内容
    1.7 论文组织结构
2 相关理论与技术
    2.1 词向量
    2.2 预训练语言模型
    2.3 长短时记忆循环神经网络
    2.4 卷积神经网络
    2.5 条件随机场
    2.6 知识蒸馏
3 双角度弱监督语料的自动构建
    3.1 召回率角度和精确率角度的弱监督语料的自动构建
    3.2 基于双角度弱监督语料的生物医学命名实体识别
        3.2.1 语料预处理
        3.2.2 召回模块
        3.2.3 精炼模块
    3.3 实验与分析
        3.3.1 实验设置
        3.3.2 课程学习对识别性能的影响
        3.3.3 消融实验
        3.3.4 基于双角度弱监督语料的生物医学命名实体识别实验
        3.3.5 人工语料和弱监督语料的性能对比
        3.3.6 标注方法的一致性评价
        3.3.7 与相关研究比较
    3.4 本章小结
4 基于标签迭代纠错的生物医学命名实体识别
    4.1 基于标签迭代纠错的生物医学命名实体识别
        4.1.1 基于标签迭代纠错的命名实体识别框架
        4.1.2 标签迭代纠错
        4.1.3 模型融合
    4.2 实验与分析
        4.2.1 实验设置
        4.2.2 标签迭代纠错性能分析
        4.2.3 知识蒸馏对识别性能的影响
        4.2.4 消融实验
        4.2.5 融合方法的比较
        4.2.6 与相关研究比较
        4.2.7 实例分析
    4.3 本章小结
5 基于伪平行语料纠错的生物医学命名实体识别
    5.1 基于伪平行语料纠错的生物医学命名实体识别
        5.1.1 基于伪平行语料纠错的命名实体识别框架
        5.1.2 伪平行语料纠错
        5.1.3 语料融合
    5.2 实验与分析
        5.2.1 实验设置
        5.2.2 编码模型选择对识别性能的影响
        5.2.3 消融实验
        5.2.4 融合方法的比较
        5.2.5 纠错方法的比较
        5.2.6 时间代价的比较
        5.2.7 与相关研究比较
    5.3 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢

(5)基于真实世界医疗大数据的中文医学本体重构的研究(论文提纲范文)

摘要
Abstract
引言
第1章 绪论
    1.1 研究背景与研究意义
        1.1.1 生物医学本体的概念与分类
        1.1.2 生物医学本体的表示方法
        1.1.3 生物医学本体的构建工具
        1.1.4 研究意义
    1.2 国内外生物医学本体发展与研究现状
        1.2.1 国外生物医学本体现状
        1.2.2 国内生物医学本体现状
    1.3 研究方法与文章结构
第2章 生物医学本体内容重构的研究策略讨论与相关资源收集
    2.1 中文生物医学本体内容重构的构建策略
    2.2 中文医学本体内容重构的方法探究
        2.2.1 中文生物医学本体内容重构的关键科学问题
        2.2.2 中文生物医学本体内容重构的技术路径
        2.2.3 资源收集与预处理
    2.3 小结
第3章 面向内容重构的中文生物医学本体实体挖掘
    3.1 基于有监督方法的中文医学实体挖掘
        3.1.1 背景介绍
        3.1.2 实验设计
        3.1.3 实验结果与分析
        3.1.4 总结
    3.2 基于无监督方法的生物医学实体挖掘
        3.2.1 背景介绍
        3.2.2 实验设计
        3.2.3 数据准备
        3.2.4 实验流程
        3.2.5 评测任务
        3.2.6 实验结果与分析
        3.2.7 小结
    3.3 基于双语词对齐方法的生物医学实体挖掘
        3.3.1 背景介绍
        3.3.2 实验设计
        3.3.3 实验结果与分析
    3.4 结果分析与讨论
    3.5 本章小结
第4章 表型语义单元在传染疾病精细表型谱构建中的应用
    4.1 研究背景
    4.2 实验设计
        4.2.1 实验任务
        4.2.2 实验过程与评价标准
    4.3 实验结果
        4.3.1 PhenoSSU模型及基于PhenoSSU的知识图谱构建
        4.3.2 自动化PhenoSSU识别方法结果分析
        4.3.3 PhenoSSU表达能力评价结果分析
    4.4 本章小结
第5章 总结与展望
    5.1 成果总结
    5.2 理论创新与技术创新
    5.3 未来展望
参考文献
附录
    附表1 UMLS词表组成
    附表2 词性缩写及其作用
    附表3 PhenoSSU属性定义及取值
文献综述 生物医学本体研究与应用:综述与当前发展
    参考文献
致谢
博士期间发表的学术论文与成果
    第一作者或共同第一作者发表工作
    其他已发表工作
    待发表工作

(6)基于两步态多模型的论文引文匹配算法(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 论文匹配方法的国内外研究历史与现状
        1.2.1 论文匹配方法的国内研究历史与现状
        1.2.2 论文匹配方法的国外研究历史与现状
    1.3 本文的主要贡献与创新
    1.4 本论文的结构安排
第二章 文本召回算法的基础
    2.1 文本召回算法的类型
    2.2 Bag-of-Ngram的召回算法
        2.2.1 TF-IDF
        2.2.2 随机差异模型(DFR)
        2.2.3 BM25
        2.2.4 公理检索模型
    2.3 文本语义向量表征算法
        2.3.1 word2vec
        2.3.2 doc2vec
        2.3.3 fasttext
        2.3.4 Glove
    2.4 本章小结
第三章 基于融合文本召回算法的论文引文匹配召回算法
    3.1 任务介绍及数据预处理
        3.1.1 任务介绍
        3.1.2 数据预处理
    3.2 融合文本召回算法
        3.2.1 融合文本召回算法之Weighted bag-of-ngram算法
        3.2.2 融合文本召回算法之boosting加权文本向量表征算法
        3.2.3 融合文本召回算法之多路召回
    3.3 实验部分
    3.4 本章小结
第四章 基于树与预训练模型的论文引文匹配精排算法
    4.1 基于预训练模型的论文引文匹配精排算法
        4.1.1 Transformer
        4.1.2 BERT
        4.1.3 基于预训练模型的论文引文匹配精排算法
    4.2 基于树模型的论文引文匹配精排算法
        4.2.1 树模型
        4.2.2 基于树与预训练模型的论文引文匹配精排算法
    4.3 实验结果
    4.4 本章小结
第五章 全文总结与展望
    5.1 全文总结
    5.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果

(7)基于PubMed和预印本网站的生物医学检索课分层设计研究——以新型冠状病毒的认识特点为例(论文提纲范文)

1 研究现状及发展动态分析
    1.1 国内图书馆学科服务发展现状及趋势
    1.2 生物医学检索课程研究情况概述
        1.2.1 国内生物医学学科服务研究情况
        1.2.2 国外生物医学学科服务开展情况
        1.2.3 生物医学学科服务综合情况
2 Pub Med平台与学科服务研究
    2.1 选用原因
    2.2 已有的关于Pub Med平台研究
3 生物医学检索本硕博分层框架设计
    3.1 生物医学检索课程的设计方面
    3.2 本硕博3个阶段的问题和课程设计
    3.3 以新型冠状病毒为例的文献查找方案设计
4 结束语

(8)中草药文献知识抽取方法研究与应用(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 现代生物医学领域关系抽取研究现状
        1.2.2 中医领域关系抽取研究现状
        1.2.3 中医实体知识图谱研究现状
    1.3 主要研究内容
    1.4 论文结构
第2章 相关技术介绍
    2.1 实体关系抽取
        2.1.1 实体关系抽取概述
        2.1.2 关系抽取的方法
    2.2 词嵌入特征方法
        2.2.1 One-hot
        2.2.2 Word2vec
    2.3 深度学习技术
        2.3.1 长短期记忆神经网络
        2.3.2 卷积神经网络
        2.3.3 注意力机制
        2.3.4 神经网络实现框架
    2.4 本章小结
第3章 英文文献中药关系语料库构建
    3.1 数据来源与关系定义
    3.2 中药实体识别
    3.3 构建过程
        3.3.1 数据预处理
        3.3.2 关系标注
    3.4 本章小结
第4章 基于深度学习的中草药关系抽取
    4.1 基于SEGATT-CNN的关系抽取模型
        4.1.1 输入层
        4.1.2 SEGATT层
        4.1.3 CNN层
        4.1.4 输出层
    4.2 基于混合特征的关系分类方法
    4.3 实验设计与评价标准
        4.3.1 实验设计
        4.3.2 实验评价指标
    4.4 实验与结果分析
        4.4.1 实验一: Herb-Disease关系抽取
        4.4.2 实验二: Herb-Chemical关系抽取
        4.4.3 实验三: Chemical-Disease关系抽取
    4.5 本章小结
第5章 中草药的实体关系网络构建与应用
    5.1 概述
        5.1.1 中医实体概念辨析及数据模式定义
        5.1.2 关系网络构建流程
    5.2 数据来源与获取
        5.2.1 中药知识获取
        5.2.2 补充实体关系获取
    5.3 数据融合
        5.3.1 中草药相关的知识抽取
        5.3.2 中英文对齐与关系连接
    5.4 知识存储与关系网络构建
        5.4.1 NEO4J数据库
        5.4.2 实体关系存储与网络构建
        5.4.3 关系验证及查询规则
    5.5 系统设计与实现
        5.5.1 需求分析
        5.5.2 系统架构设计
        5.5.3 功能设计
        5.5.4 界面展示
    5.6 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 工作展望
参考文献
作者介绍及在学期间取得的科研成果
致谢

(9)中药材本体构建研究(论文提纲范文)

中文摘要
Abstract
1 文献综述
    1.1 国内外生物医学本体的发展
    1.2 中药与现代生物医学的融合
    1.3 中医药领域本体研究现状
        1.3.1 中医药本体文献调研
        1.3.2 中医药领域顶层本体不完善
        1.3.3 缺少与已有标准、术语集、本体的协同映射
        1.3.4 现有中医药本体大部分缺少形式化
    1.4 中药知识表达与建模现状
        1.4.1 中药术语缺乏语义表达良好的统一标准
        1.4.2 中药相关的知识表达与建模仍需进一步探索
    1.5 小结
2 绪论
    2.1 研究背景
    2.2 研究目的
    2.3 研究内容
    2.4 研究方法
    2.5 技术路线及研究步骤
3 本体的概念、分类和设计原则
    3.1 本体的概念
    3.2 本体的分类
        3.2.1 领域本体
        3.2.2 顶层本体
        3.2.3 其他本体
    3.3 领域本体的设计原则
    3.4 领域本体构建方法
4 中药材本体设计与构建
    4.1 本体主题和覆盖范围的确定
    4.2 术语来源及整理结果
        4.2.1 中药材术语来源
        4.2.2 数据处理
    4.3 核心概念的收集和选择
    4.4 复用本体的选择及介绍
        4.4.1 BFO
        4.4.2 PO
        4.4.3 NCBI Taxonomy
        4.4.4 其他复用本体
    4.5 本体框架设计
        4.5.1 核心类的定义
        4.5.2 本体类的划分
        4.5.3 核心属性的设计
        4.5.4 本体框架结构
    4.6 中药材本体编辑
        4.6.1 本体编辑软件和本体语言
        4.6.2 复用本体的导入
        4.6.3 创建本体类和属性
        4.6.4 定义中药材术语
        4.6.5 整编和推理逻辑验证
    4.7 中药材本体的文献抽样验证
    4.8 中药材本体专家问卷的设计与分析
5 中药材本体的应用示范
    5.1 基于本体的多来源数据整合
    5.2 中医药文献标注系统
6 总结与展望
    6.1 研究总结
    6.2 本研究的局限
    6.3 展望
参考文献
附录
    附录1 图表索引
    附录2 中药材本体专家咨询问卷
    附录3 中药材本体分类结构
致谢
个人简介

(10)基于多组学数据的本体注释与知识图谱构建方法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 课题背景
    1.2 国内外研究现状
    1.3 本文研究的目的和意义
    1.4 本文主要研究内容
    1.5 本文组织结构
第2章 测序数据分析工作流相关技术研究
    2.1 引言
    2.2 相关背景介绍
        2.2.1 基因组序列
        2.2.2 常见的生物数据格式
    2.3 测序分析工作流实现
        2.3.1 DNA二代测序
        2.3.2 DNA三代测序
        2.3.3 RNA测序
    2.4 本章小结
第3章 本体注释方法研究
    3.1 引言
    3.2 相关本体和数据库介绍
        3.2.1 相关本体介绍
        3.2.2 相关数据库介绍
    3.3 本体注释技术实现
        3.3.1 注释说明
        3.3.2 注释步骤
        3.3.3 注释关联规则
    3.4 实验设计与分析
        3.4.1 实验环境
        3.4.2 运行时间实验
        3.4.3 搜索效率实验
    3.5 本章小结
第4章 基于多组学的知识图谱构建与语义检索研究
    4.1 引言
    4.2 相关背景知识
    4.3 基于多组学数据的知识图谱构建技术研究
        4.3.1 知识图谱数据模式层构建
        4.3.2 知识图谱实现
        4.3.3 知识图谱开放接口
    4.4 语义搜索设计与实现
        4.4.1 NLTK分词
        4.4.2 关键词抽取与语义扩展
        4.4.3 问题分类
    4.5 实验设计与分析
        4.5.1 实验环境
        4.5.2 语义搜索评估
    4.6 本章小结
第5章 变异管理与多组学知识图谱集成平台
    5.1 引言
    5.2 需求分析
        5.2.1 背景需求
        5.2.2 功能需求
    5.3 系统设计
        5.3.1 平台框架设计
        5.3.2 平台功能结构设计
        5.3.3 平台综合概括
    5.4 平台关键功能实现
        5.4.1 关键字搜索模块
        5.4.2 自定义高级搜索模块
        5.4.3 语义搜索模块
        5.4.4 其他模块
    5.5 系统测试
        5.5.1 部署环境
        5.5.2 变异文件上传测试
        5.5.3 网页响应时间测试
        5.5.4 功能模块查询测试
    5.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢

四、论生物医学信息综合检索步骤与内容(论文参考文献)

  • [1]药物临床试验文献的实体抽取研究及应用[D]. 卢熙. 北京交通大学, 2021(02)
  • [2]基于深度学习的药物知识图谱构建及智能问答应用研究[D]. 季京辉. 北京交通大学, 2021(02)
  • [3]子宫内膜异位症中医慢病管理方案及管理工具的构建研究[D]. 熊婷. 北京中医药大学, 2021(08)
  • [4]基于弱监督的生物医学命名实体识别研究[D]. 刘喆. 大连理工大学, 2021
  • [5]基于真实世界医疗大数据的中文医学本体重构的研究[D]. 陈禄明. 北京协和医学院, 2021(02)
  • [6]基于两步态多模型的论文引文匹配算法[D]. 陈维龙. 电子科技大学, 2021(01)
  • [7]基于PubMed和预印本网站的生物医学检索课分层设计研究——以新型冠状病毒的认识特点为例[J]. 郑蕊. 科技创新与生产力, 2020(09)
  • [8]中草药文献知识抽取方法研究与应用[D]. 王尚. 吉林大学, 2020(01)
  • [9]中药材本体构建研究[D]. 乔幸潮. 中国中医科学院, 2020
  • [10]基于多组学数据的本体注释与知识图谱构建方法研究[D]. 曲直. 哈尔滨工业大学, 2020(01)

标签:;  ;  ;  ;  ;  

论生物医学信息综合检索的步骤和内容
下载Doc文档

猜你喜欢