生物信息学在人类基因组研究中的应用

一、生物信息学在人类基因组研究中的应用（论文文献综述）

杨倩^[1]（2021）在《消化道肿瘤核心转录调控环的识别及其关键转录因子的功能鉴定》文中研究指明研究背景与目的:肿瘤流行病学调查结果表明,结肠癌、胃癌和食管癌是最常见的消化道恶性肿瘤。我国是消化道恶性肿瘤高发国,尤其是我国的西北和东部沿海地区,此三种消化道恶性肿瘤的发病率明显偏高。长期以来,消化道肿瘤一直缺乏早期诊断、预警癌细胞转移的分子标志物,免疫逃逸经常发生,机制不明,致使临床诊疗效果不佳。自1990年人类基因组计划启动,迄今已历30余年;期间,有关消化道肿瘤基因组学研究,积累了大量的高通量实验数据,对系统揭示消化道肿瘤恶性演进发展的分子机制,无疑会发挥重要的推动作用,同时也会对研究解决上述临床问题提供有效途径。基于此,本文从独特的角度出发,即通过高通量数据,识别并比较上述三种消化道恶性肿瘤中关键的转录因子及其转录调控环;预测MSS（Microsatellite stability）型结肠癌患者免疫逃逸发生的分子机制;以食管鳞癌为模型,在低通量实验中确证关键转录因子的功能作用;为寻觅研究解决上述临床问题的有效途径提供扎实的理论依据。材料与方法:首先,从公共数据库中搜集结肠癌、胃癌和食管腺癌的组蛋白H3K27乙酰化染色质免疫共沉淀测序数据（H3K27ac Ch IP-Seq）;食管鳞癌及其相对正常食管上皮组织样本的H3K27ac Ch IP-Seq数据来自于本实验室。其次,对所有样本的H3K27ac Ch IP-Seq数据进行质量控制分析,去接头,序列比对和峰位识别,筛选结肠癌、胃癌和食管癌组织中H3K27ac特异性修饰位点。再次,利用ROSE方法,识别每个肿瘤组织样本中活化的增强子和超级增强子,并进一步获得其关键转录因子。再者,利用Coltron方法,识别肿瘤组织样本中的核心转录调控环及其环中出现频率较高的转录因子;然后利用TCGA中的基因表达数据,筛选其中上调的转录因子。另外,在结肠癌中,识别MSS患者中高表达的关键转录因子,再根据转录因子的表达对样本进行分类,识别差异表达基因及其下游通路,最终筛选出与免疫浸润相关的转录因子,推测MSS患者免疫逃逸机制。最后,基于TCGA基因表达数据,识别在食管鳞癌中发挥重要作用的转录因子SREBF1（Sterol Regulatory Element Binding Transcription Factor 1）及其核心转录调控环,并通过细胞划痕和克隆形成等实验方法,确证SREBF1在食管鳞癌中的功能作用。实验结果:1)在结肠癌、胃癌和食管癌中,存在着大量的H3K27ac异常修饰位点。2)生物学通路富集分析结果显示,H3K27ac异常修饰位点靶基因相关生物学通路,主要涉及细胞代谢,同时还与肌动蛋白生物学功能密切相关。3)ROSE识别结果表明,在结肠癌、胃癌和食管癌中,H3K27ac异常修饰位点靶基因存在增强子和超级增强子,如ZNF608和KLF5等。4)通过Coltron方法进一步的识别结果表明,在结肠癌、胃癌和食管癌中,既有共有的核心转录调控环中的核心转录因子,如SOX9和HOXA13等,同时也有三者各自特异的核心转录调控环及其转录因子,如ASCL2（Achaete-Scute Family BHLH Transcription Factor 2）、FOXL1和ETS1等。5)食管腺癌中存在着较多特异的核心转录调控环及其转录因子,如ETS1（ETS proto-oncogene 1）和SMAD3（SMAD family member 3）等。6)HOX13（Homeobox protein Hox-A13）是胃癌和食管腺癌中核心转录调控环中共有的转录因子,说明胃癌和食管腺癌间存在着相似的H3K27ac修饰位点。7)转录因子ASCL2在MSS型结肠癌患者中显着异常高表达,与IFNα和IFNγ信号负相关。8)转录因子SREBF1介导TP63转录激活,参与食管鳞癌脂肪酸代谢调节;而SREBF1、TP63和KLF5构成核心转录调控环,相互协同调控转录,激活Erb B和m TOR等信号通路,促进脂肪酸、鞘磷脂和甘油磷脂的合成以及食管鳞癌细胞的生长和迁徙。主要研究结论:对应上述八个方面的实验结果,本文得出以下五点主要的研究结论:1)在结肠癌、胃癌和食管癌等消化道恶性肿瘤中,存在着大量的H3K27ac异常修饰位点,但不同的消化道恶性肿瘤之间,H3K27ac异常修饰位点有明显差异。2)与正常的组织样本相比,在结肠癌、胃癌和食管癌等消化道恶性肿瘤中,存在着肿瘤特异性上调表达的转录因子。3)结肠癌、胃癌和食管癌中,分别存在着各自特异的转录调控环及其转录因子所调控的生物学通路。4)在MSS型结肠癌中,ASCL2过表达能抑制IFN信号的激活,影响T细胞和淋巴细胞的招募,可能参与MSS型结肠癌患者的免疫逃逸。5)在食管鳞癌中,SREBF1、TP63和KLF5之间存在着共调控环,调控脂肪代谢相关基因的表达,参与m TOR等信号通路,促进食管鳞癌细胞的侵袭和移动。总之,本文从结肠癌、胃癌和食管癌等常见的消化道恶性肿瘤表观基因组高通量序列数据出发,探究了这些消化道恶性肿瘤在表观基因组上的共性和特性,不仅识别了此三种消化道恶性肿瘤中的增强子和超级增强子,同时也识别了这些恶性肿瘤中潜在的核心转录调控环及其转录因子;在此基础上,针对MSS型结肠癌患者免疫治疗反应差的问题,发现ASCL2作为相关核心转录因子,可能通过调控IFN信号,抑制免疫细胞浸润,进而影响免疫治疗疗效,为后续开发增敏MSS型结肠癌患者免疫疗法提供了新靶点;针对食管鳞癌,鉴定出重要转录因子SREBF1与TP63和KLF5存在共同调控,所形成的核心转录调控环,通过调控m TOR等信号通路,促进食管鳞癌的侵袭和转移,可为食管鳞癌诊疗提供新的分子标志物。因此,对结肠癌、胃癌和食管癌等常见的消化道恶性肿瘤而言,本文研究既有重要的理论意义,同时也有潜在的临床应用价值。

冯聪^[2]（2021）在《基因组重复度量化及重复序列从头鉴定》文中研究表明重复序列在各类生物基因组中广泛分布,并且已被证明在基因组调控和演化过程中起着重要作用。快速、准确地鉴定基因组中的重复序列一直是生物信息学领域中一个具有挑战性的问题。为了弥补基于重复序列库方法的缺点,一些基于k-mer计数的工具根据k-mer频次计算重复度得分来从头检测基因组中的重复序列。尽管这些工具的时间、空间复杂度较低且识别表现良好,但它们在重复度计算,重复序列边界区分,对区段重复的检测敏感度等方面仍有待改善。此外,虽然这些工具提出了量化重复度的方法,但是其应用局限于重复序列的检测,而其中蕴含的定量特征并未得到深入研究。因此,本研究提出了一种基于加权k-mer覆盖度的新型计算方法,并将其用于基因组序列重复度量化分析,重复序列从头检测及比较基因组学分析。本研究的主要内容及结果如下:（1）基于加权k-mer覆盖度实现了更直观、更准确的序列重复度定量并构建了人类全基因组重复度图谱;（2）基于人类基因组重复度图谱发现序列重复度与基因组结构,转座元件演化,表观修饰信号及基因组可匹配度之间具有一定相关性;（3）基于重复度图谱开发了新的重复序列从头检测工具Rep Loc,采用新的重复单元定位和合并方法直接从重复度图谱中识别重复序列,提高了检测敏感度和特异度;（4）基于跨物种基因组重复度提出了一种新的计算物种进化距离的方法RDis,以大肠杆菌E.coli/Shigella株系为案例的分析表明RDis可以从一定程度上避免基因组重组对进化关系划分产生的影响;（5）基于基因组浏览器构建了基因组重复度图谱可视化分析平台（http://bis.zju.edu.cn/reploc/）,通过该平台可快速获取特定序列或常见物种基因组的重复度图谱及进行跨物种基因组重复度比较分析。本研究从一个新的角度对基因组任意区域的重复程度进行了量化分析,并根据重复度图谱的特征开发了一种高效的重复序列检测工具。此外,本研究还从定量角度探究了序列重复度与基因组各种特征之间的关联并进行了跨物种的基因组重复度比较分析,为更深入的基因组学研究提供新的见解。

谢瑾^[3]（2020）在《利用生物信息学发现核酶和新的结构性ncRNA》文中提出HDV核酶和锤头型（hammerhead）核酶在植物中已经有报道存在,在此课题中,我们在自己建立的74个植物物种的基因组数据库中,尝试用RNA二级结构预测软件Infernal在未报道过的植物中发现核酶。除了核酶,我们也用不同的生物信息学流水线（pipeline）分别在人类基因组和裸子植物基因组中发现了新的结构性ncRNA。流水线的主要思路一致:先下载物种的基因组建立数据库,然后将基因组的非编码区提取出来,并且我们会去掉上传到Rfam数据库的已知的ncRNA。同时由于不管在动物还是植物基因组中,重复序列的存在比例都相当高,为了避免重复序列的影响我们会通过不同的方法去除重复序列。提取出新的非编码区序列以后我们用BLAST进行同源序列比对,然后用CMfinder预测二级结构。为了增加预测的二级结构的可靠度,我们会筛选出共变异较多、保守性较好的二级结构,再用Infernal在更大的基因组数据库里找到更多符合结构特点的序列,进一步改善二级结构。通过上述方法,我们在新的植物基因组中发现了有活性的HDV核酶和III型hammerhead核酶的存在,分别预测到了123和319条核酶序列,在Selaginella moellendorffii基因组中找到了更多的I型hammerhead核酶的存在（78条）,从而揭示了核酶分布的广泛性;第二,我们用优化过的生物信息学流水线在裸子植物中发现了256个新的结构性ncRNA及其关连的基因信息,其中motif 22895在银杏基因组的的RT-PCR结果表示内含子有表达;最后,在人类基因组中发现了有表达的新的结构性ncRNA,存在于MAP2K5基因和LUC-7基因中,除此之外在TEAD1基因中预测了一个有表达的极端保守元件（ultraconserved element,UCE）。这些研究为发现具有生物学功能的结构性ncRNA奠定了基础。

张宏喜^[4]（2020）在《埃博拉病毒（Ebolavirus）基因组中微卫星保守位点及其功能分析》文中认为微卫星（Microsatellites,也称Simple Sequence Repeats,SSRs）一般为1-6个核苷酸串联重复多次的核酸序列,在真核生物、原核生物、病毒中都广泛分布。它具有长度多态性、非随机分布和基序多样性的特征。微卫星高度易变,个体间差异很大,这些突变可能与基因组结构和功能相关。因此,微卫星的出现和固定可能促进了基因组的多样性和进化。在埃博拉病毒基因组中,编码区和非编码区都有微卫星的广泛分布。以往对微卫星的分析一般是在病毒基因组中的比例、相对丰度、相对密度、GC含量等,对微卫星与病毒基因组功能和结构的关系知之甚少。本研究主要有如下两个方面:1.埃博拉病毒基因组中末端非编码区保守微卫星的分析（第二章）在本章内容中,我们从公共数据库NCBI中下载了219条埃博拉病毒基因组序列,选择了数据库中末端测序较为完整的所有基因组,对其综合分析了全基因组和末端区域中的微卫星。并利用Clustal W软件进行序列比对以检测不同序列之间的相似度,结果表明同一物种中的埃博拉病毒完整基因组的序列差异较小,而在种间的序列差异较大,尤其在末端非编码区序列中这种现象更加明显。然后利用IMEx软件从219个样本中提取微卫星,在完整基因组中发现了5个在不同物种间保守的微卫星位点,其中有4个保守微卫星位点位于末端非编码区序列上。因此进一步对末端非编码区序列进行探究,通过分析得到末端非编码区序列有较低的种间序列相似度和较高的微卫星的保守性。进一步利用RNA二级结构预测方法进行预测,发现5个种的埃博拉病毒末端非编码区序列均形成了类似的茎环结构,并且这4个保守微卫星两两配对形成了茎环结构中的茎干结构。因此我们推测埃博拉基因组中的保守微卫星可能有助于形成保守的茎环结构。这些结果表明,保守的微卫星可能是进化选择的,从而在埃博拉基因组的5’,3’末端形成保守的二级结构。2.埃博拉病毒基因组中GP基因编码区保守微卫星的分析（第三章）在本章中,我们针对第二章中发现的保守微卫星位点进行了进一步的探究。5个物种的埃博拉病毒基因组中仅有的5个保守位点中,除了已经分析的末端非编码区位点以外,还有一个位于GP基因的编码区中的重要位点未被进行分析。通过对219个样本中的GP CDs序列进行比对以及微卫星统计,发现GP CDs的序列差异大而微卫星保守性高。将保守微卫星位点对应的氨基酸序列进行查询,发现保守微卫星与GP基因编码产生的三种不同蛋白质（GP1,2、s GP、ss GP）的氨基酸序列有关。利用Uni Prot KB数据库查询有关的功能位点,发现保守微卫星与保守的N-糖基化位点和转录过程中的RNA编辑有关。其中,RNA编辑功能作用在保守微卫星位点处,通过删除或添加A,从而产生不同的密码子翻译出埃博拉病毒维持正常生命所必须的结构蛋白和两种分泌蛋白。此外,保守微卫星发生了微卫星扩增现象,导致RNA编辑产生了不同的编码作用,使其产生的RNA翻译出正确的蛋白质。这些结果也许意味着,保守微卫星受功能选择才得以保存下来,并在埃博拉病毒基因组中有着不可或缺的作用。

卞庆来^[5]（2020）在《抑郁症调控网络及逍遥散抗抑郁模块的生物信息学分析与实验研究》文中认为1研究背景生物信息学作为生命科学和计算机与信息科学相互结合而形成的一门学科,为储存、检索和分析人类基因组的生物学数据提供了新的思路与方法。在如今“大数据”时代的背景之下,其应用已不局限于人类基因组计划的研究,而是涉及基因组学、蛋白质组学、比较基因组学、宏基因组学、基因和蛋白质的表达与分析、生物芯片表达谱分析、蛋白质相互作用网络、生物系统模拟、系统生物学以及网络生物学研究等多个方面。生物信息学从分子生物学水平以系统观、信息化和复杂性的角度研究疾病与健康相关的前沿和热点问题,推动着生命科学乃至自然科学的发展。抑郁症是现代医学的疾病名称,中医学虽无“抑郁症”的病名,但考究其临床表现,可归属为“郁病”、“脏躁”以及“百合病”等范畴。目前抑郁症的发病机制尚缺乏完全的认识,亦缺乏相对客观检测指标。在治疗中也有接近一半的抑郁症患者无明显效果。因此,利用生物信息学技术开展与抑郁症的诊断和治疗密切相关的转录因子-miRNA-lncRNA调控网络等对抑郁症的机制研究、诊断和治疗等方面具有重要的意义。古方逍遥散共载药8味,具有疏肝解郁,养血健脾的功效。历代医家对逍遥散的应用已拓展至临床各科,涵盖包括抑郁症在内的多种身心疾病。课题组前期针对抑郁症的可能涉及的发病机制,重点从神经突触可塑性、HPA轴、神经营养因子、神经元微结构、脑肠肽、肠道菌群以及代谢组学等多方面展开研究,部分揭示了逍遥散抗抑郁作用的机制,并认为逍遥散具有“多成分、多靶点、多途径”的特点。然而,正是由于逍遥散“多成分、多靶点、多途径”的特点和复杂性,使得其抗抑郁作用机制的研究面临着困难和挑战。具体而言,逍遥散中的8味中药包含数百种以上化合物,这些化合物之间又可以相互影响、相互作用。那么,逍遥散中这些纷繁复杂的化合物中究竟何种成分作用于什么靶点,又影响到哪些具体的调控通路,涉及到哪些系统和途径呢?包括古方逍遥散在内的众多中药复方药效物质基础和作用机制能否用现代医学的语言进行阐释呢?这一系列的问题很难运用传统实验手段进行研究,也同时成为现代中药复方药效物质基础及作用机制研究中遇到的瓶颈。近几年来,英国药理学教授Hopkins提出“网络药理学”的概念,利用生物信息学技术分析药物与疾病和靶点之间“多成分、多靶点、多途径”的协同作用关系,这与中医学的“整体观念”和中药复方“多成分、多靶点、多途径”的作用特点相互契合,给中药复方的药效物质基础研究开辟了新的研究思路。因此,我们在前期工作的基础上借助生物信息学的分析技术,开展逍遥散相关的网络的构建和分析,分析中药活性成分、潜在作用靶点,预测可能涉及的生物学过程和信号通路,探讨潜在药理学机制,最后结合生物信息学的结果有针对性的进行动物实验探索,以期用较高的效率和更科学的策略揭示逍遥散的药效物质基础和作用机制。2研究方法本研究主要由生物信息学分析和实验研究两大部分组成。生物信息学分析:（1）在GEO数据库中检索抑郁症患者基因芯片表达数据集;数据预处理和差异表达分析;筛选抑郁症潜在相关基因;加权基因共表达网络构建及显着特征功能模块的识别;显着特征功能模块的功能富集分析及蛋白质相互作用网络构建;转录因子-miRNA-lncRNA调控网络构建;样本聚类与分子分型分析;（2）联合检索TCMID、ETCM、BATMAN-TCM和TCMSP数据库中逍遥散中药物信息;构建中药“成分-靶点-通路/疾病”网络;在CTD数据库中检索与抑郁症相关的靶点信息;构建逍遥散“成分-靶点”和“化合物靶点-抑郁症疾病靶点”网络;对“化合物靶点-抑郁症疾病靶点”进行聚类功能模块构建;聚类功能模块的生物信息学分析;基于ADME的活性成分筛选与虚拟分子对接。实验研究:（1）采用CUMS 6周法复制了抑郁模型大鼠,通过宏观表征、体重、旷场实验、糖水偏好实验以及强迫游泳实验对模型进行评价并观察逍遥散的干预作用;（2）结合生物信息学分析中的分析结果,应用免疫组化法检测各组大鼠前额叶皮质CNR1、CNR2和BDNF蛋白的表达;应用实时荧光定量PCR检测各组大鼠前额叶皮质Cnrl mRNA、Cnr2 mRNA和Bdnf mRNA的表达;应用Elisa检测各组大鼠前额叶皮质cAMP、PKA和P-CREB的含量。3研究结果生物信息学分析:（1）筛选出28个抑郁症相关基因,构建了抑郁症的加权基因共表达网络,并识别出1个与抑郁症呈负相关的显着特征功能模块;显着特征功能模块中的基因用于构建蛋白质相互作用网络,并发现在5条KEGG通路和11个基因本体生物过程中存在显着富集;蛋白质相互作用网络中筛选出5个关键基因（FOS、GMGT1、JUN、EGR1以及CCL4）;构建了抑郁症的转录因子-miRNA-lncRNA多因子调控网络,并根据多因子调控网络的“Degree”值对排行前10位基因进行了分析,其中包括3个核心基因、6个lncRNA和1个miRNA。根据5个基因（TCTEX1D4、AREG、C6orf222、PPP1R15A和TNFSF9）在抑郁症样本中的差异性表达,发现抑郁症还可再分为2大类型,这5个基因可能是区分抑郁症亚型的重要基因;（2）构建了逍遥散内中药的“成分-靶点-通路/疾病”网络和逍遥散全方的“成分-靶点”和“化合物靶点-抑郁症疾病靶点”网络并进行生物信息学分析;“化合物靶点-抑郁症疾病靶点”的网络模块聚类分析共获得23个模块,其中有8个模块含有逍遥散与抑郁症共同靶点;网络聚类分析共获得8个包含有逍遥散与抑郁症共同靶点的子网络功能模块,涉及到的具体靶点为 CNR2、HTR2A、HTR7、DRD5、SLC6A4、IL2、PTGS2、CAT、ADORA2A、MTHFR、XDH、NR3C1 以及 ACSL4,最显着富集的 KEGG 通路分别是cAMP信号通路、神经活性配体-受体相互作用信号通路、谷胱甘肽代谢通路、可卡因成瘾、非酒精性脂肪肝、嘌呤代谢、长寿调节、过氧化物酶体增殖物激活受体信号通路等;结合ADME模块筛选和虚拟分子对接实验结果,共鉴别出10个活性化合物与4个逍遥散与抑郁症共有靶点之间具有较高的亲和力。其中,与靶点CNR2有较高亲和力的化合物有菜豆异黄烷（Phaseollinisoflavan）、3-甲氧基光甘草定（3’-Methoxyglabridin）以及甘草素（Liquiritigenin）;与靶点NR3C1有较高亲和力的化合物有异热马酮（Isoramanone）、γ-谷甾醇（Gamma-Sitosterol）、β-谷甾醇（Beta-Sitosterol）以及除虫菊素2（Pyrethrin II）;与靶点SLC6A4有较高亲和力的化合物为延胡索乙素（Tetrahydropalmatine）;与靶点CAT有较高亲和力的化合物为齿孔醇（Eburicol）和豆甾醇（Stigmasterol）。实验研究:（1）采用CUMS 6周造模方法成功复制了抑郁模型大鼠。给予药物干预后,逍遥散组大鼠的抑郁样行为有所改善,与模型组相比一般状态较好,体重增长明显,糖水实验中糖水偏好率升高,旷场实验中运动总距离、中央区域停留时间和进入中央区域次数提高,强迫游泳实验中不动时间缩短;（2）模型组大鼠前额叶皮质Cnr1 mRNA、Cnr2 mRNA 以及Bdnf mRNA 的表达,CNR1、CNR2 以及 BDNF蛋白的表达,cAMP、PKA以及P-CREB的含量均明显低于正常组;与模型组比较,逍遥散组大鼠前额叶皮质Cnr1 mRNA、Cnr2 mRNA以及Bdnf mRNA的表达水平显着上调,CNR1、CNR2以及BDNF蛋白的表达水平有所增加;逍遥散组大鼠前额叶皮质cAMP、PKA以及P-CREB的含量明显增加。4研究结论生物信息学分析:（1）通过整合生物信息学分析结果,筛选出FOS、GNGT1、JUN、EGR1以及CCL4为与抑郁症相关的核心基因,FOS、PTGS2、JUN、XIST、NEAT1、SNHG16、NORAD、MALAT1、ARHGAP27P1-BPTFP1-KPNA2P3次及hsa-miR-106a-5p这10个基因为转录因子-miRNA-1ncRNA的多因子调控网络中的关键基因,TCTEX1D4、AREG、C6orf222、PPP1R15A和TNFSF9这5个基因是区分抑郁症分子分型的潜在基因;（2）逍遥散全方的“成分-靶点”和“化合物靶点-抑郁症疾病靶点”网络的生物信息学分析结果体现了中药复方逍遥散抗抑郁作用具有“多成分、多靶点、多途径”的特点;（3）通过ADME模块筛选和虚拟分子对接实验共发现逍遥散中药物所包含的10个活性化合物和4个逍遥散与抑郁症共同作用靶点之间具有较高的亲和性,是潜在的具有抗抑郁作用的活性化合物。实验研究:在生物信息学分析结果基础上,动物实验表明逍遥散可影响CUMS抑郁模型大鼠前额叶皮质Cnr1 mRNA和Cnr2 mRNA的表达,并可能通过cAMP-PKA-CREB通路提高BDNF的水平而发挥抗抑郁作用。

谢文路^[6]（2020）在《基于第二代测序数据的散在倍增插入变异检测方法研究》文中进行了进一步梳理散在倍增插入变异是一种常见的人类基因组DNA插入类型,在人类癌症的发生过程中起着促使基因组不稳定的重要作用,准确检测散在倍增插入的位置及序列,对变异基因的筛选分析和对癌症等疾病的靶向药物选定具有重大意义。随着第二代测序技术的发展,越来越多检测插入变异的算法逐渐被提出,但是使用第二代测序数据很难检测散在倍增插入变异,这是因为源自测序样本中散在倍增插入区域的读段很可能完全映射到参考序列中的其它区域。而大多数现有方法都是采用局部组装的思想对散在倍增插入变异进行检测,由于测序读段的长度问题和散在倍增插入区域与参考序列其它区域的高重复性问题,局部组装思想对于散在倍增插入变异的检测准确率很难保证。本文的主要工作就是研究如何通过第二代测序数据准确检测散在倍增插入变异。针对散在倍增插入变异的检测问题,本文提出了一种新的方法DIPins,DIPins可以对散在倍增插入变异进行准确位点检测和序列推断,特别是当变异长度超过双端读段的插入片段大小时。DIPins方法从人类参考基因组数据与第二代测序数据出发,首先将测序数据比对结果过滤并从过滤结果中提取信息性读段,通过整合分裂读段的多个特征来确定散在倍增插入变异断点位置,在已检测变异断点处,利用分裂读段和不一致读段推断插入序列并形成新的虚拟参考序列,之后通过不断跟踪散在倍增插入变异的断点位置并迭代生成新的分裂读段,执行动态过程来推断散在倍增插入变异的序列。为了验证DIPins方法的散在倍增插入变异检测性能,本文分别在仿真数据与真实数据上做了实验,并且与其他两种方法在相同数据上的实验结果进行了比较。其中两组仿真实验结果表明,DIPins方法在检测散在倍增插入变异断点和推断变异内容方面均优于其他方法。本文特别就这些方法推断不同长度的散在倍增插入变异序列内容的能力进行了比较,发现DIPins在较大的散在倍增插入变异检测方面表现明显优于其他方法。在对DIPins方法的检测性能进行评估后,我们将DIPins方法应用于分析肺癌患者的肿瘤样本测序数据,通过分析基因药物库与基因注释结果,得出药物库中的基因与散在倍增插入变异的对应关系,为靶向药物的选定提供支持,进一步验证了DIPins方法的有效性。因此,DIPins是一种可用于基因组变异研究及临床治疗方面的变异检测工具,有助于结构变异的分析及癌症患者的精确诊断。

龚海波^[7]（2020）在《卡波西肉瘤病毒编码的miR-K12-3p生物学作用和机制研究》文中进行了进一步梳理目的:目前认为,卡波西肉瘤相关病毒（KSHV）是导致卡波西肉瘤等肿瘤发生的关键病原体。KSHV在卡波西肉瘤等肿瘤发病中的作用和机制尚不明确。临床上我们发现,各个类型的卡波西肉瘤患者发病情况都是男性远远多于女性,其背后的机制不明。由于对于卡波西肉瘤来讲,目前没有一个可以信赖的细胞株可供研究,卡波西肉瘤目前认为是内皮细胞来源的肿瘤,研究KSHV致瘤作用可以用的模型是感染KSHV的内皮细胞。KSHV基因组编码25个成熟miRNA,这些miRNA的具体作用不明。因此,本研究旨在探索以下几个问题:（1）在感染KSHV方面是否存在性别偏好,即男性相较于女性在感染KSHV方面是否是个危险因素（2）内皮细胞感染KSHV后,会产生哪些差异表达基因（3）kshv-miR-k12-12-3p有多少可能的靶基因。（4）kshv-miR-k12-12-3p会对内皮细胞有什么样的生物学作用。（5）kshv-miR-k12-12-3p改变生物学表型背后的分子机制是什么。方法:（1）在PubMed、EMBASE、中国知网、万方等数据库检索并纳入全世界所有KSHV血清流行病学的文献,时间跨度从1994年1月到2019年11月采用Meta分析的方法,计算男性和女性在发病中的合并优势比（ORs）和95%置信区间（95%CI）。（2）从GEO数据库下载相关数据集,采用在线的工具得到差异表达基因,并对这些差异表达基因进行进一步的功能富集分析,关键基因模块分析。（3）采用2个在线的分析软件Target Scan Human Custom、miRDB预测kshv-miR-k12-12-3p靶基因,并对结果进行取交集获取共同的靶基因,并进一步对靶基因进行功能富集分析和关键基因模块的获取。（4）采用细胞生物学的手段和方法将kshv-miR-k12-12-3p转染进入脐静脉内皮细胞,观察其对内皮细胞的生物学作用。（5）采用RT-qPCR和Western blot的方法检测稳定转染kshv-miR-k12-12-3p的内皮细胞中相关生物标志物的改变。结果:（1）对全人群的meta分析结果表明男性女性的KSHV阳性率没有统计学差异（男vs.女,OR=1.07,95%CI:0.99-1.17,P=0.10）;对纳入的成人Meta分析结果显示男性发病情况较女性高（男vs.女,OR=1.11,95%CI:1.03-1.19,P=0.004）;纳入的儿童Meta分析结果显示男性儿童相较于女性儿童没有统计学差异（男vs.女,OR=0.87,95%CI:0.77-0.99,P=0.03）。（2）生物信息学分析共得到113个差异表达基因,其中有11个最关键基因。（3）生物信息学预测共得到kshvmiR-k12-12-3p的78个靶基因,其中有4个最关键基因。（4）划痕实验和血管生成实验可以观察到kshv-miR-k12-12-3p促进内皮细胞的迁移和血管生成。（5）RT-qPCR和Western blot的方法可以检测到关键基因的mRNA和蛋白的改变。结论:（1）在KSHV感染方面,存在一定程度的性别偏好,但尚不足以解释卡波西肉瘤发病男性远远多于女性的现象。（2）KSHV感染可以使内皮细胞产生差异表达的基因。（3）生物信息学预测可得到kshv-miR-k12-12-3p最可能的靶基因。（4）kshv-miR-k12-12-3p可以促进内皮细胞的迁移和血管生成。（5）kshv-miR-k12-12-3p可以通过影响NF-κB信号通路来实现对内皮细胞的迁移和血管生成的改变。

章天骄^[8]（2019）在《基于高通量数据的增强子及其作用位点预测方法》文中指出对于多细胞真核生物来说,细胞的特异性功能是十分重要的。这就要求在相同遗传物质的基础上,细胞能够通过不同的基因表达模式来适应环境的变化。基因表达调控的因素有很多,近年来随着对基因组非编码区的研究,发现了一些非编码的DNA序列对于基因表达调控具有重要意义。增强子是对基因表达调控具有重要作用的非编码序列元件之一。一些增强子能够通过转录产生具有调控功能的RNA,也被称为增强子RNA（enhancerRNA,简称eRNA）。因此对于增强子的序列特征、作用位点以及在特定时间和特定组织中表达模式的研究成为了基因表达调控领域的一个重要问题。然而由于增强子的调控模式会受到时空特异性等因素的影响,因此对于组织特异性增强子的研究,尤其是与疾病相关的研究一直是近年来增强子相关研究的重点问题。随着高通量测序技术的发展,生物学数据实现了爆发式的增长,同时也使得通过计算学方法应用这些数据大规模分析增强子的功能成为可能。而已有的生物信息学研究对于现有的数据利用不足或者无法满足预测精度的需求。针对现有的增强子预测及分析方法中存在的问题,本文首先对增强子进行了生物特征分析,在此基础上提出了增强子的预测方法。进一步地,通过对全基因组SNPs数据进行分析,提出了基于SNPs数据的肝癌相关增强子的预测方法。最后,提出了基于随机森林的增强子作用位点预测方法。本文的主要内容包括以下四个部分:（1）使用生物特征来预测增强子一直是一个热点问题,已有的生物信息学方法只应用了一种或几种特征来预测增强子,忽视了其它特征对于表征增强子的作用。本文则充分考虑与增强子相关的多种生物特征,包括:序列特征,转录特征和表观遗传特征。通过对每种特征进行量化处理来分析不同特征在增强子预测中的重要程度。最后说明了分析结果的合理性。（2）已有的研究对于预测增强子的方法主要集中在实验手段和分析表达量差异的方式,这种方法难以实现高通量的预测或者预测精度较低。本文从与增强子相关的生物特征出发,基于后验概率贝叶斯分类模型对增强子进行预测。通过人类肝癌和正常组织中的表达数据,本文预测了人类基因组上与肝癌相关的增强子lncRNA。与其它预测增强子的方法相比,该模型具有更高的预测准确度。（3）与增强子相关的单核苷酸多态性（Single Nucleotide Polymorphism,简称SNP）等遗传突变在疾病的产生和发展过程中起了重要作用。这些遗传突变通过影响转录因子与增强子的结合程度对增强子的功能进行调控。因此可以应用SNPs数据对疾病相关的增强子进行预测。本文通过量化不同SNPs与增强子内部转录因子结合位点序列的结合程度,转化为SNPs对于增强子转录调控功能强弱的度量,构建与疾病相关增强子的预测模型。通过人类肝癌组织数据,本文对该模型进行了测试,验证了结果的合理性。（4）增强子对基因表达起调控作用主要体现在其与基因启动子区的相互作用上,因此有效的预测增强子与启动子的关联关系对于分析增强子的功能是十分重要的。目前应用计算学方法对增强子调控位点的预测正确率有限。因此,本文提出基于随机森林方法综合使用增强子区、启动子区和增强子与启动子间基因组区域的多种生物特征来预测增强子与启动子的关联关系。通过与其他预测方法相比,该模型具有更高的预测精度。

张亮^[9]（2019）在《人类Y染色体上微卫星序列特异性聚类分析》文中进行了进一步梳理自人类全基因组测序完成后,发现人类基因组中即使是单个染色体序列上的碱基总数也有许多,超过1亿对,面对如此巨大的数据量,以往的研究只是做一些粗略的微卫星总数统计,或者仅仅专注于一些局部基因组区域的微卫星研究,缺乏系统分析。Y染色体是较短的一条,本研究以测序区域最全的Y染色体参考序列NC000024.10进行系统分析。本研究以已测序区为基础,总共提取出19万个微卫星序列,研究发现它们在不同区域分布很不均匀,其中有许多相同或者相似的微卫星（或称简单序列重复）会特异性的聚集在一起,有的是几百个相似的聚集在一起,有的是几十个相似的聚集在一起,有的仅是几个相似的聚集在一起,根据这种现象分为微卫星cluster、mini cluster、micro cluster三类。cluster为连续25个以上相似或者相同的微卫星聚集在一起,mini cluster为连续9-25个相似或者相同的微卫星聚集在一起,micro cluster为连续3-8个相似或者相同的微卫星聚集在一起。通过统计还发现了这些微卫星序列特异性聚类的总数达到了8110个,微卫星序列特异性聚类中的微卫星个数占到了已测序区19万个微卫星总数的30%左右,其中cluster的数量为204,mini cluster为354,micro cluster的数量为7552。由于cluster比重最大,实验室接下来的研究也在cluster上,因此分析了cluster在不同区域中的分布,为以后的研究提供数据基础。在本论文研究中我们首先分析了三类微卫星序列特异性聚类在基因组上的分布情况;其次对不同重复类型、不同重复模体和不同片段中的微卫星序列特异性聚类进行数量统计并比较分析;最后对所有微卫星序列特异性聚类的特征值进行统计,这些特征值能明显的反映微卫星特异性聚类的内部情况。以上统计表明特异性聚类可能具有重要的生物学意义,为了解Y染色体的结构打下更深厚的基础,并对微卫星的进化规律提供帮助。

赵健^[10]（2019）在《卵巢癌相关长链非编码RNA的生物信息学研究》文中研究说明卵巢癌是女性生殖系统最常见的恶性肿瘤之一,因其早期症状不明显,将近60%的卵巢癌确诊时已处于晚期,死亡率极高。因此,卵巢癌的早期发现是有效治疗的关键。此外,由于卵巢癌术后的高复发转移率以及化疗耐药性,卵巢癌（特别是卵巢浆液性囊腺癌）的预后极差,居所有妇科恶性肿瘤之首。为了研究卵巢癌早期诊断和临床治疗方法,需先了解其发生发展以及耐药性产生的分子机制。目前,利用高通量测序技术,已经发现了大量在卵巢癌中表达失调的长链非编码RNA（lnc RNA）,但大多数lnc RNA在卵巢癌中的功能及作用机制尚不清楚。lnc RNA具有高度的组织和时空表达特异性,功能多样,已成为卵巢癌领域的研究热点。随着近些年卵巢癌转录组学数据的积累以及癌症基因图谱（TCGA）计划的实施,我们得以通过系统生物学及生物信息学的方法识别卵巢癌相关lnc RNA,构建lnc RNA调控网络,深入探讨lnc RNA的功能及其在卵巢癌中的分子作用机制。本文的主要创新性工作如下:1、目前基于高通量测序数据的转录本组装还存在装配质量不佳,起始或终止密码子丢失等问题,使得不完整编码转录本易被错分为lnc RNA。因此,我们提出了一种新的lnc RNA识别工具–lnc Score。该工具在准确区分lnc RNA和m RNA方面要优于其他工具（如CPAT、CNCI等）,特别是在不完整编码转录本的分类上,识别准确率95%以上。lnc Score还具有支持多线程,耗时短,效率高等优势。此外,我们提取了卵巢癌及癌旁组织并进行了转录组测序,从组装的转录本中利用lnc Score识别出5821个新的lnc RNA转录本和4611个新的lnc RNA基因,其中10个新的lnc RNA转录本和174个新的lnc RNA基因被发现在卵巢癌中差异表达。2、针对现有方法基于整体表达相关性对lnc RNA-mi RNA-m RNA竞争性三元组进行筛选,受样本集影响较大,且仅能筛选mi RNA中心型候选三元组等问题。我们提出了一种新的竞争性三元组识别工具–Lnc Mi M。该工具利用改进型的滑动窗口方法,基于局部水平的表达相关性变化,可对三种中心型候选三元组进行筛选,不仅降低了竞争性三元组识别的假阳性率,还提高了识别的敏感性。基于TCGA数据库中373个病人的卵巢癌高通量测序数据,我们使用Lnc Mi M识别出的竞争性三元组构建了lnc RNA调控网络,并对其功能进行了分析。结果显示该调控网络与卵巢癌细胞的增殖、分裂及迁移密切相关。3、RNA中含有的内部核糖体进入位点（IRES）功能元件,通常介导非帽依赖的RNA翻译机制,近来其被发现在癌症的形成和发展中发挥着重要作用,迫切需要一个完善的IRES功能元件数据库。因此我们从文献中手工收集了所有实验验证的IRES元件,并构建了一个新的IRES数据库–IRESbase。该数据库收录的IRES条目共有1184个,数量比其他数据库多八倍,且注释信息更加丰富,特别是提供了人类IRES元件的基因组位置信息。基于TCGA数据库中的卵巢癌高通量测序数据,我们分析了lnc RNA与含IRES元件m RNA间的相互作用,筛选出110个与含IRES元件m RNA表达相关的lnc RNA,并对其潜在功能进行了预测。结果提示这些lnc RNA可能通过调控细胞周期及代谢过程影响卵巢癌细胞增殖,通过调控Slit/Robo信号通路影响卵巢癌细胞迁移。4、目前尚有大量的人类RNA中的IRES元件未被发现,而实验的方法往往耗时耗力。因此,我们提出了一种新的IRES元件识别工具–IRESfinder。该工具在训练集中使用的正负样本均取自IRES活性鉴定实验,并首次使用了改进的k-mer特征--Framed k-mer。与现有工具相比,IRESfinder对真核RNA中IRES元件的分类准确性更高,鲁棒性更强。通过对卵巢癌及癌旁组织的转录组测序分析,共找到23个差异表达的lnc RNA转录本。随后使用IRESfinder对这些差异表达lnc RNA中的可能存在的IRES元件进行了预测,由此筛选出7个可能编码多个小肽的lnc RNA,功能分析表明其与卵巢发育密切相关。本论文主要基于卵巢癌高通量转录组测序数据,利用lnc Score识别新的卵巢癌相关lnc RNA,接着使用Lnc Mi M构建lnc RNA调控网络,然后通过研究lnc RNA与IRESbase数据库中IRES元件宿主m RNA间的相互作用分析lnc RNA在卵巢癌中的潜在功能,最后使用IRESfinder辅助卵巢癌相关编码小肽lnc RNA的识别。本文研究成果将有助于理解lnc RNA调控网络影响卵巢癌发生发展的分子机制,对卵巢癌的早期诊断和靶向药物的研发打下良好的科学研究基础。

二、生物信息学在人类基因组研究中的应用（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、生物信息学在人类基因组研究中的应用（论文提纲范文）

（1）消化道肿瘤核心转录调控环的识别及其关键转录因子的功能鉴定（论文提纲范文）

摘要

abstract

缩略语表

第一章绪论

1.1 引言

1.2 消化道肿瘤的分类

1.3 消化道肿瘤的诊断标志物

1.4 消化道肿瘤中特异的转录因子

1.5 消化道肿瘤的表观基因组特征

1.6 消化道肿瘤中的超级增强子和核心转录调控环

1.7 研究意义和基金来源

1.7.1 研究意义

1.7.2 基金来源

第二章消化道肿瘤中特异转录因子的鉴定与比较研究

2.1 引言

2.2 研究方案与技术路线

2.3 数据与方法

2.3.1 实验数据

2.3.2 ChIP-Seq测序技术

2.3.3 ChIP-Seq数据预处理

2.3.4 序列比对方法

2.3.5 标记重复序列

2.3.6 去除异常和非结构化序列

2.3.7 H3K27ac绑定位点识别

2.3.8 差异peaks和样本聚类分析

2.3.9 H3K27ac可视化峰值

2.3.10 转录因子motifs识别

2.3.11 peaks注释

2.3.12 通路富集分析

2.4 结果

2.4.1 消化道肿瘤存在异常H3K27ac信号

2.4.2 消化道肿瘤中转录因子motifs的鉴定

2.4.3 三种消化道肿瘤中异常转录因子的鉴定及其生物学通路

2.5 讨论

第三章消化道肿瘤中核心转录调控环的识别与比较研究

3.1 引言

3.2 研究方案与技术路线

3.3 数据与方法

3.3.1 数据来源

3.3.2 构建.gff文件

3.3.3 识别增强子和超级增强子

3.3.4 识别核心转录调控环

3.3.5 计算转录因子富集得分

3.4 结果

3.4.1 结直肠癌中的增强子和超级增强子

3.4.2 胃癌中的增强子和超级增强子

3.4.3 食管腺癌中的增强子和超级增强子

3.4.4 食管鳞癌中的增强子和超级增强子

3.4.5 结肠癌核心转录调控环中的转录因子及其表达特征

3.4.6 胃癌核心转录调控环中的转录因子及其表达特征

3.4.7 食管腺癌核心转录调控环中的转录因子及其表达特征

3.4.8 不同消化道肿瘤核心转录因子中共有或特异的转录因子

3.4.9 不同消化道肿瘤中异常的生物学过程

3.5 讨论

第四章微卫星稳定型结直肠癌核心转录调控环与免疫逃逸关联性研究

4.1 引言

4.2 研究方案

4.3 数据与方法

4.3.1 实验数据

4.3.2 TCGA biolinksR包下载TCGA数据

4.3.3 筛选差异表达的超级增强子

4.3.4 GSEA通路富集分析

4.3.5 相关性分析

4.3.6 关键转录因子在TCGA多种癌症样本中的突变

4.3.7 消化道肿瘤中ASCL2的表观修饰

4.4 结果

4.4.1 微卫星稳定型结肠癌中异常的master TFs

4.4.2 ASCL2和ETV4 抑制免疫相关生物学功能

4.4.3 ASCL2和ETV4 高表达抑制T细胞浸润特征基因表达

4.4.4 ASCL2和ETV4与T细胞浸润程度相关

4.4.5 ASCL2在微卫星稳定型结直肠癌细胞中特异性表达

4.4.6 ASCL2表达与干扰素应答信号负相关

4.4.7 ASCL2在微卫星稳定型结直肠癌中高表达引发的免疫逃逸机制

4.5 讨论

第五章食管鳞癌中SREBF1核心转录调控环的识别及其功能鉴定

5.1 引言

5.2 研究方案

5.3 数据与方法

5.3.1 实验数据

5.3.2 TCGA biolinksR包下载TCGA数据

5.3.3 筛选差异表达基因

5.3.4 GSEA通路富集分析

5.3.5 高通量测序原始数据处理

5.3.6 4C与H3K27ac重叠区域的motifs分析

5.3.7 表观基因组基因共定位分析

5.3.8 其他生物信息学方法

5.3.9 功能实验方法

5.4 结果

5.4.1 SREBF1介导TP63调控脂肪酸代谢通路

5.4.2 SREBF1、TP63和KLF5构成核心转录调控环相互协同调控转录

5.4.3 SREBF1 促进脂肪酸、鞘磷脂和甘油磷脂的合成以及食管鳞癌细胞的生长和迁徙

5.4.4 SREBF1、TP63和KLF5协同调控的食管鳞癌转录组

5.4.5 SREBF1、TP63和KLF5在食管鳞癌细胞中协同激活ErbB/m TOR信号通路

5.5 讨论

研究结论与问题展望

研究结论

问题展望

参考文献

综述核心转录调控环的研究进展

主要参考文献

附录1 样本结果信息

附录2 博士期间发表学术论文情况

附录3 本人简历

致谢

（2）基因组重复度量化及重复序列从头鉴定（论文提纲范文）

致谢

摘要

ABSTRACT

缩略语表

1 绪论

1.1 重复序列概述

1.2 重复序列的生物学功能

1.2.1 串联重复的生物学功能

1.2.2 转座元件的生物学功能

1.2.3 区段重复的生物学功能

1.3 重复序列带来的计算生物学挑战

1.4 重复序列的识别方法

1.4.1 K-mer计数的常见方法

1.4.2 基于k-mer计数的重复序列识别工具

1.4.3 基于重复度打分的重复序列识别工具

1.4.4 现有从头识别重复序列方法的一些不足

1.5 本研究的目的和意义

2 基因组序列重复度量化分析

2.1 基因组重复度图谱构建流程

2.1.1 K-mer频次计算

2.1.2 加权k-mer覆盖度计算

2.1.3 人类基因组重复度图谱

2.2 基因组重复度与基因组结构的关系

2.3 基因组重复度与重复元件演化的关系

2.4 基因组重复度与表观遗传修饰的关系

2.5 基因组重复度与基因组可匹配度的关系

2.6 小结与讨论

3 基因组重复序列从头检测工具开发

3.1 材料与方法

3.1.1 方法原理和工作流程

3.1.2 工具模块和程序实现

3.1.3 测试数据和评估指标

3.1.4 关键参数的选取标准

3.2 重复序列从头检测表现分析

3.2.1 重复序列检测敏感度比较

3.2.2 重复序列检测特异度比较

3.2.3 潜在重复序列检测及假阳性分析

3.2.4 运行时间及内存占用

3.3 内嵌重复序列的检测

3.4 小结与讨论

4 基于重复度图谱的比较基因组学分析

4.1 跨物种基因组重复度图谱构建

4.2 基于重复度图谱探究物种进化轨迹

4.3 基于重复度图谱构建物种系统发育树

4.3.1 基于重复度图谱估算物种进化距离

4.3.2 大肠杆菌Escherichia coli/Shigella株系的系统进化分析

4.3.3 沙门氏菌Salmonella enterica不同重组水平亚型的划分

4.4 小结与讨论

5 基因组重复度图谱可视化分析平台构建

5.1 序列重复度在线计算及可视化

5.2 人和小鼠基因组重复度浏览器

5.3 微生物基因组重复度可视化比较分析

5.3.1 大肠杆菌基因组重复度图谱比较分析

5.3.2 大肠杆菌与沙门氏菌的共有保守性区域

5.3.3 SARS-Co V-2 病毒重复度图谱比较分析

5.4 小结与讨论

6 结论与展望

参考文献

附录

A 附表

B 附图

作者简历

（3）利用生物信息学发现核酶和新的结构性ncRNA（论文提纲范文）

摘要

Abstract

第1章引言

1.1 基因组测序的进展

1.2 结构性非编码RNA简介

1.3 一种结构性非编码RNA——核酶

1.3.1 核酶的简介

1.3.2 植物中核酶的发现

1.4 结构性ncRNA的预测原理和应用

1.4.1 结构性ncRNA的预测原理

1.4.2 二级结构预测的方法

1.5 本课题研究方法

1.5.1 在植物中发现核酶的方法

1.5.2 基于比较基因组学发现新的结构性ncRNA的技术路线

1.6 论文结构和安排

第2章实验材料与方法

2.1 实验材料

2.1.1 细胞株

2.1.2 主要试剂

2.1.3 实验试剂配制

2.1.4 主要仪器和设备

2.2 分子实验方法

2.2.1 DNA、RNA的乙醇沉淀法纯化

2.2.2 试剂盒提取total RNA

2.2.3 RT-PCR

2.2.4 核酶PCR

2.2.5 核酶的转录

2.2.6 核酶的剪切

2.3 细胞实验方法

2.3.1 动物细胞的复苏

2.3.2 动物细胞的传代

2.3.3 动物细胞的冻存

2.4 相关数据库的下载

2.4.1 动物基因组数据库的下载

2.4.2 植物基因组数据库的下载

2.4.3 已知RNA数据库的下载

2.5 在植物基因组中提取新的非编码区

2.6 用BLAST进行植物物种新非编码区之间的比对

2.7 动物基因组新非编码区的物种间比对

2.8 CMfinder预测二级结构

2.9 应用RNAcode筛除残余的编码区

2.10 编写Perl程序筛选好的二级结构motif

2.11 在tRNAscan、Rfam网站筛除残余的已知RNA

2.12 Infernal的用法

2.13 编写perl程序得到motif相关基因信息

第3章实验结果

3.1 HDV核酶的发现

3.1.1 应用Infernal在植物基因组中预测HDV核酶

3.1.2 HDV核酶的验证过程

3.2 Hammerhead核酶的发现

3.2.1 应用Infernal在植物基因组中预测hammerhead核酶

3.2.2 III型Hammerhead核酶的验证

3.3 裸子植物中预测出新的结构性ncRNA的表达与功能

3.4 在人类基因中预测出新的有表达的结构性ncRNA

结论

参考文献

致谢

附录 A RT-PCR引物

附录 B 核酶PCR引物

附录 C 在S. moellenforffii基因组中预测到I型hammerhead核酶位置信息

附录 D 应用Infernal在植物基因组中预测的III型hammerhead核酶序列

附录 E Alu的二级结构

个人简历、在学期间发表的学术论文与研究成果

（4）埃博拉病毒（Ebolavirus）基因组中微卫星保守位点及其功能分析（论文提纲范文）

摘要

Abstract

缩略词

第1章绪论

1.1 生物信息学

1.1.1 生物信息学的概念

1.1.2 生物信息学的发展

1.1.3 生物信息学的应用

1.2 相关的生物信息学数据库和统计学软件介绍

1.2.1 Gen Bank数据库

1.2.2 Gen Pept数据库

1.2.3 Uniprot数据库

1.2.4 SPSS统计软件

1.3 微卫星介绍

1.3.1 微卫星序列的定义

1.3.2 微卫星序列的突变与进化

1.3.3 微卫星不稳定性

1.3.4 微卫星序列与疾病的相关性

1.4 埃博拉病毒概述

1.4.1 埃博拉病毒的出现

1.4.2 埃博拉病毒基因组结构

1.4.3 埃博拉病毒的研究进展

1.5 本研究工作的内容和意义

第2章埃博拉病毒基因组中末端非编码区保守微卫星的分析

2.1 前言

2.2 材料与方法

2.2.1 基因组序列的收集

2.2.2 微卫星的提取

2.2.3 序列比对

2.2.4 RNA二级结构预测

2.2.5 统计分析

2.3 结果

2.3.1 末端区域高序列差异和完整基因组的低序列差异

2.3.2 高保守性微卫星位点主要分布在 5',3'末端非编码区

2.3.3 保守的微卫星位于保守的茎环结构上

2.4 讨论

2.4.1 保守微卫星可能有助于保守茎环结构的形成

2.4.2 保守微卫星具有更大的进化压力

2.4.3 保守的微卫星可能由于功能选择而被保留

2.5 本章小结

第3章埃博拉病毒基因组中GP基因编码区保守微卫星的分析

3.1 前言

3.2 材料和方法

3.2.1 材料选取

3.2.2 序列比对

3.2.3 微卫星提取与统计

3.2.4 蛋白质功能位点检索

3.2.5 统计学分析

3.3 结果

3.3.1 GP基因编码区存在高度保守的微卫星位点

3.3.2 GP基因编码区具有更低的序列差异和更高的微卫星保守率

3.3.3 保守微卫星处于重要蛋白质功能位点上

3.3.4 保守微卫星与GP基因的RNA编辑密切相关

3.4 讨论

3.4.1 编码区的保守微卫星是GP基因的重要编辑位点

3.4.2 保守微卫星位点可能作为重要的蛋白质功能位点而被保留

3.5 本章小结

结论

参考文献

附录一攻读硕士期间发表的学术论文目录

附录二表格:埃博拉病毒属五个种的完整基因组序列信息

附录三表格:埃博拉病毒完整基因组和末端区域保守微卫星的统计

附录四图片:219 条序列中 5', 3'末端的保守微卫星位点

附录五图片:219 条序列中 5', 3'末端形成的茎环结构

致谢

（5）抑郁症调控网络及逍遥散抗抑郁模块的生物信息学分析与实验研究（论文提纲范文）

摘要

ABSTRACT

符号说明

前言

第一章文献综述

第一节生物信息学的发展概况

1 生物信息学发展概况

2 生物信息学给中医药发展的启示

第二节生物信息学在中医证候研究中的应用概况

1 生物信息学在中医证候相关生物网络的构建与分析中的应用

2 生物信息学在中医证候相关组学分析中的应用

第三节生物信息学在中药及其复方研究中的应用概况

1 生物信息学在中药及其复方物质基础及作用机制中的应用

2 生物信息学在中药及其复方的炮制、功效、归经及配伍中的应用

3 生物信息学应用于中药及其复方研究中存在的问题

第四节小结与展望

第二章生物信息学分析

第一节抑郁症多因子调控网络的构建与生物信息学分析

1 引言

2 材料与方法

3 结果

4 讨论与分析

5 小结

第二节逍遥散抗抑郁作用功能模块的生物信息学分析

1 引言

2 材料与方法

3 结果与分析

4 讨论

5 小结

第三章实验研究

第一节逍遥散对CUMS抑郁模型大鼠行为学的影响

1 引言

2 材料与方法

3 结果

4 讨论与分析

5 小结

第二节抑郁模型大鼠前额叶皮质大麻素受体的表达及逍遥散的调节作用

1 引言

2 材料与方法

3 结果

4 讨论与分析

5 小结

第四章结论

参考文献

在学期间主要研究成果

致谢

（6）基于第二代测序数据的散在倍增插入变异检测方法研究（论文提纲范文）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 背景介绍

1.2 研究现状

1.3 研究目标与意义

1.4 本文的安排和主要工作

第二章相关背景知识

2.1 基本术语与数据

2.1.1 NGS数据

2.1.2 双端测序

2.1.3 FASTA文件格式与FASTQ文件格式

2.1.4 SAM文件格式

2.1.5 测序深度

2.1.6 基因组注释

2.2 辅助工具

2.2.1 数据仿真软件SInC

2.2.2 序列比对软件BWA

2.2.3 FASTQ文件处理工具Seqtk

2.3 本章小结

第三章散在倍增插入变异检测算法DIPins

3.1 DIPins方法变异检测流程

3.2 测序数据比对及有效信息提取

3.3 散在倍增插入变异断点检测

3.4 散在倍增插入变异序列推断

3.5 本章小结

第四章实验结果及分析

4.1 DIPins方法的仿真研究

4.2 肿瘤样本数据的研究与应用

4.3 本章小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

作者简介

（7）卡波西肉瘤病毒编码的miR-K12-3p生物学作用和机制研究（论文提纲范文）

摘要

Abstract

前言

第一部分卡波西肉瘤病毒(KSHV)血清阳性率与性别因素的meta分析

1.研究内容与方法

1.1 研究对象

1.2 研究方法

1.3 质量控制

1.4 统计方法

2.结果

2.1 纳入研究的筛选过程和基本情况

2.2 Meta分析的结果

3.讨论

4.小结

第二部分基于KSHV感染内皮细胞芯片数据的生物信息学分析

1.研究内容与方法

1.1 研究对象

1.2 差异表达基因的筛选

1.3 差异表达基因的GO和 KEGG信号通路富集分析

1.4 蛋白互作网络构建和关键基因网络的获取

1.5 关键基因的注释和数据库信息挖掘

2.结果

2.1 KSHV感染内皮细胞差异表达基因的筛选

2.2 差异表达基因的GO和 KEGG富集分析

2.3 蛋白互作网络的构建和关键基因的分析

3.讨论

4.小结

第三部分 kshv-miR-k12-12-3p靶基因预测及其相关信号通路的生物信息学分析

1.材料与方法

2.结果

3.讨论

4.小结

第四部分 kshv-miR-k12-12-3p促进内皮细胞的迁移和血管生成

1.研究内容和方法

1.1 原代脐静脉内皮细胞的提取与鉴定

1.2 内容与方法

1.3 质量控制

1.4 统计方法

2.结果

3.讨论

4.小结

第五部分 kshv-miR-k12-12-3p促进内皮细胞的迁移和血管生成的分子机制探索

1.研究内容与方法

1.1 内容与方法

1.2 质量控制

1.3 统计分析

2.结果

3.讨论

4.小结

结论

致谢

参考文献

附录

综述

参考文献

攻读博士学位期间获得的学术成果

个人简历

导师评阅表

（8）基于高通量数据的增强子及其作用位点预测方法（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题研究的背景及意义

1.1.1 研究背景

1.1.2 研究的目的与意义

1.2 生物学相关背景知识

1.2.1 基因的转录调控

1.2.2 增强子

1.2.3 单核苷酸多态性

1.2.4 高通量生物数据

1.3 研究现状

1.3.1 增强子预测的研究现状

1.3.2 增强子作用位点预测的研究现状

1.4 存在的主要问题

1.5 本文的主要内容

第2章增强子生物特征分析方法

2.1 引言

2.2 增强子生物特征分析方法设计

2.2.1 增强子的生物特征分析

2.2.2 增强子生物特征量化方法

2.2.3 增强子生物特征显着性判别方法

2.2.4 增强子生物特征重要性评估

2.3 增强子生物特征分析实验结果与验证

2.3.1 增强子相关生物特征数据来源及预处理

2.3.2 基于信息增益的方法对特征进行重要性评估结果

2.3.3 基于单一特征预测准确度对特征进行重要性评估结果

2.3.4 增强子生物特征重要性评估实验结果合理性分析

2.4 本章小结

第3章基于生物特征的增强子预测方法

3.1 引言

3.2 基于生物特征增强子预测的模型设计

3.2.1 增强子相关生物特征集合的选取

3.2.2 增强子RNA在正常和肝癌组织中的表达数据整理

3.2.3 后验概率贝叶斯分类模型设计

3.2.4 在人类基因组上预测肝癌相关增强子的位置

3.3 基于生物特征增强子预测的结果与验证

3.3.1 增强子相关生物特征数据来源及数据参考集的构建

3.3.2 后验概率贝叶斯分类模型的预测性能及评价

3.3.3 人类基因组上肝癌相关增强子的预测结果及评价

3.4 本章小结

第4章基于SNPs数据的肝癌相关增强子预测方法

4.1 引言

4.2 基于SNPs数据的肝癌相关增强子预测模型设计

4.2.1 肝癌相关SNPs集合的构建

4.2.2 基于PWM的SNPs调控增强子转录模型设计

4.2.3 肝癌相关致病风险增强子的预测

4.3 基于SNPs数据的肝癌相关增强子预测结果与验证

4.3.1 增强子、转录因子和与肝癌相关SNPs的数据来源及预处理

4.3.2 肝癌相关增强子预测结果及评价

4.4 本章小结

第5章基于随机森林的增强子作用位点预测方法

5.1 引言

5.2 基于随机森林的增强子作用位点预测模型设计

5.2.1 增强子-启动子关联关系数据集的构建

5.2.2 与增强子-启动子关联关系相关的生物特征分析

5.2.3 基于随机森林的增强子-启动子关联关系预测模型设计

5.3 基于随机森林的增强子作用位点预测结果与验证

5.3.1 与增强子作用位点预测相关的数据来源及基本分析

5.3.2 基于信息增益的方法对特征进行重要性评估结果

5.3.3 增强子-启动子关联关系预测结果及评价

5.3.4 肝癌数据集上预测增强子调控的基因

5.4 本章小结

结论

参考文献

攻读博士学位期间发表的论文及其它成果

致谢

个人简历

（9）人类Y染色体上微卫星序列特异性聚类分析（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 生物信息学概述

1.1.1 生物信息学的产生背景及内涵

1.1.2 生物信息学的相关研究内容

1.1.3 生物信息学专业的研究趋势

1.2 常用生物信息数据库概述

1.2.1 数据库介绍及了解GenBank数据库

1.2.2 生物信息相关数据库的特点

1.3 微卫星介绍

1.3.1 微卫星的分类

1.3.2 微卫星的功能及特点

1.3.3 微卫星的进化类型

1.4 人类染色体相关知识的简介

1.4.1 人类Y染色体的起源与演化

1.4.2 人类Y染色体的特征

1.5 本研究工作的内容和意义

第2章微卫星序列特异性聚类在人类Y染色体上的分布研究

2.1 前言

2.2 方法与材料

2.2.1 人类Y染色体参考序列NC_000024.10 的分析

2.2.2 微卫星的提取

2.2.3 已测序区中micro cluster、mini cluster、cluster三类特异性聚类的划分标准

2.2.4 微卫星micro cluster、mini cluster、cluster在基因组上的分布

2.3 结果与讨论

2.3.1 人类Y染色体已测序区中micro cluster在基因组上的分布

2.3.2 人类Y染色体已测序区中mini cluster在基因组上的分布

2.3.3 人类Y染色体已测序区中cluster在基因组上的分布

2.4 本章小结

第3章人类Y染色体参考序列中微卫星序列特异性聚类的统计学分析

3.1 前言

3.2 材料与方法

3.2.1 微卫星序列特异性聚类的统计

3.3 结果与分析

3.3.1 各个碱基已确定区域上三类微卫星序列特异性聚类的特征值进行分析统计

3.3.2 所有碱基已确认片段上微卫星序列特异性聚类的数量

3.3.3 各个碱基已确定区域S1-S55 上微卫星序列特异性聚类的统计

3.4 本章小结

结论

参考文献

附录

致谢

（10）卵巢癌相关长链非编码RNA的生物信息学研究（论文提纲范文）

摘要

abstract

缩略词

第一章绪论

1.1 研究背景

1.2 研究目的及意义

1.3 国内外研究现状

1.3.1 卵巢癌

1.3.2 长链非编码RNA

1.3.3 lncRNA-mi RNA-mRNA竞争性三元组

1.3.4 内部核糖体进入位点

1.4 本文主要研究内容

1.4.1 新的长链非编码RNA识别方法的开发

1.4.2 卵巢癌中lncRNA-mi RNA-mRNA竞争性三元组的识别

1.4.3 卵巢癌中IRES元件与lncRNA功能的相关研究

1.5 论文架构

第二章长链非编码RNA的识别

2.1 引言

2.2 材料和方法

2.2.1 数据集的构建

2.2.2 逻辑回归模型

2.2.3 序列特征

2.2.4 性能评估

2.2.5 性能比较

2.3 长链非编码RNA预测模型的构建及分类性能评估

2.3.1 序列特征筛选

2.3.2 lnc Score的构建及性能评估

2.3.3 lnc Score与其他分类工具的性能比较

2.3.4 跨物种预测的分类性能评估及比较

2.3.5 执行速度比较

2.4 长链非编码RNA预测模型分类性能讨论

2.4.1 模型评估与选择

2.4.2 阈值的选取

2.4.3 执行性能优化

2.5 本章小结

第三章卵巢癌中lncRNA调控mRNA表达模型的构建和分析

3.1 引言

3.2 卵巢癌中负相关mi RNA-lncRNA及 mi RNA-mRNA作用对的识别

3.2.1 卵巢癌高通量测序数据的收集和预处理

3.2.2 mi RNA靶基因的预测

3.2.3 相关性分析模型的选择

3.2.4 表达负相关的mi RNA-lncRNA及 mi RNA-mRNA作用对

3.3 lncRNA通过mi RNA调控mRNA表达模型的构建

3.3.1 现有模型的不足

3.3.2 新模型Lnc Mi M的构建

3.3.3 与现有模型的比较

3.4 长链非编码RNA调控网络的构建及功能分析

3.4.1 mi RNA中心型lncRNA-mi RNA-mRNA调控网络的构建和功能分析

3.4.2 lncRNA中心型mi RNA-lncRNA-mRNA调控网络的构建和功能分析

3.4.3 mRNA中心型mi RNA-mRNA-lncRNA调控网络的构建和功能分析

3.4.4 lncRNA调控网络的构建及功能分析

3.5 本章小结

第四章 lncRNA与含IRES元件的mRNA互作网络的构建及功能分析

4.1 引言

4.2 IRES功能元件数据库的创建

4.2.1 材料和方法

4.2.2 数据库内容

4.2.3 IRESbase数据库界面

4.2.4 数据统计

4.2.5 讨论和小结

4.3 卵巢癌中lncRNA与含IRES元件的mRNA相互作用对的识别及功能分析

4.3.1 卵巢癌中含IRES元件的mRNA的识别及功能分析

4.3.2 卵巢癌中lncRNA与含IRES元件的mRNA相互作用对的识别

4.3.3 卵巢癌中lncRNA与含IRES元件的mRNA相互作用对的功能分析

4.4 lncRNA与含IRES元件的mRNA互作网络的构建及功能分析

4.4.1 互作网络的构建

4.4.2 互作网络的功能分析

4.5 本章小结

第五章卵巢癌中差异表达的编码小肽lncRNA的识别及功能分析

5.1 引言

5.2 卵巢癌差异表达lncRNA的识别

5.2.1 数据准备

5.2.2 新lncRNA的识别

5.2.3 lncRNA的差异表达分析

5.3 IRES功能元件识别模型的构建

5.3.1 材料和方法

5.3.2 IRESfinder的性能评估

5.3.3 特征评估及讨论

5.4 差异表达的编码小肽的lncRNA的识别及功能分析

5.4.1 编码小肽的lncRNA的识别

5.4.2 编码小肽的lncRNA的功能分析

5.5 本章小结

第六章总结与展望

6.1 本文工作总结

6.2 后续研究展望

参考文献

致谢

在学期间的研究成果及发表的学术论文

附录

四、生物信息学在人类基因组研究中的应用（论文参考文献）

[1]消化道肿瘤核心转录调控环的识别及其关键转录因子的功能鉴定[D]. 杨倩. 汕头大学, 2021
[2]基因组重复度量化及重复序列从头鉴定[D]. 冯聪. 浙江大学, 2021(01)
[3]利用生物信息学发现核酶和新的结构性ncRNA[D]. 谢瑾. 华侨大学, 2020(01)
[4]埃博拉病毒（Ebolavirus）基因组中微卫星保守位点及其功能分析[D]. 张宏喜. 湖南大学, 2020(02)
[5]抑郁症调控网络及逍遥散抗抑郁模块的生物信息学分析与实验研究[D]. 卞庆来. 北京中医药大学, 2020(04)
[6]基于第二代测序数据的散在倍增插入变异检测方法研究[D]. 谢文路. 西安电子科技大学, 2020(05)
[7]卡波西肉瘤病毒编码的miR-K12-3p生物学作用和机制研究[D]. 龚海波. 新疆医科大学, 2020(07)
[8]基于高通量数据的增强子及其作用位点预测方法[D]. 章天骄. 哈尔滨工业大学, 2019(01)
[9]人类Y染色体上微卫星序列特异性聚类分析[D]. 张亮. 湖南大学, 2019(06)
[10]卵巢癌相关长链非编码RNA的生物信息学研究[D]. 赵健. 南京航空航天大学, 2019(09)

标签：生物信息学论文; 基因组论文; 人类基因组论文; 埃博拉病毒论文; 基因组注释论文;

生物信息学在人类基因组研究中的应用

一、生物信息学在人类基因组研究中的应用（论文文献综述）

二、生物信息学在人类基因组研究中的应用（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、生物信息学在人类基因组研究中的应用（论文提纲范文）

（1）消化道肿瘤核心转录调控环的识别及其关键转录因子的功能鉴定（论文提纲范文）

（2）基因组重复度量化及重复序列从头鉴定（论文提纲范文）

（3）利用生物信息学发现核酶和新的结构性ncRNA（论文提纲范文）

（4）埃博拉病毒（Ebolavirus）基因组中微卫星保守位点及其功能分析（论文提纲范文）

（5）抑郁症调控网络及逍遥散抗抑郁模块的生物信息学分析与实验研究（论文提纲范文）

（6）基于第二代测序数据的散在倍增插入变异检测方法研究（论文提纲范文）

（7）卡波西肉瘤病毒编码的miR-K12-3p生物学作用和机制研究（论文提纲范文）

（8）基于高通量数据的增强子及其作用位点预测方法（论文提纲范文）

（9）人类Y染色体上微卫星序列特异性聚类分析（论文提纲范文）

（10）卵巢癌相关长链非编码RNA的生物信息学研究（论文提纲范文）

四、生物信息学在人类基因组研究中的应用（论文参考文献）

猜你喜欢