设为首页收藏本站联系我们

微信二维码

联系我们Contact

公司名称:绿色环保农业网
销售中心:400-123-4567
销售传真:+86-123-4567
联系人:张生
手机:13888889999
公司地址:上海市浦东区天河路99号

您当前的位置:主页 > 园林艺术 > 类型二 > > 正文类型二

F:/结题报告+老销售培训/结题报告模板修改/…/真

发布时间:2019-11-25 丨 阅读次数:

F:/结题报告+老销售培训/结题报告模板修改/…/真

  测序错误率分布检查 A/T/G/C 含量分布检查 测序数据过滤 测序数据质量情况汇总

  不同实验条件下,基因表达水平对比图 基因差异表达分析 差异基因筛选 差异基因表达水平聚类分析

  差异基因KEGG富集分析 差异基因KEGG富集散点图 富集KEGG通路图

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  从RNA样品到最终数据获得,样品检测、建库▼▲、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续 信息分析的结果-▪▽▼。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从 根本上确保了高质量数据的产出。实验流程图如下:

  样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后 加入fragmentation buffer将mRNA打断成短片段▼▲…◆○◇,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲 液★…•、dNTPs▽…○◇◆、RNase H和DNA polymerase I合成二链cDNA▼=◁☆-,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修 复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。文库构建完成后◇●◁, 先使用Qubit2.0进行初步定量,稀释文库至1ng/ul★△★,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方 法对文库的有效浓度进行准确定量(文库有效浓度 >2nM),以保证文库质量。文库构建原理图如下▽△○:

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  库检合格后▪▷▪•,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行Illumina HiSeq/MiSeq测序。 北京诺禾致源生物信息科技有限公司

  对于无参考基因组的转录组分析…▪◇-…◇,可先将测序所得的序列拼接成转录本,以转录本为参考序列▽◁▪•=▽,进行后续分析△★●▷。信息分析流程图 如下:

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report○○●☆▼.html

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report=◆▽.html

  对于RNA-seq技术,测序错误率分布具有两个特点◇◆△…,具体见图 1: (1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高▲•□•,这是由于测序过程中化学试剂的消耗而导致的,并且为 illumina高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。 (2)前6个碱基的位置也会发生较高的测序错误率=◇△□★▪,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。 所以推测这部分碱基的测序错误率较高的原因为随机引物和RNA模版的不完全结合所致(Jiang et al.)▷□◇▲◇。一般情况下,单个碱基位置的测序 错误率应该低于1%▪□★▲…-。

  横坐标为reads 的碱基位置▷□,纵坐标为单碱基错误率 前100bp 为双端测序序列的第一端测序 Reads 的错误率分布情况,后100bp 为另一端测序reads 的错误率分布情况。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  2=◇……◆.2 A/T/G/C 含量分布检查 GC含量分布检查用于检测有无AT、GC分离现象。 对于RNA-seq来说,因随机性打断及G/C和A/T含量分别相等的原则,理论上GC及AT含量每个测序循环上应分别近似相等(若为链 特异性建库,可能会出现AT分离和/或GC分离)○•☆,且整个测序过程基本稳定不变,呈水平线。但在现有的高通量测序技术中,反转录成 cDNA 时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性,这种波动属于正常情况。如图 2 所示★■:

  横坐标为reads 的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型 前100bp 为双端测序序列的第一端测序Reads 的GC分布情况,后100bp 为另一端测序reads 的GC分布情况。

  F◁▽☆:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report▲○=▼▼★.html

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  Sample: 样品名。 1为左端reads ★▲…-•○,2为右端reads ☆-。样品的 clean reads 总数为 左端+右端。 Raw reads :统计原始序列数据,以四行为一个单位,统计每个文件的测序序列的个数--●□◇。 Clean reads ▼■:计算方法同 Raw Reads 、Raw bases ,只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads 。 Clean bases :测序序列的个数乘以测序序列的长度,并转化为以G为单位。 Error rate:碱基错误率。 Q20、Q30:分别计算 Phred 数值大于20◇☆、30的碱基占总体碱基的百分比。 GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report-□▼◁.html

  F◇●▼□▷…:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report-▲◁=●.html 9/38

  F☆■:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  3.2 拼接转录本长度分布 用 Trinity 将测序序列拼接成一个转录组☆■◁,以此作为后续分析的参考序列◇▪◇●□☆。取每条基因中最长的转录本作为Unigene。对转录本及 Unigene的长度进行统计,结果见表 2☆▷◆■□□,表 3和图 4,图 5。

  N50/N90的定义为: 按照长度将拼接转录本从大到小排序▲●▼,累加转录本的长度,到不小于总长50%/90%的拼接转录本的长度就是N50/N90。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report◇□○◇•=.html

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report▽-▼★•☆.html

  表5 基因注释结果 (此处只展示 NR的部分比对结果,其它数据库比对注释结果详见结果文件夹中表格)

  Gene ID:为Trinity 拼接得到的sub-component序列号 Gene Length ▽●▲●:为该基因所产生的最长的转录本的长度 NR GI○-◇●:为该基因序列比对上的核苷酸序列的GeneBank ID NR ID:为该基因序列比对上的核苷酸序列在NR数据库中的ID号 NR Score●▪■□:比对两两之间的得分的总和(得分依据特定的得分矩阵) NR Evalue: 根据Score 以及Query 序列的长度,库的大小计算得出的一个期望值▽◇■◁■,Evalue 本质上表示的是假阳性率,越小越好。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  横坐标为GO三个大类的下一层级的GO term,纵坐标为注释到该term下(包括该term的子term)的基因个数,及其个数占被注释上的基因总数的比 例。 3种不同分类表示Go term的三种基本分类(从左往右依次为生物学过程△•,细胞成分,分子功能)

  F■◇:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  横坐标为KOG的26个group 的名称,纵坐标为注释到该group 下的基因个数占被注释上的基因总数的比例

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  4.3 KEGG分类 对基因做KO注释后,可根据它们参与的KEGG代谢通路进行分类■▪▲,结果见图 8◆◆。

  F★…▼:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report-★▷.html

  我们按NR、SwissProt、KEGG GENES的优先级顺序将unigene与以上蛋白库做blastx比对,根据最佳比对结果确定unigene基因的ORF 读码框,然后根据标准码子表确定其CDS及编码的氨基酸序列=◆•;将与以上数据库都比对不上的unigene用estscan(3●☆▪□▲.0.3)软件预测其CDS序 列得到部分结果显示如下…☆◇△▷:

  head说明★◇■○:(序列的ID,是这条基因的唯一识别符);(orf1,预测ORF的id,有的基因有两个预测的ORF)len☆=□▷○◇:(该ORF的碱基 的长度)frame•-●▽:(该ORF在原来基因上的读码框★•…,- 代表负链)start:(该ORF在原来基因上的起始位置)end:(该ORF在原来基因上 的终止位置)(比对到蛋白库的基因的描述)

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report☆…◁.html

  head说明:(序列的ID•◇◁▼▲◆,是这条基因的唯一识别符);(a代表是该基因的另一条ORF)len=◁▷▼▽◇:(该ORF的碱基的长度)start:(该 ORF在原来基因上的起始位置)end:(该ORF在原来基因上的终止位置)(minus strand代表该ORF在原来转录本上是负链,如果没有 这个信息☆■,就是正链)

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report●▲☆-.html

  横坐标为基因上SNP分布密度(每1000碱基SNP的个数)★★☆▪◆,纵坐标为对应密度的基因个数。

  F●•▷★:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  7.1 SSR分析 采用MISA(1□□◇.0版,默认参数)对Unigene进行SSR检测, 。分析结果(部分)见表 6。对不同SSR类型在基因转录本的密度分布进行统计,结果见图 10☆◇▪★◁。

  Gene ID:做 SSR 分析的基因的 id SSR nr.•★◆▪…:SSR 给每个相同 id 的转录本的编号(不需要关注) SSR type★…▽•▲:SSR 类型■△:c,复杂重复类型;p1,单碱基重复;p2,两个碱基重复-◁▲;p3 三个碱基重复…… SSR◁★○▷△:重复序列 Size:重复序列的大小 Start:重复序列的开始碱基位置 End ▪=◆□:重复序列的结尾碱基位置

  F☆◆□◇★:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  7•■.2 SSR引物设计 找出SSR标记之后,采用Primer3(2.3•■▼☆.5版,默认参数)进行SSR引物设计◁▷☆□,结果见表 7□◆▼◆。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  F○▽•:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report◆▲★△.html

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  8●◁●◇□.2 基因 RPKM 密度分布图 RPKM密度分布能整体检查样品的基因表达模式,结果见图 11。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  9.1表达水平的饱和曲线检查 定量饱和曲线检查反映了基因表达水平定量对数据量的要求。表达量越高的基因,就越容易被准确定量;反之□●◇,表达量低的基 因▷•,需要较大的测序数据量才能被准确定量。当曲线达到饱和◇☆=•▷,说明测序数据量已满足定量要求。结果见图 12◇▲★◇■▪。 表达水平的饱和曲线的具体算法描述如下…☆:分别对10%、20%、30%……90%的总体mapped reads单独进行基因定量分析,把 100%mapped reads的数据条件下得到的基因的表达水平作为最终的数值。用每个百分比条件下求出的单个基因的RPKM数值和最终对应 基因的表达水平数值进行比较•◆△◇△▷,如果差异小于15%,则认为这个基因在这个条件下定量是准确的。

  横坐标代表定位到基因组上的reads 数占总mapped reads 数的百分比-◁★…◇,纵坐标代表定量误差在15%以内的基因占总基因数的比例。不同颜色的线条代 表不同RPKM 区间。图例方框中为不同颜色对应的100%mapped reads 时的RPKM 区间及各区间内的基因个数。

  F◇▼◆☆■▪:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report▪▽★■▼▼.html

  9.2 均一化分布 根据转录组建库实验的特点★○▲•,转录本其产生的测序序列(reads)实际覆盖度的分布特点见下图:距离转录本的5端和3端越近,平 均测序深度越低☆▷◆☆,但总体的均一化程度比较高▲▪▷-△▷。结果见图 13▽▲.

  图13 均一化分布曲线=-▷●○’端的相对位置(以百分比表示)…▲□,纵坐标为覆盖深度的平均值。

  F●★●=▷:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report▽▲.html

  9.3 样品间相关性检查 样品间基因表达水平相关性是检验实验可靠性和样本选择是合理性的重要指标。相关系数越接近1▪=☆,表明样品之间表达模式的相似 度越高。若样品中有生物学重复,通常生物重复间相关系数要求较高。宝莱泰国试管婴儿医院为了让国人,结果见图 14。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report◆□☆△.html

  10●☆.1 不同实验条件下▽○▼-,基因表达水平对比图 对不同实验条件下的基因RPKM密度分布进行比较能整体上检查不同实验条件之间的RPKM分布的情况。项目结果见图 15。

  横坐标为基因的log 10(RPKM)值▽▼…☆,纵坐标为对应log 10(RPKM)的密度,不同颜色代表不同样品

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  10.2 基因差异表达分析 基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。 对于无生物学重复的样品▼◇-☆▼▲,先采用TMM对read count数据进行标准化处理,之后用DEGseq进行差异分析,筛选阈值为qvalue0.005 且FoldChange2。差异分析的结果示意见表 10:

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  横坐标代表基因在不同实验组中/不同样品中表达倍数变化;纵坐标代表基因表达量变化的统计学显著程度,p-value越小,-log10(p-value)越大,即 差异越显著。图中的散点代表各个基因,蓝色圆点表示无显著性差异的基因,红色圆点表示有显著性差异的基因

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report◁■-•.html

  10★•▲▪.4 差异基因表达水平聚类分析 差异基因聚类分析用于判断不同实验条件下差异基因表达量的聚类模式。 每个比较组合都会得到一个差异基因集,将所有比较组 合的差异基因集的并集在每个实验组/样品中的的RPKM值,用于层次聚类分析(结果见图 17),K-means聚类分析和SOM聚类分析 (见结果文件夹)。

  红色表示高表达,蓝色表示低表达○▼。颜色从红到蓝,表示 log 10(RPKM )从大到小…●▽◇△。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report=★◁.html

  11.1 差异表达基因 GO富集分析 Gene Ontology(简称 GO◇•▼★▪, )是基因功能国际标准分类体 系▼◇○◇。根据实验目的筛选差异基因后,研究 差异基因在 Gene Ontology 中的分布状况将阐明 实验中样本差异在基因功能上的体现。GO富集分析方法为 GOseq(Young et al●△, 2010), 此方法基于 Wallenius non-central hyper-geometric distribution =◆★。相对于普通的 Hyper-geometric distribution,此分布的特点是从某个类别中抽取 个体的概率与从某个类别 之外抽取一个个体的概率是不同的,这种概率的不同是通过对基因长度的偏好性进行估计得 到的,从而能更 为准确地计算出 GOterm 被差异基因富集的概率。结果如表 11所示。统计 被显著富集的各个GOterm中的基因数-▲◆,以柱状图的形式展 示,如图 18所示◇▼。

  横坐标为GO三个大类的下一层级的GO term,纵坐标为注释到该term下(包括该term的子 term)的差异基因个数,及其个数占被注释上的差异基因总 数的比例。3种不同分类表示Go term的三种基本分类(从左往右依次为生物学过程,细胞成分-○,分子功能) VIYCdvsVIYCK

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  11△•▼☆▷.2 topGO有向无环图分析 topGO有向无环图(图 19)能直观展示差异基因富集的GO term及其层级关系=△◁•。有向 无环图为差异基因GO富集分析的结果图形化 展示方式◆▼▲,分支代表包含关系■■▽,从上至下所 定义的功能范围越来越具体。对GO三大分类(CC细胞成分,MF 分子功能,BP生物学过 程)的每一类都取富集程度最高的前10位作为有向无环图的主节点,用方框表示,并通过 包含关系将相关联的GO Term一起展示,颜 色的深浅代表富集程度,颜色越深代表富集程度越高。

  每个方框或圆圈代表一个GO term,放大方框中内容从上到下代表的含义依次为:GO term的 id 、GO 的描述★■□○◁◆、 GO富集的 Pvalue、该GO下差异基因的数 目/该GO下背景基因的数目。 每组比较三张图(BP○★◁☆,CC,MF) 组名•▲▪▼=▪:VIYCdvsVIYCK◁◇★◁▪▽。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  12.1 差异基因 KEGG富集分析 在生物体内□△•-,不同基因相互协调行使其生物学功能□▲,通过Pathway显著性富集能确定 差异表达基因参与的最主要生化代谢途径和信 号转导途径◁-•◇△。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathway 显著性富 集分析以KEGG Pathway为单位△▪□○,应用超几何检验•◆◇•★,找出与整个基因组背景相比-▲■-•, 在差异表达基因中显著性富集的 Pathway•◇★…★▪。该分析的 计算公式★★:

  在这里N为所有基因中具有Pathway注释的基因数目△▪●▼▷; n为N中差异表达基因的数目▪▼; M为所有基因中注释为某特定Pathway的基因 数目; m 为注释为某特定Pathway的差异表 达基因数目。FDR≤0.05 的 Pathway 定义为在差异表达基因中显著富集的 Pathway,我们使用 KOBAS(2■★●.0)进行Pathway富集分析。结果见表 12…■。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  12.2 差异基因 KEGG富集散点图 差异基因KEGG富集散点图(图 20)是KEGG富集分析结果的图形化展示方式▷=○●▷。在此图中,女性子宫偏小难以孕育宝宝,KEGG富集程度通过Rich factor、qvalue和 富集到此通路上的基因个数来衡量▲△。其中Rich factor指差异表达的基因中位于该pathway条目的基因数目与所有有注释基因中位于该 pathway条目的基因总数的比值•☆。Rich factor越大●□☆,表示富集的程度越大。qvalue是做过多重假设检验校正之后的Pvalue○=▼◇,qvalue的取值范围 为[0,1],越接近于零,表示富集越显著。我们挑选了富集最显著的20条pathway条目在该图中进行展示○■○▽▼□,若富集的pathway条目不足20 条△▪○○□◇,则全部展示▼◆◁。

  纵轴表示pathway 名称,横轴表示pathway 对应的Rich factor,qvalue的大小用点的颜色来表示,qvalue越小则颜色越接近红色,每个pathway 下包含 的差异基因的多少用点的大小来表示。 组名:VIYCdvsVIYCK。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report◁…▪•.html

  12•●▷▽=◆.3 富集 KEGG通路图 将差异基因富集出的通路图展示出来,示意如下(图 21)•▪•…▼。通路图中☆☆▽▲△•,包含上调基因的KO节点标红色,包含下调基因的KO节点 标绿色,包含上下调的标黄色。鼠标悬停于标记的KO节点,弹出差异基因细节框•□,标色同上,括号中数字为log2(Fold change)。以上步 骤可脱机实现▽▼●○●,如连接互联网●=,点击各个节点,可以连接到KEGG官方数据库中各个KO的具体信息页●☆▽▷。

  F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  结果文件建议使用Excel或者EditPlus等专业文本编辑器打开。 北京诺禾致源生物信息科技有限公司

  F▪•◆●:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html

  F▷▪••▷◇:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report□□○△▽.html

Copyright © 2002-2017 绿色环保农业网 版权所有  备案号:沪备*********
地址:上海市浦东区天河路99号 销售中心:400-123-4567
传真:+86-123-4567 E-mail:admin@baidu.com 技术支持:液晶电视哪个牌子好
客服头部
400-123-4567
13888889999

网站二维码