2020/4 Our circAtlas 2.0 paper was accepted by Genome Biology

2019/11 Our CIRIquant paper was accepted by Nature Communications.

202013日,中国科学院北京生命科学研究院赵方庆团队在Nature Communications杂志上发表文章Accurate quantification of circular RNAs identifies extensive circular isoform switching events,开发了环形RNA定量和差异表达分析的新方法——CIRIquant。与常用的环形RNA分析软件相比,CIRIquant可以更准确对环形RNA转录本进行识别和定量,并为环形RNA的差异表达分析提供了便捷的一站式分析工具。

环形RNA是一类在真核生物中广泛存在的具有特殊环状结构的非编码RNA分子。已有文献表明,在生物体内,环形RNA有着miRNA海绵,RBP海绵以及翻译短肽等多项功能,在许多生物学过程中发挥着重要的作用。目前研究表明,大部分环形RNA来源于蛋白编码基因的外显子区域。在pre-mRNA剪接的过程中,除典型的内含子剪接事件外,还可能会发生5’端到3’端的反向剪接事件,从而形成环形RNA。因此,剪接产物中环形RNA所占比例是环形RNA分析的重要指标之一,具有高成环比例的环形RNA分子,可能具有更加重要的生物学功能。同时,同一基因内部也可能产生多种不同的环形RNA,基因内对环形RNA产生位点的使用偏好,也在一定程度上反应了转录过程对环形RNA产生的调控。因此,环形RNA转录本水平的准确定量,是目前环形RNA分析的重要基础。

为了解决该问题,赵方庆团队开发了一个新的环形RNA分析算法。根据已有工具鉴定出的环形RNA成环位点信息,研究人员重构了具有反向剪接特征的环形RNA参考序列,简化了复杂的反向剪接位点比对问题,并结合测序读段比对到参考基因组和环形序列的结果,筛选出了高置信度的来自环形RNA的读段,解决了目前环形RNA识别和定量方法中准确度低和假阳性率高的问题。作者在模拟数据和真实转录组数据中,对多种常用环形RNA识别软件的表现进行了综合评估,发现该研究中开发的方法在环形RNA表达量和成环比例的计算中,均取得了最佳的结果。

接着,研究团队还通过统计模型,对环形RNA建库过程中常用的RNase R处理效率进行了拟合和校正,从而在RNase R处理后的样本中,消除了RNase R处理步骤引入的偏差,取得了更准确的定量结果。在此基础上,该团队还对环形RNA的差异表达计算方法进行了改进,提出了新的评估表达水平和剪接倾向变化程度的打分方法。

利用上述方法,研究人员在三个剪接因子敲低的HeLa细胞和20对肝癌-癌旁样本中,发现了两类线性-环形比例和成环位点使用偏好发生变化的环形RNA。这两类环形RNA在成环比例以及基因内成环位点使用水平上具有非常显著的改变,反映了环形RNA转录过程以及转录后水平调控情况的变化。此外,在阿尔兹海默症以及肾细胞癌的样本中,研究人员也发现了这两类事件的广泛存在,说明这两类环形RNA可能拥有更加重要的生物学功能。

该研究在转录组数据中实现了环形RNA的准确识别和定量,并对环形RNA差异表达分析方法进行了改进,提供了便捷的分析流程,为后续具有潜在功能的环形RNA筛选提供了重要的方法学工具。

该工作由赵方庆课题组的研究生张金阳,陈帅和杨静雯完成,并得到了科技部重点研发计划和国家自然科学基金委及中国科学院的经费支持。赵方庆团队在前期的工作中建立了环形RNA识别、转录本组装、可变剪接检测及定量等方法,相关研究发表在相关工作发表在Genome Biology (2015)Nature Communications (20162020)Briefings in Bioinformatics (2017)Trends in Genetics (2018)Genome Medicine (2019)Cell Reports (2019)。这些研究丰富了我们对环形RNA的组成及结构的认识,为深入了解这一崭新类型的非编码RNA分子提供了重要工具和数据支持。


2019/6 Our Oral microbiome paper was accepted by Gut.

2019621日,国际知名学术杂志《Gut》刊发了来自中国科学院北京生命科学研究院赵方庆团队题为“Tracing the accumulation of in vivo human oral microbiota elucidates microbial community dynamics at the gateway to the GI tract”的研究论文。这是该团队继20185月在此杂志上发表孕期健康塑造新生儿初始菌群的研究论文后,再次推出他们在口腔微生物膜形成研究方面的最新成果。该论文得到了杂志主编的高度评价,认为该工作精彩揭示出口腔菌群从破坏到重建的完整过程。

该研究立意于人们最近发现大多数口腔细菌能在肠道定植,像类风湿性关节炎、IBD和结直肠癌等患者肠道中富集的细菌很多来自口腔。并且,微生物由口腔沿着消化道异位定植不是偶发事件,而是频繁且连续的过程。这些发现强化了口腔与肠道之间的联系,也激发了关于疾病起源于口腔、肠道亦或两者皆有的讨论,提醒大家不能忽视口腔菌群、小生境及口腔健康。不仅如此,将口腔菌群用于消化道或其它疾病的辅助诊断也具有潜在的应用价值。作为口腔微生物两种基本的储存形式——流动态的唾液和附着态的牙菌斑,从时间梯度上探究它们的稳定性和动态变化,关乎到更好的理解口腔菌群,以及判断它们作为生物标记物检测疾病的可靠性。

洗牙是临床常见的牙菌斑清理手段,这为跟踪口腔生物膜附着情况和菌群重建过程提供了便利。赵方庆团队对洗牙前后三个月的11个连续时间点共169个唾液和牙菌斑微生物组数据进行深度挖掘分析,以研究受到外力扰动时,崩解的口腔微生物膜恢复到初始状态的时间,以及口腔菌群作为标志物是否具有足够的稳健性(图1)。通过追踪人体口腔菌群的聚集,直观地显示了破坏后微生物多样性和群落结构随时间的动态变化,发现在强烈干扰后的整个跟踪周期中,唾液菌群多样性和结构一直保持稳定;而牙菌斑菌群最为混乱的时期是生物膜解离后7小时至3天。研究明确了生物膜发生、发展和成熟三个时期的准确时间跨度,即从洗牙后菌群解构,到1天后严重偏离原始状态,再到3天后重建,及随时间推移逐渐恢复到原始完整形态。研究还发现许多细菌在干预后很快恢复到最初水平,表明洗牙在早期会对控制牙菌斑产生一定作用,但并不能长期抑制细菌及其形成生物膜的能力;并且指出在口腔生物膜重建过程中,微生物补充的主要方向是由唾液到牙菌斑。该研究为深入理解消化系统微生态及微生物传播提供了新的信息,有助于评估口腔细菌是否适合作为疾病检测的靶标,或能促进临床非侵入性诊断技术的发展。

中科院北京生科院副研究员王金锋及博士生贾震、硕士生张冰为论文的并列第一作者,赵方庆研究员为通讯作者。该研究获得了国家自然科学基金优秀青年项目、面上项目和中科院重点部署项目“微生物组计划”的资助,并在样品收集方面得到了首都医科大学附属北京友谊医院的帮助。

2019/2 Our circAtlas paper was accepted by Cell Reports.

2019319日,国际学术期刊 Cell Reports 在线发表了中国科学院北京生命科学研究院计算基因组学实验室赵方庆团队题为“Expanded expression landscape and prioritization of circular RNAs in mammals”的最新研究成果。该研究对人、猴子和小鼠三个物种的44个正常组织进行高通量转录组测序,鉴定出大量环形RNA,其中超过70%的环形转录本实现了全长重建。利用这些数据,研究人员对环形RNA的多样性、保守性、剪接模式以及与线性RNA的成环比差异进行了多方位深入分析。基于这些数据和分析结果,研究人员还构建了物种特异和保守的环形RNAmRNA共表达网络用于高效筛选具有潜在生物学功能的环形RNA。该研究为环形RNA领域的研究者提供了丰富的数据资源和高效筛选功能环形RNA的方法,对我们进一步深入了解环形RNA的功能和作用机制具有重要意义。

作为一类新型的内源性非编码RNA分子,环形RNA已经成为RNA研究中的热点领域。虽然目前已有海量的环形RNA被识别出来,但迄今只有极少数的环形RNA分子的功能得以被揭示,其所涉及的功能主要集中在miRNA海绵、亲本基因的顺式调控、竞争性结合RBP和翻译短肽等。目前,环形RNA研究领域面临的一个关键问题是:如何从海量的环形RNA中高效地筛选出具有潜在生物学功能的环形RNA分子。以往的研究方法大多是利用差异表达分析,筛选出少量的候选分子,然后进行后续功能验证。此类方法往往通量低、耗时长、效果差。物种间保守性分析也是筛选候选功能环形RNA的有效策略,但是目前的环形RNA识别算法还不能有效的识别环形RNA的全长序列,因此,其保守性分析只能局限在环形RNA的反向剪接位点附近,而无法了解其内部的保守性和剪接模式。

针对上述问题,赵方庆团队采用多重文库策略对哺乳类重要模式物种(人、猴和鼠)44个组织进行了高通量转录组测序(图1)。对于每个组织,他们分别构建三种类型的文库:1RiboMinus/RNase R 处理文库,双端250bp测序,用于全长环形RNA的识别与重建;(2Poly(A) 富集文库,双端150bp测序,用于mRNA lncRNA识别和定量;(3RiboMinus 处理文库,双端150bp测序,用于线性RNA和环形RNA表达量的无偏比较。利用上述数据,研究人员从识别出了大量全新的环形RNA分子(平均每个物种94,461个),利用他们自主开发的CIRI-full工具对识别出的环形RNA进行全长重构,结果显示大约有72.6%的环形RNA的全长序列得到了重建。这些结果将为我们研究环形RNA的多样性、保守性、剪接模式以及与线性RNA的比较分析提供重要的数据基础。

利用重建的环形RNA全长序列,该团队首次发现了一类在多个物种中高度保守的环形RNAOverlapped orthologous circRNA, OO type circRNA)。分析表明,此类OO-型环形RNA比其他类型的环形RNA拥有更高的表达量、更保守的表达模式、更高的成环比、更保守的剪接模式和功能富集(图2)。这些特征提示OO-型环形RNA可能拥有更加重要的生物学功能,更适合作为后续功能挖掘的候选。

利用环形RNA在多个组织中的表达,该团队首先对每个物种构建了物种特异的环形RNAmRNA的共表达网络,随后合并三个物种的共表达网络进一步构建了物种间保守的共表达网络,并对其中关键调控基因进行敲低实验,以验证该网络的可靠性(图3)。在这些网络的基础上,研究人员还利用guilt-by-association原理对大部分的环形RNA进行了功能注释。这些共表达网络和环形RNA的保守性分析结果都为后续环形RNA的功能筛选提供了可靠的数据和方法。研究人员还将该研究中产生的数据和开发的分析方法应用至肝癌环形RNA的研究中,成功筛选出了与肝癌发生相关的环形RNA,并进行了功能验证。最后,为了方便环形RNA研究领域的工作者方便获取和使用该研究中的数据,研究人员建立了相关的数据及信息库:circAtlas (http://circatlas.biols.ac.cn.)。研究人员可以快速获取不同物种不同组织的环形RNA全长序列,确认其保守性及剪接模式,并结合网络分析获得其功能注释信息。

该工作主要由赵方庆课题组的助理研究员冀培丰和研究生吴婉莹、陈帅共同完成,并获得了国家自然科学基金委、科技部重点研发计划及中国科学院的经费支持。赵方庆团队在前期的工作中建立了环形RNA识别、转录本组装、可变剪接检测及定量等方法,相关研究发表在相关工作发表在Genome Biology (2015)Nature Communications (2016)Briefings in Bioinformatics (2017)Trends in Genetics (2018)Genome Medicine (2019)Cell Reports (2019)。这些研究丰富了我们对环形RNA的组成及结构的认识,为深入了解这一崭新类型的非编码RNA分子提供了重要工具和数据支持。




2018/12 Our CIRI-full paper was accepted by Genome Medicine.

2019119日,国际学术期刊 Genome Medicine 在线发表了中国科学院北京生命科学研究院计算基因组学实验室赵方庆团队题为“Reconstruction of full-length circular RNAs enables isoform-level quantification”的最新研究成果。该研究提出全新的环形转录本重构与定量的方法 (CIRI-full),通过环形转录本测序中的反向重叠区特征获得全长序列,既有效解决了环形转录本内部结构的重构难题,也为环形转录本中不同剪切产物的定量提供了新思路。目前绝大多数环形RNA的功能尚未明确,并且现有方法无法提供足够充足序列特征信息,该方法可以帮助研究者更有效地筛选出具有潜在功能的环形可变剪接产物,对环形RNA的功能研究与转录本水平上的差异表达分析具有重要的意义。

在以往的研究中,环形RNA的识别方法主要是利用环形RNA特有结构——反向剪接序列特征进行识别。然而,由于二代测序的读长普遍较短,研究者们虽然可以获得大量的反向剪接位点,却无法高通量获得环形RNA的完整内部结构信息,也无法对不同可变剪接产物进行精确定量。为了解决该问题,赵方庆团队首先提出一个新的环形RNA识别特征:反向重叠区(Reverse overlap)。该特征通常出现在读长较长的环形RNA测序中。与以往的所有识别算法不同,该特征不仅可以用于判断转录本双端测序中的一对测序序列是否来自于环形RNA, 也可以用于判断该序列是否可以覆盖整个环形RNA 研究人员利用该方法从不同哺乳动物的脑组织中获得超过80%的环形RNA的全长序列。

环形RNA的全长重建是对其精确定量的基础。对于拥有多种可变剪接产物的环形RNACIRI-full采用蒙特卡罗法模拟来自不同剪切产物的读段在全长序列上的分布,通过梯度下降法,筛选出与最优表达量组合。其中,每个外显子上的测序覆盖度及可变剪接事件都可用于判断预测结果与真实情况的差异。 研究人员使用模拟和真实数据验证了这种方法的准确性。对于每个BSJ位点产生多个可变剪接产物的表达数据,CIRI-full不仅可以灵敏地重构其全长序列,并且可以精确地预测其相对丰度。该研究为环形RNA组成和功能研究提供了新视角,呈现了环形转录本更加细致的内部结构,并实现了转录本水平的精确定量,为后续筛选有潜在功能的环形RNA分子提供了重要方法学工具。

该工作主要由赵方庆课题组的博士研究生郑毅和助理研究员冀培丰完成,并获得了国家自然科学基金委、科技部重点研发计划及中国科学院的经费支持。

2018/12 Our paper on endosymbiosis in Paramecium was accepted by ISME J.

2019115日,国际学术期刊The ISME Journal在线发表了中科院北京生命科学研究院赵方庆团队和中科院大学存济医学院苗苗课题组的合作论文Genetic basis for the establishment of endosymbiosis in Paramecium。该研究通过比较基因组学分析和RNA干扰实验,为探索内共生引起的、正在发生的遗传改变提供了新的视角,找到了绿草履虫(Paramecium bursaria-小球藻(Chlorella variabilis)内共生系统调节中的关键基因——谷氨酰胺合成酶glnA

内共生理论作为阐述真核细胞起源的一种学说被广泛接受,而绿草履虫(图1)这样一种单细胞纤毛虫是研究原生动物与绿藻间内共生关系的理想模型。遗憾的是,绿草履虫基因组数据之前一直处于缺失的状态,严重制约着对该系统的研究。已有的研究都是在形态和理化指标水平上探索该内共生现象,不能从全基因组水平上阐述内共生的建立过程和维持机制。

该合作团队通过比较基因组分析发现绿草履虫编码的与氧结合及含氮多糖生物合成相关的基因显著减少,而编码与氮代谢、矿物质吸收和营养运输有关的基因显著增多。结果提示,内共生小球藻在长期进化中能够通过光合作用为宿主细胞提供充足的氧气,从而导致绿草履虫编码结合及运输氧气的基因丢失和功能退化。转录组差异表达分析发现氮代谢途径中谷氨酰胺合成酶基因的表达差异最为显著。在此基础上的RNA干扰实验进一步证实,谷氨酰胺合成酶基因的表达量降低,会显著减少绿草履虫细胞中共生藻的数目。

根据这些结果研究人员认为,通过调节谷氨酰胺的合成,绿草履虫可以圈养”数以百计的内共生小球藻来获取充足的氧气和碳源,并提出了绿草履虫与内共生小球藻之间物质交换和信息交流模型(图2。此项研究提供的组学数据和实验结果为研究内共生系统中的长期进化提供了强有力的支持,拓展了对绿草履虫内共生系统建立机制的认识。

该工作主要由赵方庆课题组和苗苗课题组的硕士研究生何明,副研究员王金锋共同完成。课题获得了国家自然科学基金委和中国科学院的经费支持,并得到中国海洋大学原生动物实验室的帮助。

2018/7 Our PAFA paper was published on Genome Medicine.

    如何解读与复杂疾病有关的遗传变异,尤其是非编码区变异,是疾病遗传学领域的一个巨大挑战。现有的方法在评估非编码区致病性变异方面存在着假阳性率过高、敏感度不够等问题。为了解决这一难题,中国科学院北京生命科学研究院赵方庆团队提出首次提出一种全新的基于人群等位基因频率谱的监督集成算法(PAFA),以实现对复杂疾病和性状相关的遗传变异进行打分识别及功能性评估。2018年7月11日,该团队的最新研究成果以“Prioritization and functional assessment of noncoding variants associated with complex diseases”为题发表在国际学术期刊Genome Medicine上。 

    PAFA算法引入了丰富的知识库,包括基因组注释、进化保守度指标和人口水平特征。特别是新引入的人群等位基因频率特征值,使得PAFA可以通过计算固定指数和离散度得分,对群体内部及群体间的差异性和多样性进行评估,从而能够在大量的背景变异中有效识别出与复杂疾病有关的功能性变异。此外,PAFA更加合理有效地对训练集进行了数据清洗。它从ClinVar、千人基因组计划和GWASdb等多个权威数据库中获取训练数据,并针对不同来源的变异采取了多重过滤策略。此外,该团队构建了一个友好的在线集成平台,访问地址:http://159.226.67.237:8080/pafa。此平台不仅允许用户利用PAFA对变异进行评估,而且通过整合丰富的功能组学数据,为遗传变异提供全面的功能性注释。 

  通过一系列综合测评分析,PAFA无论对于编码区还是非编码区的变异,都表现出更为出色的功能评估效果。尤其是对于非编码区致病变异的识别方面,比现有方法拥有更高的敏感度和特异度。通过对不同训练特征进行留一法交叉验证,发现群体等位基因频率特征的引入,可以显著提高对非编码区致病变异的识别效率。此外,合理地整合和清洗多种训练集,将会在区分癌症相关的频发变异(recurrent variant)和非频发变异方面取得更好的效果。 

    该工作由赵方庆课题组的研究生周琳完成,得到了国家自然科学基金委和中国科学院的经费支持。 

  论文链接

2018/4 Our invited review was published on Protein & Cell.

https://link.springer.com/article/10.1007%2Fs13238-018-0544-5

该综述回顾并讨论了单细胞基因组学和宏基因组学联用的技术手段和分析方法,也讨论了目前存在的挑战。

① 单细胞基因组学和宏基因组学联用,使得许多未培养细菌群落被分离出来
② 由此可提升从复杂微生物群落中获取完整基因组信息的效率和准确性,有助于进行亚种水平识别、宿主-病毒互作等研究
③ 利用多重置换扩增法扩增全基因组,仍会遭遇基因片段嵌合、受污染DNA序列去除难、基因组覆盖不均匀等挑战
④ 随着测序计算的发展、基因组整合技术的提升,单细胞宏基因组学将得到不断完善,从而大大扩展人类对微生物及其功能多样性的认识。


2018/4 Our neonatal microbiome paper was accepted by GUT.

Congratulations to Jinfeng, Jiayong & Wenyu!


近年来,研究人员发现人类生命活动早期的菌群构成不仅对新生儿的生理发育至关重要,也对他们未来的健康产生非常重要影响。异常菌群可以通过引起免疫和代谢系统紊乱导致新生儿疾病,同时也会增大儿童和成年时患相关疾病的概率。新生儿菌群异常会通过分娩(自然分娩或剖宫产)、喂养(母乳或配方奶)、抗生素摄入、饮食和环境暴露等引起。流行病学调查数据显示这些因素与多种疾病之间存在明确的相关性。比如,剖宫产与自然分娩的新生儿相比,菌群差异显著。因前者缺少了母亲生殖道中的某些微生物组分,所以剖宫产新生儿通常免疫力较弱,且患肥胖、过敏和哮喘等慢性疾病的风险增加。有临床试验甚至尝试通过移植生殖道菌群的方法恢复这些组分,希望能够使剖宫产新生儿获得来自母亲生殖道的菌群。 

  长期以来,人们普遍认为宫腔是一个无菌的环境,只有当新生儿出生时才首次接触微生物。所以之前几乎所有的知识和临床干预操作都是建立在分娩或出生后获得菌群的理论基础之上,对新生儿最初的菌群定植以及孕期和产前菌群结构的影响因素,目前仍然有许多的未解之谜。实际上,人们还不能确定人体微生物何时开始以及如何开始。新生儿第一次接触微生物发生在分娩之前还是出生以后?孕期健康能否改变母亲的微生物群并传递给婴儿?日前,中科院北京生科院赵方庆课题组在国际著名学术期刊Gut上发表了题为“Dysbiosis of maternal and neonatal microbiota associated with gestational diabetes mellitus”的研究论文,介绍了他们研究新生儿初始菌群定植和变化的最新成果,在揭示孕期健康对孕婴微生物组的塑造作用方面取得重要进展。 

  研究人员经过两年半的时间从486个孕妇和新生儿的多个身体位点收集了上千例样本。入选的新生儿大多为剖宫产,样本类型包括羊水、口腔、咽喉和肠道,除肠道外均采自刚分娩数秒时间内,避免了分娩时受到产妇生殖道微生物的污染以及出生后细菌的快速增殖,因此能够反映新生儿出生前在宫腔内的菌群定植情况。其中特别是深处于新生儿体内的咽喉位点,在剖宫产过程中不会接触到外界环境,所以可以完全排除产妇和周边菌群的干扰。基于16S rRNA基因的深度测序和分析,研究人员从新生儿所有的样本类型中都检测到了门类丰富的细菌,其多样性超过孕妇阴道菌群,有的样本类型甚至接近孕妇口腔和肠道,并且样本类型之间在菌群聚类时形成了明显不同的簇。这些证据表明新生儿最初的菌群定植远早于先前的假设,而是在宫腔内已发生并出现了原始的位点特异性群落分化(图)。为了进一步探索母体对新生儿菌群的贡献,研究人员以妊娠期糖尿病作为病例,揭示孕期健康导致的微生物扰动对新生儿菌群的影响。结果观察到母亲患有妊娠期糖尿病的新生儿,其微生物群落组成发生了明显改变,而且在患病组样本间呈现出趋同发展的特征。不仅如此,无论是菌属丰度还是相关性,许多细菌在新生儿和孕妇多位点间的变化趋势高度一致,说明妊娠期糖尿病可能在孕期塑造了相似的孕婴菌群结构,当然也可能是发生了改变的孕妇菌群垂直传播给了后代。通过对新生儿肠道样本进行宏基因组测序,研究人员还发现与妊娠期糖尿病相关的新生儿菌群发生改变,进而导致了肠道微生物代谢潜力的降低以及病毒检出率的提高,因此妊娠期糖尿病可能会对新生儿健康产生风险。 

  该研究证明了新生儿在出生前就已经获得了微生物“种子”,定植的菌群已出现较原始的位点特异性分化。尽管我们尚不清楚它们从母体到胎儿的传递途径,但这些发现将有助于我们更好地理解人体微生物的起源以及孕妇菌群对胎儿健康的影响。这项研究展示了另外一种潜在的遗传形式——菌群遗传,让我们认识了孕期健康对新生儿生命活动初期菌群形态建成的贡献,强调了解孕婴菌群的重要性,并提供了一种有前景的思路,即通过母体干预来调节初始菌群定植以及微生物之间的相互作用,以降低孕期疾病导致不良妊娠结局的风险。 

  中科院北京生科院王金锋副研究员、史文聿博士和温州市人民医院妇产科实验室主任郑加永医师为论文的共同第一作者,北京生科院赵方庆研究员为通讯作者。研究得到了国家自然科学基金优秀青年项目及面上项目、国家重点研发计划、中科院重点部署项目(微生物组计划)的资助。


2018/1 Our review was published on Trends in Genetics

http://www.cell.com/trends/genetics/fulltext/S0168-9525(17)30236-6

Recent studies have demonstrated that circular RNAs (circRNAs) are ubiquitous and have diverse functions and mechanisms of biogenesis. In these studies, computational profiling of circRNAs has been prevalently used as an indispensable method to provide high-throughput approaches to detect and analyze circRNAs. However, without an overall understanding of the underlying strategies, these computational methods may not be appropriately selected or used for a specific research purpose, and some misconceptions may result in biases in the analyses. In this review we attempt to illustrate the key steps and summarize tradeoff of different strategies, covering all popular algorithms for circRNA detection and various downstream analyses. We also clarify some common misconceptions and put emphasis on the fields of application for these computational methods.


    该论文全面阐述了环形RNA研究和数据挖掘中诸多方法,探讨了相关方法在非编码RNA数据挖掘中的适用条件与优劣评估,并指出未来环形RNA数据挖掘的发展趋势与挑战。

    环形RNA是近年来获得广泛关注的一类结构呈闭合环形的RNA分子,并入选Clarivate Analytics 2017年度热点前沿领域。环形RNA的基因来源、内部组成、细胞定位、生成机制与生物功能均较为多样,通过高通量测序数据的挖掘对其深入研究成为该领域的必经途径。依据参考基因组的使用策略,现有的识别算法可划分为基于分段比对(split-alignment based)和基于伪参考序列构建(pseudo-reference based)两大类。由于所借助比对算法类型的不同,各识别算法又分别针对剪切型(splice-aware)和全能型(versatile)比对算法进行优化。此外,在向后剪接读段(back-spliced junction read)的检测和配对末端比对信息的筛选上,这些识别算法采用的策略也不尽相同。以上关键步骤极大影响了识别算法在不同转录组测序数据上的表现,目前现有的十余种环形RNA识别算法在敏感度、可靠性和适用范围上均有显著差别。

    在环形RNA数据的挖掘算法上,我们有多篇研究成果发表在Nature Communications,Genome Biology和Briefings in Bioinformatics等国际知名学术期刊上,其中环形RNA的识别算法(CIRI)两年多来的引用次数已超过120次。论文第一作者高远在攻读博士期间获得中科院院长优秀奖(2017)和中国科学院优秀博士论文(2017),现在美国University of Pennsylvania的Perelman School of Medicine进行博士后研究工作。上述研究获得了国家自然科学基金委重大研究计划项目、优秀青年基金项目和中国科学院的经费资助。 


2017/5 Our collaborated paper on rat population genomics was accepted by Molecular Biololgy and Evolution.

https://academic.oup.com/mbe/article-lookup/doi/10.1093/molbev/msx157

    5月8日,国际进化领域的知名期刊Molecular Biology and Evolution(MBE)在线发表了中科院动物所张健旭研究组与北京生科院孙中生、赵方庆两个研究组合作,对我国褐家鼠及姊妹种—大足鼠的基因组比较研究的成果。

    褐家鼠属于家栖性鼠类,生态适应性极强,分布几乎遍布全球,是地球上最为成功的入侵哺乳动物。由其驯化而来的实验室大鼠成为最早的实验动物,已被广泛地应用于生命科学研究,它也是全球危害最为普遍的鼠。我国东北地区和蒙古被认为是褐家鼠的重要起源地。 张健旭/张瑶华前期与英国科学家Peter Keightley合 作,发现我国东北地区的褐家鼠种群遗传多样性很低,仅仅是小家鼠的五分之一,大约在2万年前出现过一个种群瓶颈 (2012 G3: 2:1661-1664;2015 Mol. Biol. Evol. 32,2547–2558 )。与小家鼠相比较,褐家鼠的野外生物学研究要少得多,它作为独立物种出现的时间以及能迅速适应环境的基因组特点更是知之甚少。

    针对我国遗传多样性丰富的褐家鼠资源,研究人员进一步利用比较基因组学,对我国多个褐家鼠种群及其姊妹种大足鼠的群体进行了全基因组测序和比较,发现广布性褐家鼠的核苷酸多样性反而比狭布性大足鼠的低,褐家鼠的有效种群大小随历史波动比较大,在末次冰期存在一个遗传瓶颈,两个姊妹种的分化时间与东亚发生的最大一次冰川的时间是吻合的,据此推断剧烈的气候变化影响了褐家鼠的物种形成。他们还发现分化后的两个姊妹种仍然发生过种间的杂交,通过种间交流保留下来的与化学通讯相关的一些基因组区间以及褐家鼠基因组上受到选择性清除的与食物代谢、免疫反应、警觉和焦虑相关的区间在褐家鼠生态适应中可能发挥了重要作用。

    这项研究阐明了褐家鼠物种的成种时间,揭示了分化后的褐家鼠与其姊妹种的种群历史变化及种间杂交,为阐明物种适应性分化提供了重要例证,为揭示褐家鼠这一广布种生态适应的分子基础提供了重要证据。动物所博士研究生滕花景、助理研究员张瑶华博士和石承民博士为共同第一作者,研究得到了中国科学院战略性先导科技专项和国家自然科学基金委等项目的资助。


2017/1 CIRI2 was accepted by Briefings in Bioinformatics

Congratulations to Gao Yuan.


2017年1月,国际学术期刊Briefings in Bioinformatics发表了中国科学院北京生命科学研究院计算基因组实验室赵方庆团队题为“Circular RNA identification based on multiple seed matching”的最新研究成果。该研究基于目前环形RNA识别算法的不足,提出了全新的短片断迭代匹配算法及相应的最大似然估计,并将其应用于环形RNA后向接合读段的精确查找,显著提升了相应识别算法的表现。

目前已有的环形识别算法均基于对环形RNA后向接合读段的查找,主要可分为基于注释算法以及从头预测算法。然而由于真核转录复杂性及环形RNA的差异表达,两类识别算法面临灵敏度低、可靠性差、运算时间长或内存使用高等问题,其应用也因此受到限制。另一方面,对上述识别算法的评价体系却仍主要基于模拟数据,难以对相关算法在真实转录数据中的表现进行客观衡量。

针对此现状,赵方庆团队提出在后向接合读段的查找中采用对比对质量较低区域进行按长度降序的迭代短片断提取,并与前向及后向候选基因组区域快速匹配,按照改造的最大似然估计判断该读段的真实转录来源,从而避免来自复杂真核转录多样非经典产物的干扰,更加精确的识别环形RNA分子。同时,该研究还摒弃了偏差较大的模拟数据评测方法,采用 RNase R降解前后真实转录数据的比对体系,对十种已有算法进行全面的评测比较。结果显示短片断迭代匹配算法在包含灵敏度与可靠性在内的综合表现(F1得分)上具有明显优势,其并行模式还进一步提升了运算速度及内存使用效率。该算法可与赵方庆团队此前开发的CIRI-AS等下游分析工具实现无缝衔接,将进一步促进包括环形RNA功能及形成机制在内的相关后续研究。该算法已发布于https://sourceforge.net/projects/ciri/,供相关研究人员使用。

该工作主要由赵方庆课题组的博士毕业生高远完成,得到国家自然科学基金委和中国科学院的经费支持。


2016/12 Our collaborated paper on gut microbiota was published on Microbiome.

http://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-016-0222-x

2016/12 Our metasort paper was accepted by Nature Communications.

Congratulations to Peifeng and Yanming!


2017年1月,国际学术期刊Nature Communications在线发表了中国科学院北京生命科学研究院计算基因组学实验室赵方庆团队题为“MetaSort untangles metagenome assembly by reducing microbial community complexity”的研究成果。该研究首次提出基于降低物种复杂度策略,对复杂微生物群落进行基因组结构解析的新技术。

微生物组群落结构的多样性是群落发挥生态功能的重要基础,因此对于复杂微生物群落结构的解析一直是宏基因组研究的重点和难点。以往对于微生物群落结构的解析主要是通过与参考数据库比对来实现,使得未知环境下的微生物群落的研究受到极大限制。单细胞测序技术可以从单个细胞水平获取微生物基因组,它在复杂微生物群落的基因组结构解析方面有着重要的应用潜力。然而,由于微生物单细胞测序技术具有高成本、低成功率,并且所产生的数据覆盖度高度不均一等固有缺陷,使得它在微生物组学研究中的应用受到很大限制。

为了解决上述问题,中科院北京生科院赵方庆研究团队提出了基于降低物种复杂度策略的微生物组结构解析的新技术—metaSort,它将单细胞测序和全基因组随机测序技术相结合,以获取微生物群落中不同物种的基因组完整序列。metaSort利用流式细胞术对宏基因组样品中的细菌进行排序,然后分选出指定区间内指定数目的细菌子集。随后,利用单细胞技术对每个细菌子集进行扩增测序。为了利用原始的宏基因组和分选的细菌子集信息,他们还提出了两个新的算法模型:BAF和MGA。这两个方法可以利用子集中富集细菌的部分基因组序列,从原始宏基因组数据中回收目标基因组序列,并对这些序列进行拓扑组装和变异识别。研究人员将该技术应用到口腔和肠道微生物样品中,均证明该方法的有效性。他们又进一步对未知微生物群落—海藻表面共生微生物进行了研究:仅通过3次流式细胞分选,就成功获得72个接近完整的微生物全基因组序列。通过三代测序技术对拼接后的基因组序列进行验证,表明metaSort方法具有很高的准确性。metaSort已公开发布在免费的开源网站SourceForge上(https://sourceforge.net/projects/metasort/),以方便相关研究者下载使用。

如何开展“新环境”下微生物组的研究一直是困扰环境生物学家和计算生物学家的难题。新环境意味着其中存在大量未知种类的微生物。如果仅利用已知的物种和基因组信息,去对新环境中未知微生物的种类和丰度进行解析,就会遇到很多问题。metaSort方法可以成功解决上述问题,其优势首先在于提供了灵活的方式获取新环境样品中微生物的基因组序列:用户可以自行控制分选细胞的数目,例如,如果只分选一个细胞,那么这就是典型的单细胞测序;如果选择的范围和数目较大的话,那么分选出的细胞组成就类似于原始的宏基因组。因此,metaSort提供了一个灵活和可控的分选细胞子集的方式,并且通过控制分选细胞的数量和区域较小宏基因组的复杂度;与传统的单细胞测序相比,metaSort分选出的细胞子集交集很小,意味着通量的提高和成本的降低;除此之外,其他的分选方式,例如特异性的核酸探针和抗体标记的磁珠都可以应用到metaSort中以获取目标细菌,这些方法都会极大的提高metaSort的应用范围,进而推动对未知环境中微生物组成、基因功能和代谢网络的研究进展。

该工作由中科院北京生科院赵方庆研究团队的助理研究员冀培丰和博士后张延明共同完成,并得到国家自然科学基金和科技部重点研发计划的资助。


2016/11 Our inGAP-sf paper was accepted by Nucleic Acids Res.

Congratulations to Wenyu and Peifeng!

2016年12月,国际学术期刊Nucleic Acids Research发表了中国科学院北京生命科学研究院计算基因组学实验室赵方庆团队题为“The combination of direct and paired link graphs can boost repetitive genome assembly”的最新研究成果。该研究基于序列重叠部分构建了contig的直接连接信息图,并在其配对连接信息的帮助下,解决了由短片段重复序列造成的基因组拼接碎片化问题,在保证准确性的前提下延伸了序列的长度,获得了更完整、间隙更少的基因组序列。 

一直以来,重复序列都是基因组拼接的主要限制因素,而富含短片段重复序列区域的组装更是难以跨越的障碍。这部分序列的缺失会导致基因断裂,使某些关键遗传信息在后续的研究分析中被遗漏。此前的序列组装算法仅仅使用配对连接信息,忽视了contig本身的连接关系,不仅使算法难度增加,而且拼接结果也存在间隙序列多、错误连接多等问题。特别是对于短片段重复序列,历来的组装算法都选择直接丢弃,使得短片段重复序列富集区域无法有效拼接。 

针对这种情况,赵方庆团队开发了基于直接连接信息的基因组组装算法inGAP-sf。该方法根据德布鲁因图的特征,基于contig的重叠部分构建了直接连接信息图,在配对连接信息的监督下拓扑路径,并对这些路径进行整合,同时引入了贝叶斯模型用于去除错误路径,从而得到高质量的拼接结果。通过在多个模拟数据和真实测序数据上的测试,inGAP-sf的结果与其他方法得到的拼接序列相比,连续性、准确性、完整性都有明显的提高。该研究使用的拼接策略极大程度的完善了已有序列组装算法的不足,为序列拼接提供了新的思路。inGAP-sf已发布在https://sourceforge.net/projects/ingap-sf,供相关研究人员使用。 

        该工作由赵方庆课题组的史文聿和冀培丰共同完成,并得到国家自然科学基金委和科技部重点研发计划的经费支持。




2016/10 Our codon-based de Bruijn graph algorithm paper was accepted by Genome Biology.

Congratulations to Gongxin and Peifeng !

    2016年11月,国际学术期刊Genome Biology在线发表了中国科学院北京生命科学研究院计算基因组学实验室赵方庆团队题为“A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes”的最新研究成果。该研究提出一种基于密码子de Bruijn图的新算法,基于非拼接策略直接对转录组测序数据进行编码基因识别和重建,解决了编码基因识别效率低且不完整的难题,该方法在非模式生物的进化基因组研究领域具有很大的应用前景。


    近年来,随着高通量测序和高性能计算技术的发展,大量的基因组测序计划得以实施完成,由此产生海量转录组测序数据。面对这些大数据,首要任务是要得到它们的编码基因序列。传统基因识别工具主要依赖于RNA-seq组装软件得到的转录本进行基因鉴定,然而,由于组装软件对测序错误高度敏感并且不能有效处理重复序列区域,因此导致在此基础上进行基因识别会产生大量高度冗余和片段化的基因序列。除此之外,这些工具过度依赖同源基因数据库或参考基因组,不能很好地应用于非模式物种的转录组数据。

    针对这些问题,赵方庆团队开发出一种基于密码子de Bruijn图的新算法-inGAP-CDG。该方法不依赖于参考基因组,直接从未拼接的转录组测序数据中进行基因识别。与其它方法相比,inGAP-CDG构建出的编码基因序列具有长度更长、冗余度更低和特异度更高的优势。该研究为基因识别提供了新的思路和方法,进而对此后的系统发育和功能基因组学研究具有重要的应用价值。


2016/5 Congratulations to Gao Y, Ji P & Zheng Y on their successful thesis defense

2016/4 Our collaborated rumen microbiome paper was accepted by Current Biology

http://www.cell.com/current-biology/fulltext/S0960-9822(16)30470-5

    

    动物适应青藏高原极端环境的过程中,逐渐形成了耐低氧、耐高寒、耐粗饲料等复杂性状和适应性。以往针对高原适应遗传机制的研究大多数局限在动物自身遗传物质的变异,很少了解与动物宿主共进化的第二套基因组(即肠道微生物组)的重要贡献,特别是能量代谢方面。 

    中科院昆明动物研究所施鹏研究员领导的团队和中科院北京生命科学研究院的赵方庆研究员团队以及兰州大学龙瑞军教授的团队展开合作研究,以第二套基因组为新的切入点,基于“高效的能量产生与利用(短链脂肪酸是能量主要来源)和低的能量损耗(甲烷是瘤胃发酵的副产物,是能量主要损耗)有利于哺乳动物适应高原极端环境的长期胁迫”这一假设,借助两对物种之间的全面系统的比较,来探讨同域动物适应极端环境的肠道微生物组机制。结果发现经历长期自然选择并很好适应高原极端环境的牦牛(Yak)产生的短链脂肪酸显著高于黄牛,甲烷排放显著低于黄牛;同样的规律在经历短期人工选择适应高原的藏绵羊(T-sheep)与低海拔的普通绵羊之间被发现。进一步通过瘤胃微生物宏基因组测序分析,发现了牦牛和藏绵羊在短链脂肪酸合成代谢通路的基因显著富集,而黄牛在甲烷形成通路富集。通过比较牦牛和黄牛瘤胃粘膜转录组发现,牦牛短链脂肪酸运输和吸收相关的基因显著上调,表明了宿主和肠道微生物的协同进化,提示了高原动物自身也能够更好地吸收和利用瘤胃发酵产生的短链脂肪酸。 

    本研究报道了一个的经典案例,发现了动物适应高原极端环境过程中宿主和微生物组的协同进化,是同域哺乳动物适应进化的必然选择之一。另外,发现的低甲烷排放的高海拔哺乳动物,为进一步通过生物调控策略缓解其他动物排放甲烷引起的温室效应具有重要的现实意义。该研究结果2016年6月17日在线发表于Current Biology。 

2016/4 Our CIRI-AS paper was accepted by Nature Communications

Congratulations to Yuan Gao, Jinfeng Wang and Yi Zheng !


    近日,国际学术期刊Nature Communications发表了中国科学院北京生命科学研究院计算基因组实验室赵方庆团队题为“Comprehensive identification of internal structure and alternative splicing events in circular RNAs”的最新研究成果。该研究采用计算与实验相结合的手段,首次深入探索了环形RNA内部结构并发现四种普遍存在的可变剪接类型,指出环形RNA的可变剪接可能具有与mRNA剪接不同的调控机制。

    近年来的研究表明环形RNA在动物细胞内普遍存在,其中一些种类承担着重要的生物学功能。最新研究发现个别环形RNA并非完全由已知外显子组成,可能具有特殊的内部结构。然而,由于环形RNA相比于mRNA表达量较低且与后者在基因组位置上有较大重叠,此前的环形RNA的识别研究都集中在环形接合位点的检测上。目前尚无高通量手段对环形RNA的内部结构和可变剪接进行全面探索,这极大限制了我们对环形RNA组成及结构的认识。

    基于此现状,赵方庆课题组开创性的提出基于环形RNA接合位点测序读段对(back-spliced junction read pairs)的分段比对特征,进行精确识别环形RNA外显子结构和可变剪接事件。结合长读段测序分析和实验验证,全面调查了10种人类细胞系以及62种果蝇不同组织和发育时期样品中环形RNA内部结构特征。研究发现,可变剪接事件在环形RNA内部普遍存在,在定位上具有明显的核内倾向,同时表现出组织和发育阶段特异的表达模式。特别是,所发现的可变剪接在相对丰度上与mRNA显著不同,并有较大比例的外显子在后者中不表达。结合位点分析,揭示环形可变剪接涉及到不同于mRNA的剪接因子,表明环形RNA可变剪接可能受到与已知机制不同的调控作用。该研究为其产生机制和功能的研究提供了新的角度。

    该工作由赵方庆课题组的高远、王金锋与郑毅等共同完成,并得到国家自然科学基金委和中国科学院的经费支持。


2016/3 The RiboFR-seq paper was published on Nucleic Acids Res

http://nar.oxfordjournals.org/content/early/2016/03/15/nar.gkw165.full

微生物广泛存在于各种生态环境中,与我们的生产、生活及自身健康密切相关。基于高通量测序的宏基因组学技术,已成为研究微生物群落组成、结构及功能最主要的技术手段。宏基因组研究通常采用16S rRNA测序以获得物种谱信息,或采用全基因组随机测序WGS以得到功能基因谱信息,抑或两种策略同时采用。但是由于测序技术和实验方法本身的限制(即短序列和小片段文库),这些研究都割裂了物种谱和功能谱之间的联系。这是因为16S rRNA序列在宏基因组拼接时被视为重复序列,或被拼接到一起,或被舍弃,无法建立其与侧翼的蛋白编码基因的连接,导致16S rRNA物种谱信息与功能基因谱信息的割裂。这给环境微生物物种多样性(尤其是种下多态性)和功能多样性的研究带来严重的障碍。

近来,中科院北京生科院赵方庆研究团队在现有宏基因组学技术的基础上,提出一种全新的宏基因组研究策略,即16S rRNA-侧翼序列环化测序及计算技术(RiboFR-Seq,ribosomal RNA gene flanking region sequencing)。通过该技术,可以同时获得16S rRNA V4/6高变区及16S rRNA上游的蛋白编码基因序列。基于此数据,能够建立起16S rRNA与宏基因组拼接序列的物理关联,校正或补充彼此注释的结果,实现准确无偏的宏基因组数据解析,进而快速、准确和全面地解析环境样品中微生物的组成和功能。

研究人员利用该技术,进一步对人体共生微生物和海洋生物表面附生微生物群落开展了研究。从实际数据分析结果来看,RiboFR-seq方法可以实现对宏基因组中16S rRNA拷贝数的测定,从而修正了由于16S rRNA拷贝数差异导致的菌群丰度估计偏差,所得到的菌群组成更能反映环境中的真实情况。此外,利用“桥连序列”信息,对16S扩增子和全基因组测序拼接结果进行重新注释,可辅助宏基因组数据的拼接和组装。本技术首次建立了宏基因组中物种谱和功能基因谱的有效关联,为宏基因组学研究尤其是未知环境条件下微生物组的研究,提供了全新的思路和方法。

本工作由中科院北京生科院赵方庆研究团队的博士后张延明和博士研究生冀培丰共同完成,目前已在国际学术期刊Nucleic Acids Research在线发表。本研究得到国家自然科学基金项目的资助。

2015/5 Our INDEL detection algorithm was published on Nucleic Acids Res

基因组结构变异是指基因组上由于一段或者多段基因序列因遗传、病变或自然突变等原因在基因组上产生的插入、删除、倒位、移位等变异。从规模上讲,包括小至若干碱基对的变异到大至上万碱基对甚至染色体规模的复杂变异。每一个人的基因组上都存在大量不同规模、不同类型的结构变异,这些结构变异不仅是造成人与人之间表型差异的主要原因,同时也与很多疾病的产生与作用相关。INDEL变异是基因组上结构变异中最常见、在很多重大疾病对人类基因组的影响中扮演重要角色。目前对INDEL变异识别的研究却尚不完善,不仅当前主流INDEL识别方法大多无法提供灵敏、稳健的全规模INDEL识别,同时很少有方法能够满足随着对肿瘤病变基因组研究的发展对肿瘤相关的结构变异杂合度提供准确估计的要求。

针对高通量测序数据,我们构建了基于断点策略的多信号整合INDEL识别方法。与现有主流识别工具相比,该研究中所构建的方法能够高效识别各种规模的INDEL变异,提供全基因组上完整的INDEL规模分布信息,同时对每个所识别的INDEL提供其精确的变异断点发生位置,为后续针对基因组结构变异特别是位于基因、exon区域的变异对基因表达、蛋白表达影响的分析提供重要参考方向。此外,该方法针对杂合变异能够提供近似无偏的杂合度估计,由于变异杂合度往往反映了肿瘤的发展阶段等的重要信息,使得该方法能够很好地服务于针对肿瘤数据及相关结构变异的研究。

此项工作由硕士研究生赵辉完成,目前研究论文已经被国际学术期刊Nucleic Acids Res接受。本项目受到国家自然科学基金重大研究计划资助。



2015/5 The phage-bacteria interaction network paper was published on Environmental Microbiology

在复杂的人体环境中,从体表到机体内部都共生着规模庞大的微生物,其群落结构变化与人体健康状况联系密切。其中种类丰富、数量巨大的噬菌体能通过塑造菌群结构影响人体健康。但由于人体内的噬菌体过于微小,且缺乏像细菌16S rDNA和真菌ITS一样的标签序列,目前人们仅通过少数低通量的分离纯化实验来确定其与细菌宿主的侵染关系,因此对它们的了解十分有限。实际上,在细菌抵御噬菌体攻击时,细菌基因组中成簇规则间隔的短回文重复序列(CRISPRs)已经记录了大量的侵染关系信号。 

我们采用高通量测序方法获得了超过10亿条口腔微生物组序列,通过识别其中的CRISPR元件和噬菌体,构建了细菌-噬菌体互作关系网络。我们发现口腔噬菌体种类丰富,但是绝大多数与已知噬菌体的序列相似度不高,这也反映了当前对噬菌体认识的局限性。多数噬菌体仅侵染一种细菌,某些噬菌体有侵染两种(甚至是不同属)以上细菌的能力。这些有多重侵染能力的噬菌体可以被称为“交叉侵染噬菌体”(Cross-infective phage)。在CRISPR元件的帮助下,我们建立了口腔细菌-噬菌体交叉侵染关系网络。另外值得注意的是,交叉侵染噬菌体在丰度上与口腔益生菌存在正相关性,而与牙周致病菌群体呈负相关,提示这些噬菌体可能在菌群结构调控上发挥着重要作用。该研究以网络化模式表征噬菌体和细菌在人体生态系统中的捕食关系,为揭示CRISPRs和噬菌体在细菌群落演化过程中发挥的生物学作用,进而为发现它们与人体健康和疾病的潜在关联提供了新的研究思路。 

此项工作由助理研究员王金锋和博士研究生高远共同完成,目前研究结果已经在国际学术期刊Environmental Microbiology上在线发表。该研究受国家自然科学基金委重大研究计划项目和青年基金项目资助。 

2015/3 大型褐藻海带群体基因组学研究论文被Nature Communications接收

        褐藻是一类与陆生植物关系较远的生物类群,在研究植物系统发育、质体进化及光合作用上具有重要的意义。其中海带是褐藻中较为高等并具有初步组织分化的大型藻类,它富含褐藻胶和碘质,可以食用并可用于提取碘、褐藻胶、甘露醇等工业原料。中国的海带栽培面积和产量占世界总量的90%以上,直接和间接产值超过百亿元。然而,近年来我国乃至世界海带育种难以取得突破性的进展、单产很难大幅提升,主要原因是目前海带品种的生物多样性水平低,遗传基础狭窄,匮乏的种质和基因资源成为制约海带育种研究的关键。

        我们从中国、日本、俄罗斯和德国采集了8种养殖群体及9种野生群体的海带样本,并结合高通量基因组及转录组测序技术,系统研究其基因组组成结构、碘代谢、多糖合成以及群体演化规律。此外,我们从养殖群体中平均识别了约0.94M SNVs和96K的小INDELs,从野生群体中平均识别了约2.27M SNVs和274K的小INDELs。这些遗传变异位点为后续的驯化基因选择及优质品种选育提供了重要的数据基础。尽管养殖海带和野生海带存在不同程度的基因交流,但中国养殖海带主要来源于日本的同一个地理群体,养殖品系由于频繁自交已经呈现明显的退化状态。 

        该研究是首例大型褐藻群体基因组研究成果,为研究海带的遗传多样性及进化历程提供了范例,奠定了解析重要驯化性状建成、发掘优异基因/标记的基础;同时为海带种质资源的保护、开发、利用和拓宽海带育成品种遗传基础、推进海带新品种培育进程提供信息资源。

        本研究是我们与中国水产科学院黄海水产研究所和复旦大学的研究人员共同完成。本项目受到国家自然科学基金重大研究计划项目资助。

2014/12 高远/王金锋的环形RNA识别方法论文被Genome Biology接收

    环形RNA是一类新报道的结构特殊的非编码RNA。近两年的研究发现,环形RNA在动物细胞内广泛存在,且大多位于基因的外显子区域。另有研究表明,少数环形RNA分子可以充当microRNA“海绵”,在转录后水平对基因表达进行调控。然而,目前绝大多数的环形RNA功能仍不明确,科学家们推测其可能与蛋白质及RNA转运或复合体组装有关。

    从海量转录组数据中识别环形RNA分子,是解析这一类非编码RNA组成及功能的关键环节。因此,我们针对环形RNA结构特点,基于环形RNA测序数据与基因组比对时产生的成对交叉剪切信号,建立了高效、无偏差的识别算法(CIRI)。同时,借助PEM、剪接位点以及重复序列分布等信息,构建了多重筛选策略,显著提高了预测灵敏度及准确度。CIRI适用于各种类型转录组测序数据,且不依赖于基因组注释信息,具有广泛的应用前景。

    通过比较ENCODE肿瘤及非肿瘤细胞系环形RNA组成及表达差异,我们发现不同肿瘤细胞系更倾向于具有不同的环形RNA组成和表达水平。此外,我们进一步发现,广布性的环形RNA趋向于具有更高的表达水平,这揭示它们在细胞中可能发挥着重要的功能。此外,我们进一步揭示人细胞内有大约10-20%的环形RNA来源于基因组内含子或基因间区,它们为后续的功能验证提供了重要的靶点。

    该研究已被Genome Biology接受,并将于2015年1月在线发表。此项工作得到了中国科学院、国家自然科学基金委项目的资助。