当前位置:首页 > 健康养生 > 正文

基因组注释文件 什么是基因注释?

基因组注释 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

文章目录:

  1. 什么是基因注释?
  2. 基因组注释分析主要包括哪些内容
  3. 基因组注释的介绍
  4. 基因组注释文件(GTF/GFF)格式介绍

一、什么是基因注释?

答:“基因”为英语“gene”的音译,是DNA(脱氧核糖核酸)分子中含有特定遗传信息的一段核苷酸序列的总称,是具有遗传顷锋效应的DNA分子片段,是控制生物性状的基本遗传单位,是生命的密码,记录和传递着遗传信息腔森。所有的基因都由4种碱基组成。

地球生物包括动物、植物、微生物,数量巨大,种类繁多,形态各异,生存环境和生活习性各不相同,这都是由基因控制的。“种瓜得瓜、种豆得豆伍乎亩”是人们对这种现象的高度概括,即物种的生物学特征和特性是由基因决定的,是可以遗传的。一个基因编码一个蛋白质,蛋白质的功能决定生物体所表现出来的特征特性。

基因组测序只能测出整个DNA的碱并消基对排列顺序,不能直接测出DNA上的基因及其功能,必须通过生物信息学方法,结合蛋白早答组学、转录组学,对测陆蔽慧出来的序列进行分析,将基因及其功能加以挖掘、注释,这称作基因注释。

基因组注释 是利用方法和工具,对基因组所有基因的生物学功能进行高通量注释。

基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合:

(1)分析mRNA 和EST数据以直接得到结果;

(2)通过相似性比对从已知基因和蛋白质序列得到间接证据;

(3)基于各种统计模型和算法从头预测。

对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释:

(1)序列数据库相似性搜索;

(2)序列模体搜索;

(3)直系同源序陆神没列。

扩展资料:

基因注释重大突破:

1、中国科学院水生生物研究所葛峰研究员学科组利用蛋白的研究策略和方法,成功对单细胞光合三角褐指藻的基因组进行了深度注释,完成了三角褐指藻的蛋白质组精细图谱,并建立了完整的真核早纳生物基因组深度注释实验技术和分析流程。

该研究成果的取得,有望进一步推动蛋白基因组学在生命和健康领域特别是方面的应用。

2、研究人员发现,GABP蛋白的一种特定成分GABP-β1L,是与端粒酶逆转录酶(TERT)启动子突变相关的细胞不受控制地分裂、繁殖的关键。

他们10日在《肿瘤细胞》杂志上发表论文称,新发现提供了一个很有前途的用药靶点,对未来胶质母细胞瘤及其他多种与TERT启动子突变相关的治疗具有重要意义。

参考资料来源:

二、基因组注释分析主要包括哪些内容

基因组注释分析主要包括哪些内容

基因组注释包括以下方面的内容:

(1) 重复序列的预测。通过比对已知的重复序列数据磨锋库,找出序列中包含的重复序列,识别类型并转化为N或者X,统计各种类型重复序列的分布。

(2) 编码基因的预测。通过将或EST数据比帆游谨对到拼接后的基因组序列上,找出编码基因位置,预测编码基因结构。或者通过专业的预测软件,预测编码基因的外显子结构。

(3) 小RNA基因的预测。通过比对已知的小RNA的数据库,或者通过生物信息(bioinformation)学软件预测,找出这些小RNA基因,并进行分类。

(4) 调控序列和的预测。

基因功能的注释,使用的数据库包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比对的方法,如blast,找出同源相近的基因,并态基注释功能。

三、基因组注释的介绍

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基斗卖因组所手握有基因的生物学功能进行高通量注释,是当前功能空薯逗基因组学研究的一个热点。

四、基因组注释文件(GTF/GFF)格式介绍

基因组注释文件GTF/GFF格式的介绍

GFF 2 -> GTF -> GFF 3                启芹The GTF (General Transfer Format) is identical to GFF version 2 

GTF其实就是GFF版本2

其格式为(每个数字代表一列,总共9列)

1. seqname - (染色体名称)  name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix.

2. source - (用什么软件产生的)name of the program that generated this feature, or the data source (database or project name)

3. feature - (是转录本/外显子/内含子 等)feature type name, e.g. Gene, Variation, Similarity

4. start -(起始点) Start position of the feature, with sequence numbering starting at 1.

5. end - (终止点)悄粗毕End position of the feature, with sequence numbering starting at 1.

6. score - A floating point value.

7. strand (正链还是负链)- defined as + (forward) or - (reverse).

8. frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..

9. attribute - (特性,比如编码的蛋白 等)A semicolon-separated list of tag-value pairs, providing additional information about each feature.

举例:

transcribed_pseudogene ------> gene ------> 11869 ------> 14409 ------> .------> +  ------>. ------> gene_id "ENSG00000223972"凳运; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene";

参考:

以上是问答百科为你整理的4条关于基因组注释的问题,希望对你有帮助!更多相关基因组注释的内容请站内查找。