NR数据库的物种注释-程序员宅基地

技术标签: 生信基础概念  big data  

NR数据库的物种注释

1.创建NR子库

为什么要创建nr或nt数据库的子库,因为这两个库数据量巨大,若只专注某个领域而非全部,则在对自身领域进行注释时就会耗费大量时间,为了节省时间,就需要在原来nr/nt数据库的基础上构建相对的子库。

构建方法如下:

  • 方法一:从NCBI官网下载相应物种的Accession ID

在2017年之后的nr/nt数据库变成不再支持gi号搜索的。所以我们不可以根据gi号来分离并构建对应的子库,那么我们就需要查看新版本的nr/nt库的序列的id特征,发现他们变成了accession id,那么我们就可以采取对应的方式来分离子库了。

  1. Download the prebuilt nr database (在ncbi上下载最新的nr/nt数据库),and use makeblastdb build prot database makeblastdb -in nr -dbtype prot -parse_seqids -hash_index -out nr -logfile log.txt

  2. Search the Entrez Protein database **with query:**query id[ORGN],即你所要建子库相应的txid号。[NCBI][https://www.ncbi.nlm.nih.gov/protein/]

在这里插入图片描述

  1. Select “Send to File” and choose format “accession list”然后在send to 位置选择accession list 导出相应的accession list文件“ sequence.seq

在这里插入图片描述

  1. Use the list of GIs from the previous step with the blastdb_aliastool to build an aliased blastdb of just your organism (takes several seconds), eg:blastdb_aliastool -seqidlist sequence.seq -db nr -out nr_plant -title nr_plant

  2. Search against your new (aliased) database:blastx -query query.fa -db nr_plant

搜索时的==[ORGN]==是必须加上的,因为其代表整个团体,若不加上只能搜到其txid所代表的那一个物种。

  • 方法二:使用taxonkit工具从taxanomy文件中提取
  1. 首先要下载taxonkit工具,[下载网址][http://bioinf.shenwei.me/taxonkit/download/],linux系统下直接解压使用,再将Taxonkit添加进环境变量sudo cp taxonkit /usr/local/bin/

    ​ 再将从NCBI官网上下载的taxanomy文件中的names.dmpnodes.dmp文件复制到用户目录的隐藏文件夹.taxonkit中,命令如下:

cp names.dmp ~/.taxonkit
cp nodes.dmp ~/.taxonkit

​ 之后便可以正常使用了。此时还需要从NCBI官网上下载NCBI的accession与taxid的对应关系文件[prot.accession2taxid.gz][ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz]。

  1. 使用TaxonKit提取特定taxons下的所有taxid,命令如下:
 taxonkit list --ids 33090 --indent "" > plant.taxid.txt
 wc -l plant.taxid.txt

​ 此时–ids的参数33090是代表整个植物届的最大的parent id,–indent ""是将所列出的taxid左边的空格去除,,以左对齐排列。

  1. 使用csvtk在prot.accession2taxid.gz文件中提取plant.taxid所有的accession
zcat prot.accession2taxid.gz |csvtk -t grep -f taxid -P plant.taxid.txt |csvtk -t cut -f accession.version >plant.taxid.acc.txt

csvtk参数含义可以到csvtk usage查询,[csvtk功能介绍][http://bioinf.shenwei.me/csvtk/usage/].

  1. 利用获取到的plant.taxid.acc.txt文件创建nr子库
blastdb_aliastool -gilist plant.taxid.acc.txt -db nr -out nr_plant -title nr_plant
  1. 如果是想提取特定物种(比如植物)下的所有NR序列
 blastdbcmd -db nr -entry all -outfmt "%a\t%T" |csvtk -t grep -f 2 -P plant.taxid.acc.txt |csvtk -t cut -f 1 |blastdbcmd -db nr -entry_batch - -out nr.plant.fa

两种方法的比较:
方法一更加适合创建较大物种范围的nr子库,即细菌,真菌,植物届等等,速度较快,且方便。

方法二适用于创建多个较小物种集合的nr子库,不需要到NCBI上反复查询,可以写成脚本的形式。

2.txid的查询

常见txid号

Name txid Search id Scope
Bacteria 2 txid2[ORGN] 细菌
Fungi 4751 txid4751[ORGN] 真菌
Eukaryota 2759 txid2759[ORGN] 真核生物
Vertebrata 7742 txid7742[ORGN] 脊椎动物门
Viridiplantae 33090 txid33090[ORGN] 植物界

若不知我们研究物种分类的txid号,则可以通过以下方法查询:通过物种分类中一个已知物种名,例如研究真菌,知晓酿酒酵母的物种名,saccharomyces cerevisiae,知道酿酒酵母属于真菌。

  1. 选择NCBI数据库的Taxanomy,输入saccharomyces cerevisiae,搜索。

在这里插入图片描述

  1. 点击进入后,选择Lineage中的fungi,再点击Fungi。

在这里插入图片描述
在这里插入图片描述

  1. 从Fungi的界面可以看到其txid号为4751.

在这里插入图片描述

资料来源:

NR子库构建:

http://www.biotrainee.com/thread-1818-1-1.html

http://www.bioinfo-scrounger.com/

txid号查询:http://blog.sina.com.cn/s/blog_14ece68cc0102vx90.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/songyi10/article/details/120667565

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的,浏览器出于安全考虑是禁止的。警告信息如下:不过jQuery对跨域问题也有解决方案,使用jsonp的方式解决,方法如下:$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry,也就是我们所说的 使用空间SQL 的方法,官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下,主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数,需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数,转换过程中受到系统编码类型的影响,需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入,结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误,google一下,发现可能有如下原因导致imp的数据太大,没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件,向高版本imp导出的dmp文件出错传输dmp文件时,文件损坏解决办法:imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代,各个行业都离不开数据的支持。因此,网络爬虫就应运而生。网络爬虫当下最为火热的是Python,Python开发爬虫相对简单,而且功能库相当完善,力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页,按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息,通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则(当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致)_@service beanname-程序员宅基地

文章浏览阅读7.6k次,点赞2次,收藏6次。@Service标注的bean,类名:ABDemoService查看源码后发现,原来是经过一个特殊处理:当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次,点赞73次,收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能,如果文件名出现中文,便会以乱码视之。 解决方法: fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次,点赞4次,收藏23次。第一次实验 词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别,找出文件中所有的合法的单词,并给出一定的信息作为最后的结果,用于后续语法分析程序的使用;本实验针对 PL/0 语言 的文法、词汇表编写一个词法分析程序,对于每个单词根据词汇表输出: (单词种类, 单词的值) 二元对。词汇表:种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次,点赞12次,收藏125次。1. 单目相机标定引言相机标定已经研究多年,标定的算法可以分为基于摄影测量的标定和自标定。其中,应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统,在标定过程中,相机拍摄多个角度下(至少两个角度,推荐10~20个角度)的标定板图像(相机和标定板都可以移动),即可对相机的内外参数进行标定。下面介绍张氏标定法(以下也这么称呼)的原理。原理相机模型和单应矩阵相机标定,就是对相机的内外参数进行计算的过程,从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的 硬件支持简 述: 翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构;一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。 内核是从一个输入设备中获取一个事件,并通过 evdev 输入_wayland

推荐文章

热门文章

相关标签