仓库源文站点原文


title: 一次修改注释文件的经历 tags:


今天有一位师姐在看到我之前的 基因家族鉴定 帖子之后,请我帮忙修改一份注释文件,他们找了公司测得的文件,格式与标准的注释文件有所差别,于是我使用 Excel 和 Notepad++对文件的格式进行了修改。

<!--more-->

在每一行后面的 ID 信息这一块,有一些符号似乎被转换成网址格式了?(例如网址里的空格会被自动转换成%20)

Arabis_paniculata_L_1-10k_transcript/0  transdecoder    gene    1   7495    .   +   .   ID=Gene.1::Arabis_paniculata_L_1-10k_transcript/0::g.1;Name=ORF%20type%3Acomplete%20len%3A2361%20(%2B)

使用 Notepad++批量替换:

然后在第一列,标准注释文件中是染色体,而这个文件是Arabis_paniculata_L_1-10k_transcript/0,使用 Notepad++正则匹配:

Arabis_paniculata_L_1-10k_transcript/(\d+)

然后替换成($1),即替换成正则表达式中括号括起来的部分,这样就会把每一个Arabis_paniculata_L_1-10k_transcript/0替换成0

转念一想,Arabis_paniculata_L_1-10k_transcript/这里最大的数字达到了 9999,染色体怎么会有这么多?而且还有第 0 条?于是我发现,这个文件信息里貌似没有染色体位置信息 ... 于是失败,既然没有染色体位置信息,何谈染色体定位于共线性分析,遂失败。