perl应用之snp提取后续处理:非ATGC行的删除

发布时间:2020-02-19编辑:脚本学堂
perl应用之snp提取后续处理:非ATGC行的删除

我们知道DNA中碱基只有四种,ATGC,但是因为测序过程中的种种原因,可能出现R,M等情况,也就是所谓的兼并碱基,可参考前面的标准核酸表。如下面中第三行中有一个R,但是我们在分析的过程中,希望把这样的行给去掉。
数据结构如下所示:
25806202 T T C T T T T T T C T T T T T T T T T   
25806240 C C C C C C C C C C C C C T C C C C C   
25806305 G G G A A R G A A G G G G G G G A G A   
25806336 A A A G G G A G G A A A A A A A G A G   
25806345 A A A G G G A G G A A A A A A A G A G   

总体思路
1,读入数据以后,把每一行变成数组,但是我们不能直接用正则进行对比,因为数组的第一个元素使数字,不能直接用/[^ATGC]....所以我们在这里用了一个小技巧,另外建立了一个数组,@cout,这个数组是从1......19个,这样我们在循环数组的时候就可以避开第一个元素。

然后,我们需要用一个变量来标记着一行的状态。我们这里用的是$flag,我们在读入一行的每一个元素的时候,做一下标记,如果有非ATGC的元素,$flag就+1,然后foreach以后再用一次判断,如果$flag为0,那么说明没有其他的碱基。那就输出,否则就忽略。

复制代码 代码如下:
  #!/usr/bin/perl 
    # Only remain ATGC line and delete other line 
     
    use strict; 
    use warnings; 
     
    my @informations; 
    my $information; 
    my @cout=qw/1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19/; 
    my $cout; 
    my $flag=0; 
     
     
    open(WITH,"without-without_repeat_information.txt")||die("can not open!"); 
    open(OUT,">OnlyATGC.txt"); 
    while(<WITH>) 
    { 
        chomp; 
        @informations=split; 
        foreach $cout(@cout) 
        { 
            if ($informations[$cout] =~ /[^ATGC]/) 
            { 
                $flag=$flag+1; 
            } 
            else 
            { 
                next; 
            } 
        } 
        if($flag==0) 
        { 
            print OUT "$_n";  
        } 
        else 
        { 
            $flag=0; 
        } 
    }