午夜福利理论片在线观看,四虎影视4hu4虎成人,色翁荡熄又大又硬又粗又视频软件

chenhao392

稍有積蓄

論壇徽章:: 1

程序設(shè)計版塊每日發(fā)帖之星
日期:2015-10-07 06:20:00

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2011-04-01 14:48 |只看該作者 |倒序瀏覽

今天有個生物信息的任務(wù)，完成了，但是很不爽的搞死了電腦兩次。于是全程播報我的思路和步驟，來論壇求教了，求拍磚：

1. 數(shù)據(jù)描述

有基因組數(shù)據(jù)如下，大寫的是正常序列，小寫的是repeat區(qū)域：

>chr1
GAATTCCAAAGCCAAAGATTGCATCAGTTCTGCTGCTATTTCCTCCTATCATTCTTTCTG
ATGTTGAAAATGATATTAAGCCTAGGATTCGTGAATGGGAGAAGGTATTTTTGTTCATGG
TAGTCATTGGAACCTGCTAGATTGTACACTTGACAATAACATATATTAATATTAGTGACC
CCATTTTTAAATTTCCTAGGCTGGCATTGAACAAGACTATGTTAGTAGGATGTTGTTGAA
GTATCCATGGATTCTTTCAACGAGTGTGATAGAGAACTACAGTCAAATGCTGTTGTTTTT
CAACCAAAAAAGGGTAAGTAAAAAAGAATACTTACTATGCTGTGCCTCAAGTTCATGTTA
TATTCAAATGCCGCAGCTCTGAtaaccactcttttctggaccaataaatggctgcttggt
tcctctataggagatgtgtcgctggctgttcttgctatggtacccgcaaaaataattaaa
cgtcttcgaAGGTTTGCAGCTGAGTATGTGGAATGTTCTGCATGCTCTCGAAGATGAACA
GCATCTCTGGTGTCTCGCCGGAGTGCAAGGACTGCAGAGTTTAGGCCTGGGCTCCCTGAG
CGGTTAGGTGGCATTTCCTGGTCTGGTCTCACCATTTCTATTTGCTGTAAGAGTTTTGTT
>chr2
.............
.............

復制代碼

2. 任務(wù)要求
按照小寫的序列區(qū)域，將一個長的染色體分割成較短的片段，小寫區(qū)域丟棄，大寫片段短于500字符就丟棄。

3. 分析每一行的可能格式

1.
>chr1

2.
大寫片段-----小寫片段-----大寫片段
小寫----大寫---小寫（由于每行60字符，這里的大寫片段顯然不夠500字符）
小寫------大寫
大寫------小寫

3.
一直小寫
一直大寫

4. 寫代碼如下：

#!/usr/bin/perl -w
#
#Author **
#This script is uesd for matching the repeat masked region, and then split
#by them.
use POSIX;
my $repeat=$ARGV[0];#file repeat.fa
my $out=$ARGV[1];#splited file
my $min_seq_length=500;
my $out_line_length=50;
#repeat file load
open REPEAT,"<$repeat" or die "hi:$!";
my %chrom;
my $base;
while(<REPEAT>){
chomp;
if($_ =~ /^\>(.*?)$/){
$base=$1;
$chrom{$base}="";
}
else{
$chrom{$base}.=$_;
}
}
close REPEAT;
#print file splited by repeats
open OUT,">$out" or die"Oh:$!";
foreach $base (sort keys %chrom){
my @seq=split(//,$chrom{$base});
my $count=0;
my $start;
my $stop;
my $seq="";
my $switch=0;#1 == ATCG, 0 == N
foreach $a(@seq){
if($a !~ /[atcg]/ && $switch == 0){ #new seq after repeat
$switch=1;
$start=$count+1;
$seq.=$a;
}
elsif($a !~/[atcg]/ && $switch == 1){
$seq.=$a;
}
elsif($a =~ /[atcg]/ && $switch == 1){
$switch=0;
$stop=$count;
if( ($stop - $start) >= $min_seq_length){
print OUT "\>$base\_$start\_$stop\n";
seq_print($seq,$out_line_length);
}
$seq="";
}
$count++;
}
#print the last seq
if($switch == 1){$stop=$count-1;}
if( ($stop - $start) >= $min_seq_length){
print OUT "\>$base\_$start\_$stop\n";
seq_print($seq,$out_line_length);
}
print "work on $base\n";
}
close OUT;
sub seq_print{
my ($seq,$length)=@_;
my $step=floor(length($seq)/$length);
for(my $i=1;$i<=$step;$i++){
my $out=substr($seq,($i-1)*$length,$length);
print OUT "$out\n";
}
my $out=substr($seq,$step*$length);
print OUT "$out\n";
}

復制代碼

5. 測試小量數(shù)據(jù)通過
......

6. 大數(shù)據(jù)量，死機
于是在應(yīng)用在了基因組上，數(shù)據(jù)量2G多

瞬間占用40G以上內(nèi)存，服務(wù)器死機

7. 修改代碼
想了想，我的@seq可能太過于恐怖了，于是修改代碼如下：

#!/usr/bin/perl -w
#
#Author **
#This script is uesd for matching the repeat masked region NNNNN, and then split
#by them.
use POSIX;
my $repeat=$ARGV[0];#file repeat.fa
my $out=$ARGV[1];#splited file
my $min_seq_length=500;
my $out_line_length=50;
#repeat file load
open REPEAT,"<$repeat" or die "hi:$!";
my %chrom;
my $base;
my $count=0;
while(<REPEAT>){
chomp;
if($_ =~ /^\>(.*?)$/){
$base=$1;
$count=0;
}
else{
$chrom{$base}[$count]=$_;
$count++;
}
}
close REPEAT;
open OUT,">$out" or die"Oh:$!";
foreach $base (sort keys %chrom){
my $array_hash=$chrom{$base};
my $count=0;
my $start;
my $stop;
my $seq="";
my $switch=0;#1 == ATCG, 0 == N
foreach $name(@$array_hash){
my @line=split(//,$name);
foreach $a(@line){
if($a !~ /[atcg]/ && $switch == 0){ # first base of seq after repeat
$switch=1;
$start=$count+1;
$seq.=$a;
}
elsif($a !~ /[atcg]/ && $switch == 1){ #continue seq
$seq.=$a;
}
elsif($a =~ /[atcg]/ && $switch == 1){ #come across repeat
$switch=0;
$stop=$count;
if( ($stop - $start) >= $min_seq_length){
print OUT "\>$base\_$start\_$stop\n";
seq_print($seq,$out_line_length);
}
$seq="";
}
$count++;
}
undef(@line);
}
#print the last seq
if($switch == 1){$stop=$count-1;}
if( ($stop - $start) >= $min_seq_length){
print OUT "\>$base\_$start\_$stop\n";
seq_print($seq,$out_line_length);
}
print "work on $base\n";
}
close OUT;
sub seq_print{
my ($seq,$length)=@_;
my $step=floor(length($seq)/$length);
for(my $i=1;$i<=$step;$i++){
my $out=substr($seq,($i-1)*$length,$length);
print OUT "$out\n";
}
my $out=substr($seq,$step*$length);
print OUT "$out\n";
}

復制代碼

8. 求教
這次占用了大概4.3G的內(nèi)存，程序順利跑完，但是我依然不明白哪里需要4G內(nèi)存了。
在我看來，這兩行：
$seq="";
undef(@line);
已經(jīng)釋放了內(nèi)存，應(yīng)該只是%chrom存儲的2G序列而已了。

bioinfo, perl, 內(nèi)存占用, 生物信息, bioinfo, perl, 內(nèi)存占用, 生物信息

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

zhlong8

版主

論壇徽章:: 46

15-16賽季CBA聯(lián)賽之四川
日期:2018-03-27 11:59:13

2樓 [報告]

發(fā)表于 2011-04-01 14:55 |只看該作者

2G 的原始數(shù)據(jù)才占 4G 的內(nèi)存，已經(jīng)很省了啊？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

chenhao392

稍有積蓄

論壇徽章:: 1

3樓 [報告]

發(fā)表于 2011-04-01 15:01 |只看該作者

回復 2# zhlong8

這個....這樣啊....
那另外2G內(nèi)存被什么吃掉了？

或者說，
為什么4G就很省了？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

zhlong8

版主

論壇徽章:: 46

4樓 [報告]

發(fā)表于 2011-04-01 15:06 |只看該作者

本帖最后由 zhlong8 于 2011-04-01 15:07 編輯

將一個長的染色體分割成較短的片段，小寫區(qū)域丟棄，大寫片段短于500字符就丟棄。

這個用 RE 就能做了��？你為什么一個一個字符處理？

@seq 那里 split 成單個字符每1K個占用內(nèi)存是 48K，如果你一段基因超長的話……

Perl 的字符串可變，所以可能分配的內(nèi)存比需要的多，而且是以2^n 的速度擴大的，所以平均長度越長浪費的也就越多

數(shù)據(jù)結(jié)構(gòu)不也要占用內(nèi)存，建一個空空的數(shù)組或 hash 難道就不需要空間了？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

chenhao392

稍有積蓄

論壇徽章:: 1

5樓 [報告]

發(fā)表于 2011-04-01 15:24 |只看該作者

回復 4# zhlong8

謝謝說明！

將一個長的染色體分割成較短的片段，小寫區(qū)域丟棄，大寫片段短于500字符就丟棄。
這個用 RE 就能做了�。磕銥槭裁匆粋€一個字符處理？

我只能說是，想到什么就寫什么了，另，RE是什么？

@seq 那里 split 成單個字符每1K個占用內(nèi)存是 48K，如果你一段基因超長的話……

是的，恐怖的長，2G只有10個基因組，平均一個200MB. 看來這就是我第一次程序掛掉的原因

Perl 的字符串可變，所以可能分配的內(nèi)存比需要的多，而且是以2^n 的速度擴大的，所以平均長度越長浪費的也就越多
數(shù)據(jù)結(jié)構(gòu)不也要占用內(nèi)存，建一個空空的數(shù)組或 hash 難道就不需要空間了？

$seq的長度經(jīng)常會有幾千上萬，一直在變，那這就是原因了？
我是不是可以理解為：

$a="A";
$b="B";
$c="CCCCC";

$a="AA";
$b="BB";
$c="CC";

前者比后者消耗的內(nèi)存多？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

zhlong8

版主

論壇徽章:: 46

6樓 [報告]

發(fā)表于 2011-04-01 15:38 |只看該作者

對于很長的數(shù)據(jù)按行存儲和處理比較高效。

說用 RE 指的是對于每一行的數(shù)據(jù)可以用正則表達式來判斷分割。

對于比較短的字符串不需要考慮這么多，一個變量保存字符串的長度是曾經(jīng)最長的長度，即使賦值了個比較短的字符串，相當于剩余的空間就是緩沖區(qū)了。用 undef 可以釋放

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

chenhao392

稍有積蓄

論壇徽章:: 1

7樓 [報告]

發(fā)表于 2011-04-01 15:46 |只看該作者

回復 6# zhlong8

謝謝，變量占用內(nèi)存大概明白了...

RE指，類似這樣的處理么？
   if ( $line=~/([ATCG]*)([atcg]*)([ATCG]*)/ ) {
            $1;
            $2;
            $3;
}

其實一開始我是有想這么寫的，但是還需要計算大寫片段在染色體上的位置，每一列的可能又多，寫到一半就懶了...