四川少妇bbwbbbb搡bbbb,无码av免费一区二区三区

論壇徽章:: 307

操作系統(tǒng)版塊每日發(fā)帖之星
日期:2015-09-02 06:20:00

22樓 [報告]

發(fā)表于 2016-06-17 18:47 |只看該作者

回復 21# little_joe
請看下 19 樓, 我的問題.

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

論壇徽章:: 0

23樓 [報告]

發(fā)表于 2016-06-17 21:15 |只看該作者

第二行的內容不是Query行的銜接，它們是沒有關系的，第二行其實是Query行和Sbjct行的關系描述，+表示兩個氨基酸是同義氨基酸，這是生物學相關的問題，所以讀取文件B時不用考慮第二行，只需要考慮以Query和Sbjct開頭的行就行。

文件B中如您所標黃色的序號不會出現大的在前，小的在后的情況，因為氨基酸序列是連續(xù)的有順序的。

因為每個Query行開頭都會有一個數字序號，如果文件A中的數字小于文件BQuery第一個數字，那么便可以直接忽略，即如果文件A數字不在該區(qū)間內即可忽略，

如果文件A為35則直接忽略以2開頭的Query行，只讀取含有35的Query行回復 19# sunzhiguolu

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

論壇徽章:: 307

24樓 [報告]

發(fā)表于 2016-06-17 22:05 |只看該作者

回復 23# little_joe
好的, 如有不明白我再問.

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

論壇徽章:: 0

25樓 [報告]

發(fā)表于 2016-06-17 22:18 |只看該作者

恩恩，您辛苦啦！謝謝！回復 24# sunzhiguolu

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

論壇徽章:: 307

26樓 [報告]

發(fā)表于 2016-06-18 13:49 |只看該作者

本帖最后由 sunzhiguolu 于 2016-06-18 14:01 編輯

回復 25# little_joe
試下,

#!/usr/bin/perl
use strict;
use warnings;
sub collect_data{
my (%ha, %hFilt, $id);
open (my $fhA, '<', shift);
while (defined (local $_ = <$fhA>)){
if (/\A(\D\S+)/){
%hFilt = () if (!exists $ha{$1});
$id = $1;
next;
}
s/\s+\z//;
push (@{$ha{$id}}, $_) if (!$hFilt{$_}++);
}
close ($fhA);
\%ha;
}
sub compare{
my ($id, $rh, @aData) = (@_);
my %hStat;
foreach my $v (@{$rh->{$id}}){
foreach my $V (grep {$v >= $_->[0] && $v <= $_->[2] and $v >= $_->[3] && $v <= $_->[-1]} @aData){
my ($q1, $q2, $q3, $s1, $s2, $s3) = @$V;
my @aChars = split //, ($s2 =~ s/-//gr);
$hStat{$aChars[$v - $s1]}++;
}
}
if (%hStat){
print "$id\n";
print "$_:$hStat{$_}\n" for keys %hStat;
}
}
my $rha = collect_data (shift);
open (my $fh, '<', shift);
my ($Flag, $Offset, $ID, @aData) = 0;
while (defined (local $_ = <$fh>)){
next if (/\A\s*\z/ or !/\A(?:Query|Sbjct)/);
if (/\AQuery=\h+(\S+)/){
compare ($ID, $rha, splice (@aData)) if (@aData);
exists ($rha->{$1}) ? do {($ID, $Flag, $Offset) = ($1, 1, -1)} : ($Flag = 0);
next;
}
next if (!$Flag);
if (/\A(Query|Sbjct)\h+(\d+)\h+(\H+)\h+(\d+)/){
$Offset++ if ($1 eq "Query");
push (@{$aData[$Offset]}, $2, $3, $4);
}
}
close ($fh);
compare ($ID, $rha, splice (@aData)) if ($Flag);

復制代碼

perl abc.pl a b
----------------------------------------------------------------------------------------------
NP_414894.2-1
M:4
NP_415921.2-1
M:4
YP_025310.1-1
A:2
YP_026163.2-1
M:4
YP_002791252.1-1
C:1
NP_417338.3-1
M:4
NP_417516.3-1
M:4
NP_418692.2-1
M:4
NP_418697.1-1
L:1
H:1

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

stanley_tam

小富即安

論壇徽章:: 6

27樓 [報告]

發(fā)表于 2016-06-18 16:34 |只看該作者

本帖最后由 stanley_tam 于 2016-06-18 16:36 編輯

感覺我的結果不一樣

#！perl
use strict;
use warnings;
package Sequence;
sub new {
my ($class, $id) = @_;
my $self = +{};
$self->{'id'} = $id;
$self->{'members'} = [];
bless $self, $class;
return $self;
}
sub add_member {
my ($self, $member) = @_;
push @{ $self->{'members'} }, $member;
}
sub get_members {
my ($self) = @_;
return @{ $self->{'members'} };
}
sub get_id {
my ($self) = @_;
return $self->{'id'};
}
1;
package SequenceCollection;
sub new {
my ($class) = @_;
my $self = +{};
$self->{'sequences'} = [];
$self->{'_id_seq'} = +{};
$self->{'last_seen_id'} = q{};
$self->{'is_duplicate_id'} = 0;
bless $self, $class;
return $self;
}
sub process_line {
my ($self, $line) = @_;
$line =~ s{\s}{}gmix;
return if not $line;
if ($line =~ m{^ \d+ $}mix) {
return if $self->{'is_duplicate_id'};
my $last_seen_id = $self->{'last_seen_id'};
my $sequence = $self->{'_id_seq'}->{$last_seen_id};
$sequence->add_member($line);
}
else {
$self->{'last_seen_id'} = $line;
if (exists $self->{'_id_seq'}->{$line}) {
$self->{'is_duplicate_id'} = 1;
}
else {
# new record
$self->{'is_duplicate_id'} = 0;
my $sequence = Sequence->new($line);
$self->{'_id_seq'}->{$line} = $sequence;
push @{$self->{'sequences'}}, $sequence;
}
}
}
sub get_sequences {
my ($self) = @_;
return @{ $self->{'sequences'} };
}
1;
package Query;
sub new {
my ($class, $id) = @_;
my $self = +{};
$self->{'id'} = $id;
$self->{'query_list'} = [];
$self->{'subject_list'} = [];
$self->{'last_seen_start_number'} = undef;
bless $self, $class;
return $self;
}
sub populate_list {
my ($self, $string_type, $string, $start_number) = @_;
my @letters = split //, $string;
if ($string_type eq 'Query') {
my $query_list = $self->{'query_list'};
$self->{'last_seen_start_number'} = $start_number;
for my $letter (@letters){
$query_list->[$start_number] = $letter;
++$start_number;
}
$self->{'query_list'} = $query_list;
}
elsif ($string_type eq 'Sbjct') {
my $subject_list = $self->{'subject_list'};
$start_number = $self->{'last_seen_start_number'};
for my $letter (@letters){
$subject_list->[$start_number] = $letter;
++$start_number;
}
$self->{'subject_list'} = $subject_list;
}
else {
die "This shouldn't happen...$/";
}
}
sub get_subject_character {
my ($self, $number) = @_;
my $subject_list = $self->{'subject_list'};
my $character = $subject_list->[$number] // q{};
return $character
}
1;
package QueryCollection;
sub new {
my ($class, $id) = @_;
my $self = +{};
$self->{'queries'} = [];
$self->{'id_query'} = +{};
$self->{'last_seen_id'} = undef;
bless $self, $class;
return $self;
}
sub process_line {
my ($self, $line) = @_;
$line =~ s{^\s+ | \s+$}{}gmix;
return if not $line;
if ($line =~ m{Query=}) {
my ($id) = $line =~ m{^Query= \s* (.*)$}mx;
$self->{'last_seen_id'} = $id;
my $query = Query->new($id);
push @{ $self->{'queries'} }, $query;
$self->{'id_query'}->{$id} = $query;
}
elsif ($line =~ m{Query \s+ \d+ \s+}mix){
my $last_seen_id = $self->{'last_seen_id'};
my $query = $self->{'id_query'}->{$last_seen_id};
my ($start_number, $string) = $line =~ m{^Query \s+ (\d+) \s+ (\S+) \s+}mx;
my $string_type = 'Query';
$query->populate_list($string_type, $string, $start_number);
}
elsif ($line =~ m{Sbjct \s+ \d+ \s+}mix){
my $last_seen_id = $self->{'last_seen_id'};
my $query = $self->{'id_query'}->{$last_seen_id};
my ($start_number, $string) = $line =~ m{^Sbjct \s+ (\d+) \s+ (\S+) \s+}mx;
my $string_type = 'Sbjct';
$query->populate_list($string_type, $string, $start_number);
}
}
sub get_query_by_id {
my ($self, $id) = @_;
my $query = $self->{'id_query'}->{$id} || q{};
return $query;
}
sub get_subject_character {
my ($self, $id, $number) = @_;
my $character = q{};
my $query = $self->get_query_by_id($id);
if ($query) {
$character = $query->get_subject_character($number);
}
return $character;
}
1;
package main;
sub main {
my $sequence_collection = SequenceCollection->new();
open my $a_fh, '<', 'A.word';
while (defined(my $line = readline $a_fh)) {
$sequence_collection->process_line($line);
}
close $a_fh;
my $query_collection = QueryCollection->new();
open my $b_fh, '<', 'B.word';
while (defined(my $line = readline $b_fh)) {
$query_collection->process_line($line);
}
close $b_fh;
for my $sequence ( $sequence_collection->get_sequences() ){
my @members = $sequence->get_members();
my $id = $sequence->get_id();
my %count = ();
for my $number ( @members ){
my $character = $query_collection->get_subject_character($id, $number);
++$count{$character};
}
print "$/id => [$id]$/";
print "members => [@members]$/";
for my $character (keys %count){
my $number = $count{$character};
print "character => [$character]$/";
print "number => [$number]$/";
}
}
}
main();
__END__

復制代碼

輸出：

id => [NP_414894.2-1]
members => [77]
character => [-]
number => [1]
id => [NP_415088.1-1]
members => [134]
character => [W]
number => [1]
id => [NP_415560.1-1]
members => [137]
character => [S]
number => [1]
id => [NP_415921.2-1]
members => [77]
character => [-]
number => [1]
id => [YP_025310.1-1]
members => [73 78]
character => [T]
number => [1]
character => [V]
number => [1]
id => [YP_026163.2-1]
members => [77]
character => [-]
number => [1]
id => [YP_588459.1-1]
members => [62 63]
character => [N]
number => [1]
character => [K]
number => [1]
id => [YP_002791252.1-1]
members => [26]
character => [S]
number => [1]
id => [NP_417338.3-1]
members => [77]
character => [-]
number => [1]
id => [NP_417516.3-1]
members => [77]
character => [-]
number => [1]
id => [NP_418692.2-1]
members => [77]
character => [-]
number => [1]
id => [NP_418697.1-1]
members => [81 85]
character => [W]
number => [1]
character => [E]
number => [1]

復制代碼

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

論壇徽章:: 307

28樓 [報告]

發(fā)表于 2016-06-18 17:20 |只看該作者

stanley_tam 發(fā)表于 2016-06-18 16:34
感覺我的結果不一樣輸出：

差異之處, 比如:
A 文件:
NP_415088.1-1
134

對應 B 文件 Query= NP_415088.1-1
...
Query  134  W  134
         W
Sbjct  61 W  61
...
Query  134  W  134
         W
Sbjct  61 W  61
...
Query  134  W  134
         W
Sbjct  61 W  61

A 與 B 中的對應數值 134 在 B 中的 Query 134 W 134 中滿足匹配要求, 但是其下的 Sbjct 61 W 61 行的卻不能滿足 A 中數值 134 的匹配范圍.
在這里我采用的是雙過濾即 A 中的 134 必須在 B 中 Query, Sbjct 行中都滿足要求才認為滿足要求,  這一點可能需要樓主說明一下. (這個地方我的確拿不準)

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

論壇徽章:: 0

29樓 [報告]

發(fā)表于 2016-06-18 18:20 |只看該作者

本帖最后由 little_joe 于 2016-06-18 18:40 編輯

謝謝各位的關注和幫助，是我之前沒說明白的原因，文件A的數值134其實是不用滿足Sbjct的條件的，這里134的作用是找到對應Query行的對應字母，然后通過該字母（Query行）找到Sbjct行中Query行字母對應的字母（也就是其下方對應的字母），輸出的是Sbjct行的字母，并且對這個輸出的字母進行計數，文件中當Query行中出現“-”時不會影響序號區(qū)間例如：Query：1 ASDFGHJKL 9和Query：1  ASD-FGHJKL 9它們兩個都是包含9個元素，“-”不會影響字母的序號，而當Query行是字母對應的Sbjct行是“-”時則不用輸出例如：Query：1 ASDFGHJKL 9
                                                      Sbjct：1 ASD-FGHJK 8假設文件A數值為4，則找到了Query行的F此時Sbjct行對應“-”則可以不用輸出（或者為了簡單期間輸出計數也可）這個應該是文件的輸出結果（例子中較少，所以手動驗證了一下）
NP_415088.1-1       W:4
NP_415560.1-1 S:1
YP_025310.1-1 S:1 V:1
NP_418697.1-1 W:7 V:7
YP_588459.1-1 N:1 K:1
YP_002791252.1-1 S:1
回復 28# sunzhiguolu

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？