亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
樓主: yisn
打印 上一主題 下一主題

如何對100百萬行的字符串得到唯一字符串及計數(shù)? [復(fù)制鏈接]

論壇徽章:
1
未羊
日期:2014-09-08 22:47:27
11 [報告]
發(fā)表于 2010-11-17 10:05 |只看該作者
最好能提供10多兆字節(jié)的樣本數(shù)據(jù),wxlfh@qq.com

論壇徽章:
1
未羊
日期:2014-09-08 22:47:27
12 [報告]
發(fā)表于 2010-11-17 10:47 |只看該作者
隨手寫了個,不知道對樓主有沒有幫助,呵呵。
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. open my $in, "<", "Logfile.log" or die "Open Logfile.log error.\n";
  5. open my $out,">", "Logfile.out" or die "Create file error.\n";

  6. my %hash;
  7. while (<$in>) {
  8.     $id = (split /\t/)[5];  #第6列是ID
  9.     $hash{$id}++;
  10. }

  11. while (my ($key,$value)= each %hash) {
  12.     print $out "$key\t$value\n";
  13. }

  14. print "There are ",scalar keys %hash," IDs.\n";

  15. close $in;
  16. close $out;
復(fù)制代碼

論壇徽章:
0
13 [報告]
發(fā)表于 2010-11-17 15:11 |只看該作者
hash是經(jīng)過優(yōu)化的,可以試試看啊。

論壇徽章:
0
14 [報告]
發(fā)表于 2010-11-17 15:28 |只看該作者
隨手寫了個,不知道對樓主有沒有幫助,呵呵。
wxlfh 發(fā)表于 2010-11-17 10:47



    友情提示下:split比regex慢很多。

論壇徽章:
1
未羊
日期:2014-09-08 22:47:27
15 [報告]
發(fā)表于 2010-11-17 16:27 |只看該作者
友情提示下:split比regex慢很多。
蘭花仙子 發(fā)表于 2010-11-17 15:28



    是嗎?受教了。

論壇徽章:
0
16 [報告]
發(fā)表于 2010-11-19 10:01 |只看該作者
本帖最后由 yisn 于 2010-11-19 10:04 編輯

謝謝各位大展雄風(fēng)~ 俺先試試看再來反饋.

上面的日志文件是隨便說的. 然后發(fā)現(xiàn)其實我的字符串是有1000百萬而不是100百萬,內(nèi)牛滿面...

文件是一行行atcg的字符串,類似
cagggcagaaccttgtactgcacctgcagtgcagagcaaacacagaagtcttctttggtaaaggaaccagactcacagttgtag
cagggcagaaccttgtactgcacctgcagtgcagagccaaacacagaagtcttctttggtaaaggaaccagactcacagttgtag
cagggcagaaccttgtactgcacctgcagtgcagaggccaaacacagaagtcttctttggtaaaggaaccagactcacagttgtag
cagggcagaaccttgtactgcacctgcagtgcagaggccaaacacagaagtcttctttggtaaaggaaccagactcacagttgtag
cagggcagaaccttgtactgcacctgcagtgcagagggccaaacacagaagtcttctttggtaaaggaaccagactcacagttgtag
cagggcagaaccttgtactgcacctgcagtgcagaggggccaaacacagaagtcttctttggtaaaggaaccagactcacagttgtag
...

字符串的重復(fù)度也不是很多,但是必須把相同的組合起來并計數(shù).
比如90G的文件,組合后剩60G這樣.

論壇徽章:
0
17 [報告]
發(fā)表于 2010-11-19 10:28 |只看該作者
請改用 天河一號超級計算機(jī)

論壇徽章:
46
15-16賽季CBA聯(lián)賽之四川
日期:2018-03-27 11:59:132015年亞洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49雙魚座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亞冠之布里斯班獅吼
日期:2015-07-13 10:44:56
18 [報告]
發(fā)表于 2010-11-19 10:29 |只看該作者
樓上搶我臺詞……

論壇徽章:
145
技術(shù)圖書徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11獅子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龍
日期:2014-01-08 15:26:12技術(shù)圖書徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
19 [報告]
發(fā)表于 2010-11-19 12:52 |只看該作者
本帖最后由 jason680 于 2010-11-19 12:56 編輯
謝謝各位大展雄風(fēng)~ 俺先試試看再來反饋.

上面的日志文件是隨便說的. 然后發(fā)現(xiàn)其實我的字符串是有1000百萬 ...
yisn 發(fā)表于 2010-11-19 10:01



Mastering Perl for Bioinformatics
http://oreilly.com/catalog/mperlbio/chapter/ch09.pdf

http://www.bioperl.org/wiki/Getting_Started

工欲善其事,必先利其器

論壇徽章:
0
20 [報告]
發(fā)表于 2010-11-19 14:04 |只看該作者
用hash唄,內(nèi)存不夠就用外存
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP