亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 5562 | 回復(fù): 8
打印 上一主題 下一主題

對文本處理,shell,sed,awk和perl那個性能好呢 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2011-05-17 10:24 |只看該作者 |倒序?yàn)g覽
本帖最后由 fikong2005 于 2011-05-17 16:41 編輯

目前需要準(zhǔn)實(shí)時的對文件進(jìn)行處理,然后入庫,因?yàn)閿?shù)據(jù)庫性能已經(jīng)不堪重負(fù),因此在入庫前對數(shù)據(jù)進(jìn)行文件級別的過濾。
整個控制流程采用perl,但是對文件進(jìn)行過濾是最耗時的工作,因此想問一下大蝦門,采用shell,sed,awk和perl哪種對文本處理的性能會強(qiáng)悍一點(diǎn)。
主要的過濾功能如下:
A文件是詳單(大概2G左右),B文件是維度(幾十M),A文件根據(jù)B文件里面不存在的維度進(jìn)行過濾。
如:
A文件:
A,DFSFD,FWFDG,DFSFDS
B,FDSFD,FSDFDS,FDSFER
C,FDSDRR,FDSDRG,DFDW
D,DRFSDR,FWRG,FDWRRD
B文件:
A
B
則過濾后,僅剩下:
A,DFSFD,FWFDG,DFSFDS
B,FDSFD,FSDFDS,FDSFER
請?zhí)峁┮幌滦阅茏顑?yōu)的核心代碼,謝謝;)

論壇徽章:
46
15-16賽季CBA聯(lián)賽之四川
日期:2018-03-27 11:59:132015年亞洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49雙魚座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亞冠之布里斯班獅吼
日期:2015-07-13 10:44:56
2 [報告]
發(fā)表于 2011-05-17 11:16 |只看該作者
性能估計(jì)差不多,都是最簡單的 RE 匹配

論壇徽章:
0
3 [報告]
發(fā)表于 2011-05-17 11:23 |只看該作者
都不是底層的需求,我也認(rèn)為性能會差不多,重要的是算法

論壇徽章:
0
4 [報告]
發(fā)表于 2011-05-17 12:28 |只看該作者
謝謝樓上2位,借問可否有比較佳的算法,呵呵。

論壇徽章:
46
15-16賽季CBA聯(lián)賽之四川
日期:2018-03-27 11:59:132015年亞洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49雙魚座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亞冠之布里斯班獅吼
日期:2015-07-13 10:44:56
5 [報告]
發(fā)表于 2011-05-17 12:39 |只看該作者
你連個能跑的都還沒寫……
把 b 構(gòu)建成 /^(?:A|B),/ 這樣的 RE 和 A匹配下來過濾。如果真的 b 有那么簡單你還可以用 c 來寫個函數(shù)來擴(kuò)展 Perl 怎么搞都行,但是最終你還是要測試才能知道哪個最優(yōu)

論壇徽章:
0
6 [報告]
發(fā)表于 2011-05-17 15:11 |只看該作者
網(wǎng)上恰好有一段相關(guān)代碼,如下:
#!/usr/bin/perl -w
exit if (1 > $#ARGV);

my %map_orig;

my $file_orig = shift @ARGV;
open FH, "<$file_orig" or die "can't open file: $file_orig";
while (<FH>) {
        chomp;
        #$map_orig{$_} = 1;
        my ($filed) = split(" ");
        $map_orig{$filed} = 1;
}
close (FH);

my $file_diff = shift @ARGV;
open FH, "<$file_diff" or die "can't open file: $file_diff";
while (<FH>) {
        chomp;
        my ($filed) = split(" ");
        print "$_\n" if (!defined$map_orig{$filed});
}
close (FH)


不知道效率如何,請賜教,謝謝!

論壇徽章:
0
7 [報告]
發(fā)表于 2011-05-17 17:15 |只看該作者
頂頂更健康。

論壇徽章:
0
8 [報告]
發(fā)表于 2011-05-17 23:12 |只看該作者
例子也是網(wǎng)上的,LZ敢情一句代碼也不愿意寫

我的想法是先讀入文件B,構(gòu)建一個Hash,然后查找這個Hash

既然B這么大,Shell一定會慢一些吧, 其他不知道誰會快,sed寫起來簡單些,我覺得

論壇徽章:
0
9 [報告]
發(fā)表于 2011-05-18 10:19 |只看該作者
"數(shù)據(jù)庫性能已經(jīng)不堪重負(fù)", 而且又要"準(zhǔn)實(shí)時", 那你只能再弄個強(qiáng)悍的機(jī)器來進(jìn)行文本處理了.
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP