杏田冲梨,亚洲av白丝在线播放,小荡货奶真大水真多紧视频

fikong2005

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報告]

發(fā)表于 2011-05-17 10:24 |只看該作者 |倒序?yàn)g覽

本帖最后由 fikong2005 于 2011-05-17 16:41 編輯

目前需要準(zhǔn)實(shí)時的對文件進(jìn)行處理，然后入庫，因?yàn)閿?shù)據(jù)庫性能已經(jīng)不堪重負(fù)，因此在入庫前對數(shù)據(jù)進(jìn)行文件級別的過濾。
整個控制流程采用perl，但是對文件進(jìn)行過濾是最耗時的工作，因此想問一下大蝦門，采用shell，sed，awk和perl哪種對文本處理的性能會強(qiáng)悍一點(diǎn)。
主要的過濾功能如下：
A文件是詳單(大概2G左右)，B文件是維度(幾十M)，A文件根據(jù)B文件里面不存在的維度進(jìn)行過濾。
如：
A文件:
A,DFSFD,FWFDG,DFSFDS
B,FDSFD,FSDFDS,FDSFER
C,FDSDRR,FDSDRG,DFDW
D,DRFSDR,FWRG,FDWRRD
B文件：
A
B
則過濾后，僅剩下：
A,DFSFD,FWFDG,DFSFDS
B,FDSFD,FSDFDS,FDSFER
請?zhí)峁┮幌滦阅茏顑?yōu)的核心代碼，謝謝��；)

文庫|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級|附下載

zhlong8

版主

論壇徽章:: 46

15-16賽季CBA聯(lián)賽之四川
日期:2018-03-27 11:59:13

2樓 [報告]

發(fā)表于 2011-05-17 11:16 |只看該作者

性能估計(jì)差不多，都是最簡單的 RE 匹配

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

iamlimeng

富足長樂

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2011-05-17 11:23 |只看該作者

都不是底層的需求，我也認(rèn)為性能會差不多，重要的是算法

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

fikong2005

白手起家

論壇徽章:: 0

4樓 [報告]

發(fā)表于 2011-05-17 12:28 |只看該作者

謝謝樓上2位，借問可否有比較佳的算法，呵呵。

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

zhlong8

版主

論壇徽章:: 46

5樓 [報告]

發(fā)表于 2011-05-17 12:39 |只看該作者

你連個能跑的都還沒寫……
把 b 構(gòu)建成 /^(?:A|B),/ 這樣的 RE 和 A匹配下來過濾。如果真的 b 有那么簡單你還可以用 c 來寫個函數(shù)來擴(kuò)展 Perl 怎么搞都行，但是最終你還是要測試才能知道哪個最優(yōu)

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

fikong2005

白手起家

論壇徽章:: 0

6樓 [報告]

發(fā)表于 2011-05-17 15:11 |只看該作者

網(wǎng)上恰好有一段相關(guān)代碼，如下:
#!/usr/bin/perl -w
exit if (1 > $#ARGV);

my %map_orig;

my $file_orig = shift @ARGV;
open FH, "<$file_orig" or die "can't open file: $file_orig";
while (<FH>) {
      chomp;
      #$map_orig{$_} = 1;
      my ($filed) = split(" ");
      $map_orig{$filed} = 1;
}
close (FH);

my $file_diff = shift @ARGV;
open FH, "<$file_diff" or die "can't open file: $file_diff";
while (<FH>) {
      chomp;
      my ($filed) = split(" ");
      print "$_\n" if (!defined$map_orig{$filed});
}
close (FH)

不知道效率如何，請賜教，謝謝！