无码孕妇孕交在线观看,少妇乳大丰满在线播放,无码精品a∨在线观看十八禁

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2012-11-04 19:40 |只看該作者 |倒序?yàn)g覽

本帖最后由 PinkOrient 于 2012-11-04 20:41 編輯

說(shuō)下背景，本人是5+年的Perl老用戶，最近對(duì)Ruby比較長(zhǎng)草，順便也了解了一下Python.
最近遇到一個(gè)需求是分析大量實(shí)時(shí)生成的csv格式話單，對(duì)性能有一定對(duì)要求。這種情況下包含了大量的讀入字符串并根據(jù)分割符做split的操作，做個(gè)對(duì)比看看3種語(yǔ)言對(duì)處理速度如何。

步驟1：寫個(gè)perl腳本產(chǎn)生50000行每行150個(gè)field對(duì)csv文件 input_file.txt

pink@pink-desktop:~/_perform$ perl gen_line.pl > input_file.txt
pink@pink-desktop:~/_perform$ cat gen_line.pl
#!/usr/bin/perl
#
$str="string";
for($i=1;$i<150;$i++)
{
$st=sprintf("string%d", $i);
$str=$str.",$st";
}
for($i=0;$i<50000;$i++)
{
print "$str\n";
}

復(fù)制代碼

步驟2：perl腳本上場(chǎng)，逐行讀入，split成數(shù)組

$ cat split.pl
#!/usr/bin/perl
open(FF,"input_file.txt");
while(<FF>)
{
@l=split/,/;
#print $l[2],"\n";
}
close(FF);

復(fù)制代碼

time一下看成績(jī)：

pink@pink-desktop:~/_perform$ time ./split.pl
real 0m2.285s
user 0m2.260s
sys 0m0.024s

復(fù)制代碼

步驟3： ruby腳本上場(chǎng)，做一樣的操作

#!/usr/bin/ruby
a=Array.new
f=File.open("input_file.txt","r")
f.each_line do |l|
a=l.split(/,/)
#puts a[2]
end
f.close()

復(fù)制代碼

成績(jī)不是很理想：

pink@pink-desktop:~/_perform$ time ./split.rb
real 0m3.426s
user 0m3.408s
sys 0m0.008s

復(fù)制代碼

步驟4：python腳本上場(chǎng)，做一樣對(duì)操作

pink@pink-desktop:~/_perform$ cat split.py
#!/usr/bin/python
fobj=open("input_file.txt","r")
for eachLine in fobj:
l = eachLine.split(',')
#print l[2]
fobj.close()

復(fù)制代碼

成績(jī)讓我很意外�。�！

pink@pink-desktop:~/_perform$ time ./split.py
real 0m0.480s
user 0m0.444s
sys 0m0.032s

復(fù)制代碼

步驟5：用Ruby 1.9的CSV庫(kù)，這個(gè)據(jù)說(shuō)已經(jīng)是FasterCSV了

pink@pink-desktop:~/_perform$ cat split_csv.rb
#!/usr/bin/ruby
require "csv"
CSV.foreach("input_file.txt") do |row|
#puts row[2]
end

復(fù)制代碼

成績(jī)相當(dāng)對(duì)沒(méi)法看啊啊啊啊啊....

pink@pink-desktop:~/_perform$ time ./split_csv.rb
real 0m9.381s
user 0m9.337s
sys 0m0.024s

復(fù)制代碼

以Perl作為基準(zhǔn)來(lái)比較

Language	real	percent
Perl	2.285	100%
Ruby	3.426	149.9%
Ruby#CSV	9.381	410.5%
Python	0.480	21%

為什么Python會(huì)快這么多？求解釋

文庫(kù)|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語(yǔ)言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

mcshell

富足長(zhǎng)樂(lè)

論壇徽章:: 3

2樓 [報(bào)告]

發(fā)表于 2012-11-04 20:00 |只看該作者

本帖最后由 mcshell 于 2012-11-04 20:01 編輯

我來(lái)解釋下。。不是split速度慢。。
我舉個(gè)別人測(cè)過(guò)的例子：

一個(gè)文件，每行都有18項(xiàng)，各項(xiàng)之間用\t分割，使用時(shí)用到了第6項(xiàng)
1：my @array = split("\t",$_); my $var = $array[6]; 測(cè)試文件平均用時(shí)8.2s
2. my($var) = (split("\t",$_))[6]; 測(cè)試平均用時(shí)5.1s
3. my(undef,undef,undef,undef,undef,undef,$var) = split("\t",$_); 平均用時(shí)3.53s
4. my(undef,undef,undef,undef,undef,undef,$var) = split("\t",$_,7);平均用時(shí)3.52s
5. my $var = (split("\t",$_,7))[6]; 平均用時(shí)3.53s

復(fù)制代碼

而你用了效率最低的

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫(kù)RadonDB知多少？

PinkOrient

白手起家

論壇徽章:: 0

3樓 [報(bào)告]

發(fā)表于 2012-11-04 20:21 |只看該作者

本帖最后由 PinkOrient 于 2012-11-04 20:26 編輯

回復(fù) 2# mcshell

從Perl內(nèi)部的縱向比較來(lái)看，我完全理解你的代碼所產(chǎn)生的效率差異的原因，我的代碼是全部field都保存到大數(shù)組導(dǎo)致的效率不高。
不過(guò)從橫向比較來(lái)說(shuō)，這個(gè)操作其他幾個(gè)語(yǔ)言也一樣做了，我只是想不通Python用了什么辦法讓耗時(shí)變得這么突出的。