亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
12下一頁(yè)
最近訪問(wèn)板塊 發(fā)新帖
查看: 5288 | 回復(fù): 11
打印 上一主題 下一主題

2G 文件找出出現(xiàn)次數(shù)最多的前10個(gè) [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2010-06-15 00:01 |只看該作者 |倒序?yàn)g覽
本帖最后由 qqjue 于 2010-06-15 00:04 編輯

上次發(fā)貼只是帶著對(duì)bash有疑惑有"不滿".解決不了我想要解決的問(wèn)題.所以總有點(diǎn)抵觸,為此不想在BASH上下功夫,看了幾天perl,最后覺(jué)得這樣有點(diǎn)偏了,我是學(xué)linux的.不是學(xué)編程的.雖然學(xué)了perl會(huì)對(duì)日常維護(hù)有幫助,但就整個(gè)shell,我們也只學(xué)了5天而已,這不是重點(diǎn),只是基礎(chǔ)的一小部分.我們學(xué)習(xí)的進(jìn)度很快,常用命令,shell,dhcp,httpd,namd,samba,vsftpd,troubleshooting,U盤(pán)LINUX,無(wú)人值守安裝,無(wú)盤(pán)linux,智能DNS....今天放假,沒(méi)去上課,有時(shí)間剛好解決了以前一直困繞著我的一個(gè)問(wèn)題. 就是一個(gè)2G的文件,找出里面出現(xiàn)次數(shù)最多的前10個(gè)單詞.
  如果是找英文單詞, 先用
  1. sed -i 's/[^a-Z]/ /g' filename
復(fù)制代碼
如果處理的中文 先用
  1. export LANG=zh_CN.UTF8 sed -i 's/./& /g' filename
復(fù)制代碼
然后用awk 處理 代碼如下
  1. BEGIN{
  2. top=15
  3. }

  4. { for (i=1;i<=NF;i++) statistic[$i]++}
  5. END{
  6. for (i=1;i<=top;i++) {max[i]=0;words[i]=""}
  7. for (word in statistic)
  8.         {
  9.         for (i=1;i<=top;i++)
  10.         { if (statistic[word]>max[i])
  11.                 {
  12.                   for(j=top;j>i;j--)
  13.                      {max[j]=max[j-1];
  14.                       words[j]=words[j-1];
  15.                       }
  16.                    max[i]=statistic[word];
  17.                    words[i]=word;
  18.                    break
  19.                   }
  20.         }
  21.         }
  22. for(i=1;i<=top;i++) print i"---->"words[i]":"max[i]
  23. }
復(fù)制代碼
處理 250M文件 用時(shí)20秒. 2G的估計(jì)5分鐘左右就能搞定.shell 只是linux中的一部分,雖然它很重要,但也沒(méi)必要在這個(gè)上面浪費(fèi)太多精力.還有很多東西可以去鉆研.高級(jí)路由,SQL,系統(tǒng)調(diào)優(yōu),最后的難點(diǎn)是集群!!

評(píng)分

參與人數(shù) 1可用積分 -1 收起 理由
expert1 -1

查看全部評(píng)分

論壇徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年紀(jì)念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役紀(jì)念章
日期:2022-04-24 14:33:24
2 [報(bào)告]
發(fā)表于 2010-06-15 00:06 |只看該作者
我懷疑5分鐘左右搞不定2G的數(shù)據(jù),能否勞駕樓主測(cè)試一下?

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2010-06-20 09:20 |只看該作者
回復(fù) 1# qqjue


    這個(gè)我記得以前有本書(shū)里介紹過(guò)~忘了怎么寫(xiě)了,不過(guò)效率不錯(cuò)~
LZ一看就是想全方面發(fā)展的~加油吧

論壇徽章:
16
IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-08-24 06:20:00綜合交流區(qū)版塊每日發(fā)帖之星
日期:2015-10-14 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-25 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-11-06 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-04-15 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-05-21 06:20:00綜合交流區(qū)版塊每日發(fā)帖之星
日期:2016-08-16 06:20:002015七夕節(jié)徽章
日期:2015-08-21 11:06:17IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-08-14 06:20:00
4 [報(bào)告]
發(fā)表于 2010-06-20 09:27 |只看該作者

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2010-06-21 11:21 |只看該作者
上次發(fā)貼只是帶著對(duì)bash有疑惑有"不滿".解決不了我想要解決的問(wèn)題.所以總有點(diǎn)抵觸,為此不想在BASH上下功夫, ...
qqjue 發(fā)表于 2010-06-15 00:01

樓主自信滿滿那
用的了這么復(fù)雜么

論壇徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年紀(jì)念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役紀(jì)念章
日期:2022-04-24 14:33:24
6 [報(bào)告]
發(fā)表于 2010-06-21 11:45 |只看該作者
回復(fù) 5# xuledw


你給個(gè)簡(jiǎn)單的讓大家學(xué)一下吧^_^

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2010-06-21 12:16 |只看該作者
討論兩個(gè)問(wèn)題:
1、中文單詞的問(wèn)題,“我愛(ài)吃蘋(píng)果皮”,這一句是6個(gè)單詞,還是5個(gè)單詞,還是4個(gè)?
2、單詞分行怎么判斷?
  1. How ol
  2. d are you
復(fù)制代碼
書(shū)寫(xiě)不規(guī)范?old后無(wú)空格
  1. How old
  2. are you
復(fù)制代碼

論壇徽章:
1
2015年辭舊歲徽章
日期:2015-03-03 16:54:15
8 [報(bào)告]
發(fā)表于 2010-06-21 12:22 |只看該作者
丑陋的 awk 腳本,
如果換做是 Perl,直接就有現(xiàn)成的了吧。
http://search.cpan.org/~gavinc/List-MRU-0.04/MRU.pm

my $mru = new List::MRU( max => 20 );
foreach my $word ( ...... ){
    $mru->add( $word );
}

foreach my $item ( $mru->list ) {
    print "$item\n";
}

論壇徽章:
1
2015年辭舊歲徽章
日期:2015-03-03 16:54:15
9 [報(bào)告]
發(fā)表于 2010-06-21 12:26 |只看該作者
我是學(xué)linux的.不是學(xué)編程的

論壇徽章:
0
10 [報(bào)告]
發(fā)表于 2010-06-21 14:07 |只看該作者
誰(shuí)說(shuō)最難的是集群?LZ學(xué)了就知道了。。。。。。
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP