无码精品久久一区二区三区,亚洲av日韩av激情亚洲

論壇徽章:: 1

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2017-10-19 18:06 |只看該作者 |倒序?yàn)g覽

CUer，大家好，
我現(xiàn)在遇到一個(gè)問題，就是awk處理3個(gè)G的文件，非常的慢，等很長時(shí)間也沒有結(jié)果。機(jī)器配置挺高的。
我的例子文件只有10000行，awk很快就能檢索出我的需要的數(shù)據(jù)。
但是我們生產(chǎn)環(huán)境的mail log都是幾千萬行級(jí)別的，我是每分鐘需要檢索數(shù)據(jù)來自于上次行號(hào)到這次末行的記錄。

請(qǐng)大家?guī)臀覂?yōu)化一下awk,如果能夠?qū)崿F(xiàn)單行perl也行，我可以嵌套到shell里面。

awk 'BEGIN {sent=0;reject=0} {
               if (NR>'"$_last_line"' && NR<='"$_current_line"' && $0 ~ /to=.*status=sent/){sent++}
               else if ($0 ~ /postfix.*reject:/){reject++}
               };
               END {printf("Sent Messages: %.1f\n" "Reject Messages: %.1f\n",sent/60,reject/60) }' /var/log/maillog

文庫|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

wh7211

版主

論壇徽章:: 25

程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-05-03 06:20:00

15-16賽季CBA聯(lián)賽之八一
日期:2018-07-05 10:34:09

15-16賽季CBA聯(lián)賽之佛山
日期:2018-08-03 13:19:33

15-16賽季CBA聯(lián)賽之山西
日期:2018-08-07 19:46:23

15-16賽季CBA聯(lián)賽之廣夏
日期:2018-08-08 19:31:50

15-16賽季CBA聯(lián)賽之青島
日期:2018-11-26 15:21:50

15-16賽季CBA聯(lián)賽之上海
日期:2018-12-11 09:45:32

15-16賽季CBA聯(lián)賽之深圳
日期:2020-04-19 21:40:19

15-16賽季CBA聯(lián)賽之八一
日期:2018-07-03 16:56:46

2樓 [報(bào)告]

發(fā)表于 2017-10-19 19:13 |只看該作者

awk沒有多少優(yōu)化空間，剛才用你的代碼測試了一個(gè)10M大小、10萬行記錄的maillog只需要1秒，建議你分割一下maillog然后再運(yùn)行代碼。

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

chengchow

富足長樂

論壇徽章:: 24

15-16賽季CBA聯(lián)賽之北控
日期:2018-05-14 11:05:00

15-16賽季CBA聯(lián)賽之江蘇
日期:2017-02-27 18:11:07

15-16賽季CBA聯(lián)賽之上海
日期:2018-08-15 09:48:54

15-16賽季CBA聯(lián)賽之佛山
日期:2018-07-20 17:14:23

15-16賽季CBA聯(lián)賽之佛山
日期:2019-09-10 18:08:46

15-16賽季CBA聯(lián)賽之山西
日期:2020-03-26 09:40:51

15-16賽季CBA聯(lián)賽之佛山
日期:2020-05-08 09:03:54

3樓 [報(bào)告]

發(fā)表于 2017-10-20 11:06 |只看該作者

本帖最后由 chengchow 于 2017-10-20 11:26 編輯

這個(gè)用tail去做，awk/sed/grep都是將文件全文讀取到內(nèi)存再處理，處理大文件效率非常低下，給你個(gè)我這邊處理日志的腳本，自己去看
思路是，想通過tail從后往前，每次讀取1000行，直到滿足自己要求為止，目前監(jiān)控最后2分鐘日志，最多的一個(gè)項(xiàng)目每次讀取大約50000多行，全文不低于2000W行，3G+,JAVA日志
最后對(duì)已經(jīng)讀取的日志做處理，目前用于生產(chǎn)，處理每天幾個(gè)G日志關(guān)鍵詞過濾，基本上抓取下2-3秒，全文抓取20秒以上

#!/usr/bin/env python
#coding:utf-8
"""
log_path: 日志相對(duì)路徑，取gluster[*]之后路徑
key_value: 日志中出現(xiàn)的關(guān)鍵詞
point_of_time: 日志時(shí)間點(diǎn)，單位(minutes)
how_many_times: 關(guān)鍵詞出現(xiàn)次數(shù)
"""
import os
import sys
import time
#import re
## 規(guī)范參數(shù)數(shù)量
if len(sys.argv) != 5 :
print "\nUsage: " + __file__ + " %log_path% %key_value% %point_of_time% %how_many_times%"
print __doc__
sys.exit()
## 定義參數(shù)
LogHome=['/data/logs/gluster1','/data/logs/gluster2','/data/logs/gluster3'] ## 集群路徑，列表模式
ThorldCount=0 ## 關(guān)鍵詞出現(xiàn)次數(shù)初始值
RowCount=1000 ## 每次過濾日志行數(shù)
RowNum=200 ## 總過濾次數(shù)
LogList=[] ## 設(shè)置一個(gè)空列表給日志路徑
## 讀取帶入?yún)?shù)
LogFile=sys.argv[1]
KeyWord=sys.argv[2]
DiffMin=sys.argv[3]
KeyWordCountThorld=sys.argv[4]
## 連接日志路徑
for i in LogHome :
if os.path.isfile(i + '/' + LogFile) :
LogList.append(i + '/' + LogFile)
if len(LogList)==0 :
print "NULL"
sys.exit(2)
## 輪詢處理日志列表
for log in LogList :
NowTimeStamp=int(time.time())
OldTimeStamp=int(time.time())-int(DiffMin)*60
NowTime=time.strftime('%Y-%m-%d %H:%M',time.localtime(NowTimeStamp))
OldTime=time.strftime('%Y-%m-%d %H:%M',time.localtime(OldTimeStamp))
## 以RowCount為單位找出需求時(shí)間內(nèi)最短日志
for num in range(1,RowNum+1) :
HeadTime=os.popen('tail -' + str(RowCount*num) + ' ' + log + ' | awk -F, \'NR==1{print $1}\'').read().strip('\r\n')
try:
HeadTimeStamp=int(time.mktime(time.strptime(str(HeadTime),'%Y-%m-%d %H:%M:%S')))
except:
continue
if HeadTimeStamp <= OldTimeStamp :
break
elif num==RowNum :
break
## 找出需求時(shí)間內(nèi)最早日志時(shí)間
for i in range(1,int(DiffMin)+1) :
ReCode=os.system('tail -' + str(RowCount*num) + ' ' + log + ' | grep -P \'' + OldTime + '\' > /dev/null 2>&1')
if ReCode<>0 :
OldTimeStamp+=i*60
OldTime=time.strftime('%Y-%m-%d %H:%M',time.localtime(OldTimeStamp))
else :
OldTimeStamp=OldTimeStamp
OldTime=time.strftime('%Y-%m-%d %H:%M',time.localtime(OldTimeStamp))
break
## 獲取日志中關(guān)鍵詞出現(xiàn)次數(shù)并自加到ThorldCount
ThorldCount+=int(os.popen('tail -' + str(RowCount*num) + ' ' + log + ' | sed -n "/^' + OldTime + '/,/^' + NowTime + '/p" | grep "' + KeyWord + '" | wc -l').read().strip('\r\n'))
## 規(guī)范輸出
if ThorldCount<=int(KeyWordCountThorld) :
print 'OK --- 關(guān)鍵詞: ' + KeyWord + '; 觸發(fā): ' + str(ThorldCount) + " (次); 讀取日志: " + str(RowCount) + '*' + str(num) + ' (行); 開始時(shí)間: ' + str(OldTime) + '; 結(jié)束時(shí)間: ' + str(NowTime)
sys.exit(0)
else :
print 'WARNING --- 關(guān)鍵詞: ' + KeyWord + '; 觸發(fā): ' + str(ThorldCount) + " (次); 讀取日志: " + str(RowCount) + '*' + str(num) + ' (行); 開始時(shí)間: ' + str(OldTime) + '; 結(jié)束時(shí)間: ' + str(NowTime)
sys.exit(2)

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

jason680

富可敵國

論壇徽章:: 145

4樓 [報(bào)告]

發(fā)表于 2017-10-20 11:09 |只看該作者

回復(fù) 1# guobaofu

1. awk 無法解決你的問題
沒有 file seek function

2. 有file seek function 功能可以
C/C++, Perl, Python,Java,...

3. 其他方法
數(shù)據(jù)庫,分割大文件,...

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

wh7211

版主

論壇徽章:: 25

5樓 [報(bào)告]

發(fā)表于 2017-10-20 11:45 |只看該作者

回復(fù) 1# guobaofu

用tail把maillog中的從第${_last_line}行到最后一行的記錄重定向到新文件1.tmp，再用awk處理1.tmp：

tail -n +${_last_line} /var/log/maillog > 1.tmp
awk 'BEGIN{sent=0;reject=0}/to=.*status=sent/{sent++}/postfix.*reject:/{reject++};END{printf("Sent Messages: %.1f\nReject Messages: %.1f\n",sent/60,reject/60)}' 1.tmp

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

本友會(huì)機(jī)友會(huì)攝友會(huì) 本友會(huì)機(jī)友會(huì)攝友會(huì) 當(dāng)前離線禁止發(fā)言好友博客消息論壇徽章: 0	6樓 [報(bào)告] 發(fā)表于 2017-10-20 12:31 \|只看該作者提示: 作者被禁止或刪除內(nèi)容自動(dòng)屏蔽
	實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門\| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 \| ChinaUnix打賞功能已上線！ \| 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

guobaofu

家境小康

論壇徽章:: 1

7樓 [報(bào)告]

發(fā)表于 2017-10-20 15:34 |只看該作者

謝謝各位大神的幫助～～

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

[文本處理] 急等awk處理maillog大文件 [復(fù)制鏈接]


平臺(tái) 論壇博客文庫