亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 4132 | 回復: 7
打印 上一主題 下一主題

[文本處理] 日志處理中的分隔符問題 [復制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2014-07-27 11:05 |只看該作者 |倒序瀏覽
要處理一個nginx的日志,想要提取出ip和agent,一條記錄如下

106.120.173.102 - - [27/Jul/2014:02:00:00 +0800] "GET /hengshui/famous-3060-105.html HTTP/1.1" 301 178 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

用cut或者awk的話,使用空格符作為分隔符,那么在最后的agent中,如果含有空格,那么就會被截斷,不會得到完整的agent的表示,比如上面的"Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)",這個就會被空格截斷為幾個,不能完整得到,所以想問問,有沒有辦法指定2種分隔符,碰到哪種分隔符,就以哪種分隔符為主?

論壇徽章:
32
處女座
日期:2013-11-20 23:41:20雙子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00處女座
日期:2014-07-22 17:30:47獅子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥豬
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58處女座
日期:2014-12-02 09:17:52程序設計版塊每日發(fā)帖之星
日期:2015-06-16 22:20:002015亞冠之塔什干火車頭
日期:2015-06-20 23:28:22
2 [報告]
發(fā)表于 2014-07-27 11:29 |只看該作者
本帖最后由 yestreenstars 于 2014-07-27 11:35 編輯

是這個意思嗎?
  1. $ awk -vFPAT='"[^"]+"|[^ ]+' '{print $1,$NF}' i
  2. 106.120.173.102 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
復制代碼
  1. $ perl -pe 's/(\S+).*("[^"]+")/$1 $2/' i
  2. 106.120.173.102 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
復制代碼
  1. $ sed -r 's/(\S+).*("[^"]+")/\1 \2/' i
  2. 106.120.173.102 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
復制代碼

論壇徽章:
0
3 [報告]
發(fā)表于 2014-07-27 11:34 |只看該作者
完全正解!又開眼界了,謝謝!回復 2# yestreenstars


   

論壇徽章:
0
4 [報告]
發(fā)表于 2014-07-27 11:41 |只看該作者
第一個看懂了,是FPAT的用法,第二個和第三個其實都是一個原理,利用了正則的貪婪特性,很巧妙地把最后一個雙引號的域提取出來了,思路很妙!
回復 2# yestreenstars


   

論壇徽章:
145
技術圖書徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11獅子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龍
日期:2014-01-08 15:26:12技術圖書徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [報告]
發(fā)表于 2014-07-27 15:13 |只看該作者
本帖最后由 jason680 于 2014-07-27 15:14 編輯

回復 1# lemoncoral


1. awk using FS(Field Sepator) variable
$ awk -F'- -|"' -vq='"' '{print $1,q$(NF-1)q}' FILE
106.120.173.102  "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

2. awk using match function
$ awk 'match($0,/^([^ ]+) .*("[^"]+")$/,a){print a[1],a[2]}' FILE
106.120.173.102 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

3. perl
$ perl -lane '{print "$1 $2" if m/^([^ ]+) .*("[^"]+")$/}' FILE
106.120.173.102 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

論壇徽章:
0
6 [報告]
發(fā)表于 2014-07-27 18:01 |只看該作者
awk的另兩種思路,更為普適,感謝!回復 5# jason680


   

論壇徽章:
9
寅虎
日期:2013-12-02 12:49:22巨蟹座
日期:2014-07-18 18:13:34卯兔
日期:2014-07-25 14:43:08子鼠
日期:2014-07-26 10:10:51酉雞
日期:2014-07-31 15:09:562015亞冠之本尤德科
日期:2015-05-19 09:27:382015亞冠之卡爾希納薩夫
日期:2015-06-20 10:30:212015亞冠之阿爾納斯爾
日期:2015-07-01 20:46:062015亞冠之城南
日期:2015-07-15 21:12:00
7 [報告]
發(fā)表于 2014-07-27 19:15 |只看該作者
  1. test@redmine:~/test2$ cat c.txt
  2. 106.120.173.102 - - [27/Jul/2014:02:00:00 +0800] "GET /hengshui/famous-3060-105.html HTTP/1.1" 301 178 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
  3. test@redmine:~/test2$ awk 'BEGIN{FS="-|(\" \")"}{printf "%s \"%s\n",$1,$NF}' c.txt
  4. 106.120.173.102  "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
復制代碼

論壇徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亞冠之浦和紅鉆
日期:2015-06-29 15:30:48
8 [報告]
發(fā)表于 2014-07-28 00:03 |只看該作者
  1. awk -F \" '{split($1,a," ");print a[1]" \""$(--NF)"\""}'
復制代碼
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP