亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

Chinaunix

標(biāo)題: 正則 [打印本頁]

作者: nogroup    時間: 2009-04-14 10:55
標(biāo)題: 正則
如下文本:
http://item.taobao.com/auction/i ... 65f434bb73f9b.jhtml
http://home.sohu.com/jiaohu108/photo/group/119604/index/4/396
http://home.kaixin.com/?u=shangz ... n198717%26_sid%3D24
http://bbs.caca.com/jiaohu108/photo/group/119604/index/4/396
http://bbs.tianya.com/louhaixia8/photo/group/121844/index/7/179
http://blog.ifeng.com/article/2556862.html
http://blog.sina.com/zhenwani/photo/item/100111621.html
http://bbs.sina.com/abc/photo/item/100111621.html
http://taobao.com/auction/item_d ... 4668cc205d1bfcf.htm
http://item.taobao.com/auction/i ... 533c.jhtml?cm_cat=0
http://shop.taobao.com/auction/i ... 6e02.jhtml?cm_cat=0

用正則得到對應(yīng)的域名,及出現(xiàn)的次數(shù)
如下:
taobao.com  4
sohu.com 1
kaixin.com 1
caca.com 1
tianya.com 1
ifeng.com 1
sina.com 2
作者: net_robber    時間: 2009-04-14 11:01
會分類不會統(tǒng)計

問外殼他們吧
作者: liaosnet    時間: 2009-04-14 11:06
標(biāo)題: 回復(fù) #1 nogroup 的帖子
只針對給出的文本..

  1. awk -F'/' '{n=split($3,a,".");b[a[n-1]"."a[n]]++}END{for (i in b) print i,b[i]}'
復(fù)制代碼

作者: 我是DBA    時間: 2009-04-14 11:13
標(biāo)題: 回復(fù) #3 liaosnet 的帖子
如果有.com.cn這種域名就搞不定。哈
作者: nogroup    時間: 2009-04-14 11:14
標(biāo)題: 回復(fù) #3 liaosnet 的帖子
非常不錯。
如果能再改進(jìn)一點(diǎn),把xxx.com.cn這一類也能處理,就是完美了
作者: liaosnet    時間: 2009-04-14 11:19
標(biāo)題: 回復(fù) #5 nogroup 的帖子
加判斷... 本來這個就不是很通用的.還得考慮aa.cn這類的?

  1. awk -F'/' '{
  2.                   n=split($3,a,".");
  3.                   if ( a[n-1]"."a[n]=="com.cn"){
  4.                       b[a[n-2]"."a[n-1]"."a[n]]++
  5.                   }else{
  6.                       b[a[n-1]"."a[n]]++
  7.                   }
  8.                 }
  9.                 END{for (i in b) print i,b[i]}'
復(fù)制代碼

作者: nogroup    時間: 2009-04-14 11:19
這樣吧,我的文本內(nèi)容中不會出現(xiàn)xx.xx.com.cn這樣的域名,
只會有
xx.com
xx.org
xx.com.cn
xx.com
也即只會有頂級域名和一級域名,不會有二級域名。
如何處理呢?
作者: liaosnet    時間: 2009-04-14 11:23
標(biāo)題: 回復(fù) #4 我是DBA 的帖子
來個特例判斷唄~
作者: ywlscpl    時間: 2009-04-14 11:41
[root@Mylinux tmp]# awk -F '(http://)|/' 'gsub(/\./,"&",$2)==1{v=$2}gsub(/\./,"&",$2)==2{split($2,M,".");v=M[2]"."M[3]}{a[v]++}END{for (j in a) print j,a[j]}' file
sina.com 2
sohu.com 1
kaixin.com 1
taobao.com 4
tianya.com 1
caca.com 1
ifeng.com 1
作者: kwokcn    時間: 2009-04-14 12:07
sed的,不過統(tǒng)計出來的格式與LZ要求的略有出入。


  1. [root@bj_manager test]# sed -r 's/http:\/\/([^/]*\.)?([^/]*\.)(com|org)([^/]*)\/.*/\2\3\4/' test.txt | sort | uniq -c
  2.       1 caca.com
  3.       1 ifeng.com
  4.       1 kaixin.com
  5.       2 sina.com
  6.       1 sohu.com
  7.       4 taobao.com
  8.       1 tianya.com
  9. [root@bj_manager test]#
復(fù)制代碼

作者: justlooks    時間: 2009-04-14 12:26
grep -Po '(?<=\.)(.*?/)' file|sort|uniq -c




歡迎光臨 Chinaunix (http://72891.cn/) Powered by Discuz! X3.2