亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区
Chinaunix
標(biāo)題:
正則
[打印本頁]
作者:
nogroup
時間:
2009-04-14 10:55
標(biāo)題:
正則
如下文本:
http://item.taobao.com/auction/i ... 65f434bb73f9b.jhtml
http://home.sohu.com/jiaohu108/photo/group/119604/index/4/396
http://home.kaixin.com/?u=shangz ... n198717%26_sid%3D24
http://bbs.caca.com/jiaohu108/photo/group/119604/index/4/396
http://bbs.tianya.com/louhaixia8/photo/group/121844/index/7/179
http://blog.ifeng.com/article/2556862.html
http://blog.sina.com/zhenwani/photo/item/100111621.html
http://bbs.sina.com/abc/photo/item/100111621.html
http://taobao.com/auction/item_d ... 4668cc205d1bfcf.htm
http://item.taobao.com/auction/i ... 533c.jhtml?cm_cat=0
http://shop.taobao.com/auction/i ... 6e02.jhtml?cm_cat=0
用正則得到對應(yīng)的域名,及出現(xiàn)的次數(shù)
如下:
taobao.com 4
sohu.com 1
kaixin.com 1
caca.com 1
tianya.com 1
ifeng.com 1
sina.com 2
作者:
net_robber
時間:
2009-04-14 11:01
會分類不會統(tǒng)計
問外殼他們吧
作者:
liaosnet
時間:
2009-04-14 11:06
標(biāo)題:
回復(fù) #1 nogroup 的帖子
只針對給出的文本..
awk -F'/' '{n=split($3,a,".");b[a[n-1]"."a[n]]++}END{for (i in b) print i,b[i]}'
復(fù)制代碼
作者:
我是DBA
時間:
2009-04-14 11:13
標(biāo)題:
回復(fù) #3 liaosnet 的帖子
如果有.com.cn這種域名就搞不定。哈
作者:
nogroup
時間:
2009-04-14 11:14
標(biāo)題:
回復(fù) #3 liaosnet 的帖子
非常不錯。
如果能再改進(jìn)一點(diǎn),把xxx.com.cn這一類也能處理,就是完美了
作者:
liaosnet
時間:
2009-04-14 11:19
標(biāo)題:
回復(fù) #5 nogroup 的帖子
加判斷...
本來這個就不是很通用的.還得考慮aa.cn這類的?
awk -F'/' '{
n=split($3,a,".");
if ( a[n-1]"."a[n]=="com.cn"){
b[a[n-2]"."a[n-1]"."a[n]]++
}else{
b[a[n-1]"."a[n]]++
}
}
END{for (i in b) print i,b[i]}'
復(fù)制代碼
作者:
nogroup
時間:
2009-04-14 11:19
這樣吧,我的文本內(nèi)容中不會出現(xiàn)xx.xx.com.cn這樣的域名,
只會有
xx.com
xx.org
xx.com.cn
xx.com
也即只會有頂級域名和一級域名,不會有二級域名。
如何處理呢?
作者:
liaosnet
時間:
2009-04-14 11:23
標(biāo)題:
回復(fù) #4 我是DBA 的帖子
來個特例判斷唄~
作者:
ywlscpl
時間:
2009-04-14 11:41
[root@Mylinux tmp]# awk -F '(http://)|/' 'gsub(/\./,"&",$2)==1{v=$2}gsub(/\./,"&",$2)==2{split($2,M,".");v=M[2]"."M[3]}{a[v]++}END{for (j in a) print j,a[j]}' file
sina.com 2
sohu.com 1
kaixin.com 1
taobao.com 4
tianya.com 1
caca.com 1
ifeng.com 1
作者:
kwokcn
時間:
2009-04-14 12:07
sed的,不過統(tǒng)計出來的格式與LZ要求的略有出入。
[root@bj_manager test]# sed -r 's/http:\/\/([^/]*\.)?([^/]*\.)(com|org)([^/]*)\/.*/\2\3\4/' test.txt | sort | uniq -c
1 caca.com
1 ifeng.com
1 kaixin.com
2 sina.com
1 sohu.com
4 taobao.com
1 tianya.com
[root@bj_manager test]#
復(fù)制代碼
作者:
justlooks
時間:
2009-04-14 12:26
grep -Po '(?<=\.)(.*?/)' file|sort|uniq -c
歡迎光臨 Chinaunix (http://72891.cn/)
Powered by Discuz! X3.2