亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 2821 | 回復(fù): 4
打印 上一主題 下一主題

awk查重不完美問題疑惑 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2007-12-05 17:05 |只看該作者 |倒序?yàn)g覽
寫了個awk查重復(fù)字段的腳本。目的是把兩個文件中共有的字段找出來輸出并且去除重復(fù)。代碼函數(shù)段如下:


find_same()
{
echo "start at `date | awk '{print $5}'`"
echo -n "now rebuilding input files..."
awk '{count[$1]++}END{for(number in count)print number","count[number] }' $file1 | awk -F, '{print $1 > "find-final1.txt"}'
awk '{count[$1]++}END{for(number in count)print number","count[number] }' $file2 | awk -F, '{print $1 > "find-final2.txt"}'
cat find-final1.txt >> find-final2.txt
echo -ne "ok! \n analyze files..."
awk '{count[$1]++}END{for(number in count)print number","count[number] }' find-final2.txt | awk -F, '$2 > 1 {print $1 > "find-same.txt"}'
echo -ne "ok! \n output files..."
sort find-same.txt > same_$file3
echo -e "ok! \n output file is same_$file3"
rm -f find-*.txt
echo "end at `date | awk '{print $5}'`"
read anything
......
}


但是如果文件1的最后一行剛好在文件2里有的話。輸出的結(jié)果卻沒有這一行,代碼實(shí)現(xiàn)肯定沒有問題,但是為什么遇到最后一行匹配時,這行就沒法輸出呢?實(shí)在不解。。

[ 本帖最后由 galford433 于 2007-12-5 17:07 編輯 ]

論壇徽章:
23
15-16賽季CBA聯(lián)賽之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午馬
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16賽季CBA聯(lián)賽之山東
日期:2017-12-21 16:39:1915-16賽季CBA聯(lián)賽之廣東
日期:2016-01-19 13:33:372015亞冠之山東魯能
日期:2015-10-13 09:39:062015亞冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [報(bào)告]
發(fā)表于 2007-12-05 17:18 |只看該作者
咋這么復(fù)雜?


  1. awk 'NR==FNR{a[$1]++}NR>FNR&&($1 in a)&&!b[$1]++{print $1}' $file1 $file2 > same_$file3
復(fù)制代碼

[ 本帖最后由 ly5066113 于 2007-12-5 17:23 編輯 ]

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2007-12-05 17:27 |只看該作者
awk '!a[$重復(fù)字段]++' file1 file2

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2007-12-05 17:38 |只看該作者
回樓上兩位。前面兩個awk是對源文件自身去重,可以忽略不計(jì)的。紅字那個就是不解的。
如果不用nr和fnr,僅針對紅字那段為什么會出現(xiàn)我說的問題。我關(guān)心的不是代碼,是我這樣用awk數(shù)組值大于1的算法找重復(fù)的為什么無法把文件1最后一行匹配條件的給t出來。。。。

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2007-12-06 11:00 |只看該作者
找到問題了。不是awk的原因。。。。。
文件是從windows下上傳的,文件末尾有個該死的^M。沒用vi看沒發(fā)現(xiàn)。導(dǎo)致awk檢索的時候認(rèn)為aaa!=aaa^M。徹底昏迷ing。。。。
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP