平臺論壇博客文庫

› 論壇 › 程序設(shè)計(jì) › Shell › awk查重不完美問題疑惑

awk查重不完美問題疑惑 [復(fù)制鏈接]

galford433

家境小康

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2007-12-05 17:05 |只看該作者 |倒序?yàn)g覽

寫了個awk查重復(fù)字段的腳本。目的是把兩個文件中共有的字段找出來輸出并且去除重復(fù)。代碼函數(shù)段如下：

find_same()
{
echo "start at `date | awk '{print $5}'`"
echo -n "now rebuilding input files..."
awk '{count[$1]++}END{for(number in count)print number","count[number] }' $file1 | awk -F, '{print $1 > "find-final1.txt"}'
awk '{count[$1]++}END{for(number in count)print number","count[number] }' $file2 | awk -F, '{print $1 > "find-final2.txt"}'
cat find-final1.txt >> find-final2.txt
echo -ne "ok! \n analyze files..."
awk '{count[$1]++}END{for(number in count)print number","count[number] }' find-final2.txt | awk -F, '$2 > 1 {print $1 > "find-same.txt"}'
echo -ne "ok! \n output files..."
sort find-same.txt > same_$file3
echo -e "ok! \n output file is same_$file3"
rm -f find-*.txt
echo "end at `date | awk '{print $5}'`"
read anything
......
}

但是如果文件1的最后一行剛好在文件2里有的話。輸出的結(jié)果卻沒有這一行，代碼實(shí)現(xiàn)肯定沒有問題，但是為什么遇到最后一行匹配時，這行就沒法輸出呢？實(shí)在不解。。

[ 本帖最后由 galford433 于 2007-12-5 17:07 編輯 ]

文庫|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級|附下載

ly5066113

巨富豪門

論壇徽章:: 23

15-16賽季CBA聯(lián)賽之吉林
日期:2017-12-21 16:39:27

15-16賽季CBA聯(lián)賽之山東
日期:2017-12-21 16:39:19

15-16賽季CBA聯(lián)賽之廣東
日期:2016-01-19 13:33:37

2樓 [報(bào)告]

發(fā)表于 2007-12-05 17:18 |只看該作者

咋這么復(fù)雜？

awk 'NR==FNR{a[$1]++}NR>FNR&&($1 in a)&&!b[$1]++{print $1}' $file1 $file2 > same_$file3

復(fù)制代碼

[ 本帖最后由 ly5066113 于 2007-12-5 17:23 編輯 ]

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

nuclearxin

富足長樂

論壇徽章:: 0

3樓 [報(bào)告]

發(fā)表于 2007-12-05 17:27 |只看該作者

awk '!a[$重復(fù)字段]++' file1 file2

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

galford433

家境小康

論壇徽章:: 0

4樓 [報(bào)告]

發(fā)表于 2007-12-05 17:38 |只看該作者

回樓上兩位。前面兩個awk是對源文件自身去重，可以忽略不計(jì)的。紅字那個就是不解的。
如果不用nr和fnr，僅針對紅字那段為什么會出現(xiàn)我說的問題。我關(guān)心的不是代碼，是我這樣用awk數(shù)組值大于1的算法找重復(fù)的為什么無法把文件1最后一行匹配條件的給t出來。。。。

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

galford433

家境小康

論壇徽章:: 0

5樓 [報(bào)告]

發(fā)表于 2007-12-06 11:00 |只看該作者

找到問題了。不是awk的原因。。。。。
文件是從windows下上傳的，文件末尾有個該死的^M。沒用vi看沒發(fā)現(xiàn)。導(dǎo)致awk檢索的時候認(rèn)為aaa！=aaa^M。徹底昏迷ing。。。。

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

返回列表

Chinaunix › 論壇 › 程序設(shè)計(jì) › Shell › awk查重不完美問題疑惑

積分 0, 距離下一級還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

awk查重不完美問題疑惑 [復(fù)制鏈接]