亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 1963 | 回復(fù): 6
打印 上一主題 下一主題

關(guān)于文件對比的效率問題 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2009-04-24 15:18 |只看該作者 |倒序瀏覽
RT,假設(shè)有兩個文件A和B,都有好幾千條數(shù)據(jù),且每條數(shù)據(jù)的長度是固定的N。
有一個模板tmplate,定義了每條數(shù)據(jù)的第幾個字段的起始字符位置以及長度,類似這種格式:
2   3   5
表示第2個字段是從第3個字符開始的5個字符。
在文件A和B中,第一個字段是關(guān)鍵字,假設(shè)A里面的第一個字段值為MF,那就需要到B中找到第一個字段為MF的記錄,然后根據(jù)模板對字段的定義依次對比該記錄的每個字段。

我之前的做法是先用讀取A里面的一條記錄grep找到B里面的記錄,然后先整行對比A和B里面的記錄,如果不同的話再按照template定義的逐字段對比。
代碼如下:
while read source_rec
do
     dest_rec=`grep ${source_rec:0:2} fileB`  
     if [ "$source_rec" != "$dest_rec" ]
     then
     i=1
     while read tmp
     do
     field_name[$i]=`echo $tmp|awk '{print $2}'`
     field_loc[$i]=`echo $tmp|awk '{print $3}'`
     start_p[$i]=`echo $tmp|awk '{print $4}'`
     field_len[$i]=`echo $tmp|awk '{print $5}'`
     source_rec_value="${source_rec((${start_p[$i]}-1)){field_len[$i]}}"
     dest_rec_value="${dest_rec((${start_p[$i]}-1)){field_len[$i]}}"  
        if [ "$source_rec_value" != "$dest_rec_value" ]
        then
        echo -e "Filename $filename:\t$rec_type record ${field_name[$i]} value for ric $ric_value differs. \
        source value is "$source_rec_value";\tdest value is "$dest_rec_value >>Log
        fi
     let i+=1
     done<template
     fi
done <fileA

不過發(fā)現(xiàn)這種方法在數(shù)據(jù)量大的時候效率顯得相當(dāng)?shù)拖拢恢涝鯓幽茏寣Ρ雀痈咝А?br /> awk里面可以用FIELDWIDTHS = "2 5 10 6 7 7 35" 這種方式把記錄行一次分割成獨立的字段,還沒去實現(xiàn),我想可能比之前的方法要好一些。
請高手指點。

論壇徽章:
0
2 [報告]
發(fā)表于 2009-04-24 15:41 |只看該作者
快來人啊,別沉了。

論壇徽章:
11
金牛座
日期:2015-03-19 16:56:22數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2016-08-02 06:20:00數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2016-04-24 06:20:00數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2016-04-13 06:20:00IT運維版塊每日發(fā)帖之星
日期:2016-04-13 06:20:00數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2016-02-03 06:20:00數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2015-08-06 06:20:00季節(jié)之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2016-08-18 06:20:00
3 [報告]
發(fā)表于 2009-04-24 15:50 |只看該作者
無數(shù)據(jù),無真像...

論壇徽章:
0
4 [報告]
發(fā)表于 2009-04-24 16:17 |只看該作者
沒人能給個建議嗎?

論壇徽章:
5
2015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亞洲杯之朝鮮
日期:2015-03-13 22:47:33IT運維版塊每日發(fā)帖之星
日期:2016-01-09 06:20:00IT運維版塊每周發(fā)帖之星
日期:2016-03-07 16:27:44
5 [報告]
發(fā)表于 2009-04-24 16:51 |只看該作者

回復(fù) #4 fttskyblue 的帖子

搞不懂LZ要干嗎?

舉個例子吧,ls已經(jīng)給建議了。

論壇徽章:
0
6 [報告]
發(fā)表于 2009-04-26 09:43 |只看該作者
a b 模板文件同時讀 邊讀邊處理

這樣效率比你的高很多

awk支持用getline < "file"讀取多個文件

論壇徽章:
0
7 [報告]
發(fā)表于 2009-04-26 09:54 |只看該作者
用純shell腳本處理,效率是很低的
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP