亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 8497 | 回復: 12
打印 上一主題 下一主題

[文本處理] 提取文件兩行之間的內容放入到一共文件里面 [復制鏈接]

論壇徽章:
0
跳轉到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2013-08-29 10:39 |只看該作者 |倒序瀏覽
要處理的文本內容如下:
Recno:: 0
URL:: http://digitalcollections.anu.edu.au/
CrawlDatum::
Version: 7
Status: 67 (linked)

Recno:: 1
URL:: http://dspace.anu.edu.au/
CrawlDatum::
Version: 7
Status: 35 (fetch_redir_temp)
Fetch time: Mon Aug 12 18:19:23 CEST 2013


Recno:: 2
URL:: http://ebooks.adelaide.edu.au/
Content::
Version: -1
url: http://ebooks.adelaide.edu.au/
metadata: Date=Mon, 12 Aug 2013 08:18:15 GMT nutch.crawl.score=1.0 _fst_=33 nutch.segment.name=20130813001904 Accept-Ranges=bytes Connection=close Content-Type=text/html Server=Apache/2.0.52 (Red Hat)
Metadata:

Recno:: 4
URL:: http://ebooks.adelaide.edu.au/index.html
CrawlDatum::
Version: 7
Status: 67 (linked)
Fetch time: Mon Aug 12 18:19:33 CEST 2013
Modified time: Thu Jan 01 01:00:00 CET 1970
Retries since fetch: 0
Retry interval: 2592000 seconds (30 days)

處理需求:
希望把Recno::1到Recno::2之間的內容,放入1.txt文件里面;
    把Recno::2到Recno::3之間的內容,放入2.txt文件里面;
就是把相鄰2個Recno開頭的行之間的內容放入第一個Recno::后跟的數(shù)字命名的txt文件中。
以此類推,要處理的文件很大,數(shù)百萬行。
我的方法很土鱉,用while然后去判斷行里是否有Recno開頭。。。
希望有快速的處理速度
求各位大大支招。。。

論壇徽章:
9
2015亞冠之阿爾納斯爾
日期:2015-09-10 16:21:162015亞冠之塔什干火車頭
日期:2015-07-01 16:23:022015年亞洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技術圖書徽章
日期:2014-02-21 09:30:15酉雞
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
2 [報告]
發(fā)表于 2013-08-29 10:52 |只看該作者
awk -v RS='Recno::' '{file=$1;gsub($1,"");print >file".txt"}'  urfile

論壇徽章:
0
3 [報告]
發(fā)表于 2013-08-29 11:19 |只看該作者
回復 2# HH106


    多謝老兄~
    處理大文件 時候報錯

awk: program limit exceeded: maximum number of fields size=32767
        FILENAME="dump" FNR=640 NR=640

論壇徽章:
1
天蝎座
日期:2013-08-22 15:14:44
4 [報告]
發(fā)表于 2013-08-29 11:19 |只看該作者
本帖最后由 guogang225 于 2013-08-29 11:20 編輯

回復 1# go2cxg
  1. awk -vRS="Recno::" -vFS="\n" -vOFS="\n" 'NF>1{n=int($1);$1="";print $0>n".txt"}' urfile
復制代碼

論壇徽章:
0
5 [報告]
發(fā)表于 2013-08-29 11:37 |只看該作者
回復 4# guogang225


    拋出錯誤,awk: cannot open "1033.txt" for output (Too many open files)
    可能是因為打開了太多文件,沒有關閉。

論壇徽章:
1
射手座
日期:2014-03-10 14:24:52
6 [報告]
發(fā)表于 2013-08-29 11:48 |只看該作者
sed干這事是不是專業(yè)些。

論壇徽章:
1
天蝎座
日期:2013-08-22 15:14:44
7 [報告]
發(fā)表于 2013-08-29 11:49 |只看該作者
回復 5# go2cxg

Try this one
  1. awk -vRS="Recno::" -vFS="\n" -vOFS="\n" 'NF>1{n=int($1);$1="";print $0>n".txt";close(n".txt")}' urfile
復制代碼

論壇徽章:
6
摩羯座
日期:2013-08-24 10:43:10獅子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午馬
日期:2014-09-28 16:06:0015-16賽季CBA聯(lián)賽之八一
日期:2016-12-19 13:55:0515-16賽季CBA聯(lián)賽之天津
日期:2016-12-20 14:01:23
8 [報告]
發(fā)表于 2013-08-29 11:56 |只看該作者
  1. awk '/Recno/{file=$2;next}{if(file)print $0>file".txt"}' file
復制代碼

論壇徽章:
145
技術圖書徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11獅子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龍
日期:2014-01-08 15:26:12技術圖書徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [報告]
發(fā)表于 2013-08-29 12:00 |只看該作者
回復 5# go2cxg

modify from guogang225 with close function

and add other/debug information with yellow background color

# awk 'BEGIN{RS="Recno:: ";FS=OFS="\n"}NF>1{f=int($1)".txt";print RS$0 > f;close(f);print "output file: "f;c++}END{print "  Total files: "c}' Recno.log
output file: 0.txt
output file: 1.txt
output file: 2.txt
output file: 4.txt
  Total files: 4

   

論壇徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16賽季CBA聯(lián)賽之北京
日期:2016-07-06 15:42:0715-16賽季CBA聯(lián)賽之同曦
日期:2016-06-12 10:38:0915-16賽季CBA聯(lián)賽之佛山
日期:2016-05-27 11:54:56黃金圣斗士
日期:2015-12-02 11:44:35白銀圣斗士
日期:2015-11-25 14:32:43白銀圣斗士
日期:2015-11-23 12:53:352015亞冠之布里斯班獅吼
日期:2015-10-21 16:55:482015亞冠之首爾
日期:2015-09-01 16:46:052015亞冠之德黑蘭石油
日期:2015-08-31 11:39:192015亞冠之薩濟拖拉機
日期:2015-08-28 21:06:5315-16賽季CBA聯(lián)賽之廣東
日期:2016-07-12 14:58:53
10 [報告]
發(fā)表于 2013-08-29 12:07 |只看該作者
cao627 發(fā)表于 2013-08-29 11:56
  1. Recno:: 0
  2. URL:: http://digitalcollections.anu.edu.au/
  3. CrawlDatum::
  4. Version: 7
  5. Status: 67 (linked)
復制代碼
Recno:: 0 這段  
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP