亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 1916 | 回復(fù): 3
打印 上一主題 下一主題

[文本處理] 分割文檔并添加指定開頭和結(jié)尾 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2014-11-28 14:28 |只看該作者 |倒序?yàn)g覽
一個(gè)文件有100萬這樣的鏈接:


想按1000行分割并添加有規(guī)律的開頭組成一個(gè)html文檔。


開頭主要是最好可以title變下,比如:網(wǎng)站地圖1、網(wǎng)站地圖2、網(wǎng)站地圖3……

我對shell只會(huì)一些基本的東西,這次真的難倒了,感謝大家。

論壇徽章:
145
技術(shù)圖書徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11獅子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龍
日期:2014-01-08 15:26:12技術(shù)圖書徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [報(bào)告]
發(fā)表于 2014-11-28 15:10 |只看該作者
本帖最后由 jason680 于 2014-11-28 15:11 編輯

回復(fù) 1# boris369

Here is an example for you
Note: modify the "..." by youself

$ cat html
<li>...1</li>
<li>...2</li>
<li>...3</li>
<li>...4</li>
<li>...5</li>
<li>...6</li>
<li>...7</li>

$ ./sp1000.sh
html: 網(wǎng)站地圖1.html
html: 網(wǎng)站地圖2.html

$ grep "." 網(wǎng)站地圖*.html
網(wǎng)站地圖1.html:<html ...>
網(wǎng)站地圖1.html:<head>
網(wǎng)站地圖1.html:<title>網(wǎng)站地圖1</title>
網(wǎng)站地圖1.html:</head>
網(wǎng)站地圖1.html:<body>
網(wǎng)站地圖1.html:...
網(wǎng)站地圖1.html:<li>...1</li>
網(wǎng)站地圖1.html:<li>...2</li>
網(wǎng)站地圖1.html:<li>...3</li>
網(wǎng)站地圖1.html:<li>...4</li>
網(wǎng)站地圖1.html:...
網(wǎng)站地圖1.html:</html>
網(wǎng)站地圖2.html:<html ...>
網(wǎng)站地圖2.html:<head>
網(wǎng)站地圖2.html:<title>網(wǎng)站地圖2</title>
網(wǎng)站地圖2.html:</head>
網(wǎng)站地圖2.html:<body>
網(wǎng)站地圖2.html:...
網(wǎng)站地圖2.html:<li>...5</li>
網(wǎng)站地圖2.html:<li>...6</li>
網(wǎng)站地圖2.html:<li>...7</li>
網(wǎng)站地圖2.html:...
網(wǎng)站地圖2.html:</html>

$ cat sp1000.sh

head="<html ...>\n<head>"
body="<body>\n..."
tail="...\n</html>"

awk -vs=4 -vhead="$head" -vbody="$body" -vtail="$tail" '
BEGIN{ OFS="\n" }
function p(n){
  file = "網(wǎng)站地圖" int(NR/s+n)
  title= "<title>" file "</title>\n</head>"
  print head, title, body, t, tail > file".html"
  print "html: " file".html"
  t=""
}
       { t=t$0"\n" }
NR%s==0{ p(0) }
END    { if(t!="")p(1) }
' html

   

論壇徽章:
46
2015小元宵徽章
日期:2015-03-06 15:58:18羊年新春福章
日期:2015-04-14 10:37:422015年亞洲杯之阿曼
日期:2015-04-14 10:41:50NBA常規(guī)賽紀(jì)念章
日期:2015-05-04 22:32:03NBA季后賽大富翁
日期:2015-05-04 22:34:11菠菜明燈
日期:2015-05-04 22:35:49新奧爾良黃蜂
日期:2015-05-04 22:49:2315-16賽季CBA聯(lián)賽之廣夏
日期:2015-12-11 15:02:342015年亞洲杯之巴勒斯坦
日期:2015-03-04 19:56:562015年亞洲杯之阿聯(lián)酋
日期:2015-03-04 11:19:04休斯頓火箭
日期:2015-03-02 16:32:11紐約尼克斯
日期:2015-03-02 16:09:04
3 [報(bào)告]
發(fā)表于 2014-11-28 15:21 |只看該作者
用腳本來寫吧,先把這100萬行的分成n個(gè)文件,文件名有規(guī)律的
然后用sed 匹配ul模式的時(shí)候去讀你剛才分好的文件,
sed '/ul/r 剛才分好的文件'

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2014-11-28 18:17 |只看該作者
回復(fù) 2# jason680


    牛逼!
    完美解決問題!真的十分感謝! 以后要經(jīng)常來論壇學(xué)習(xí)!
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP