亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 1562 | 回復: 4
打印 上一主題 下一主題

求匹配不帶nofollow鏈接的正則 [復制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2013-05-20 21:39 |只看該作者 |倒序瀏覽
是這樣的,需要匹配出不帶rel="nofollow"的鏈接,因為一帶nofollow鏈接就沒意思了。下面是例子:
<a href="www.baidu.com">
<a rel="nofollow" href="www.baidu.com">
<a href="www.baidu.com" rel="nofollow">
我想通過正則過濾掉第2,3種,只保留不帶rel="nofollow"的第一種。我在網(wǎng)上搜了下是用?!,但這個確實不會寫。
求高手幫忙,現(xiàn)在這里謝過了!

論壇徽章:
0
2 [報告]
發(fā)表于 2013-05-20 23:14 |只看該作者
回復 1# alexkh
  1. #-*- coding:utf-8 -*-

  2. import re
  3. def filter_nofollow(urls):
  4.     pattern = re.compile('.*rel="nofollow".*')
  5.     follow = lambda x: not pattern.match(x)
  6.     return filter(follow, urls)

  7. if __name__ == "__main__":
  8.     urls = [ \
  9.     '<a href="www.baidu.com">',
  10.     '<a rel="nofollow" href="www.baidu.com">',
  11.     '<a href="www.baidu.com" rel="nofollow">']
  12.    
  13.     print filter_nofollow(urls)

復制代碼

論壇徽章:
0
3 [報告]
發(fā)表于 2013-05-21 16:46 |只看該作者
回復 2# GhostFromHeaven


    先謝謝了。不知道能不能實現(xiàn)一個正則就將那個鏈接過濾出來的。因為我想查詢一批網(wǎng)頁,看這些網(wǎng)頁中是否有不帶nofollow的某網(wǎng)站鏈接。

論壇徽章:
0
4 [報告]
發(fā)表于 2013-05-22 11:29 |只看該作者
針對你這個例子的:
  1. import re

  2. a = '''<a rel="nofollow" href="www.baidu.com"><a href="www.baidu.com"><a href="www.baidu.com" rel="nofollow">'''

  3. print re.search('''<a\s(?!rel="nofollow").*?(?<!rel="nofollow")>''', a).group()
復制代碼

論壇徽章:
0
5 [報告]
發(fā)表于 2013-05-22 21:13 |只看該作者
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP