亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問(wèn)板塊 發(fā)新帖
查看: 3070 | 回復(fù): 6
打印 上一主題 下一主題

一個(gè)關(guān)鍵詞分組的問(wèn)題 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2015-08-18 10:29 |只看該作者 |倒序?yàn)g覽
現(xiàn)有一組關(guān)鍵詞表,如下:

會(huì)計(jì)一個(gè)月工資多少錢(qián)
挖掘機(jī)一個(gè)月工資多少錢(qián)
化妝師一個(gè)月工資多少錢(qián)
美容師工資多少錢(qián)
育嬰師工資多少錢(qián)
化妝師工資多少錢(qián)
咖啡師工資多少錢(qián)
理財(cái)工資分配
會(huì)計(jì)工資分配
銀行工資分配
如何進(jìn)行工資分配
......

同類(lèi)關(guān)鍵詞的最長(zhǎng)后綴是一樣的,想根據(jù)關(guān)鍵詞后綴來(lái)進(jìn)行分組,最終效果如下:

會(huì)計(jì)一個(gè)月工資多少錢(qián) >> 一個(gè)月工資多少錢(qián)
挖掘機(jī)一個(gè)月工資多少錢(qián) >> 一個(gè)月工資多少錢(qián)
化妝師一個(gè)月工資多少錢(qián) >> 一個(gè)月工資多少錢(qián)
美容師工資多少錢(qián) >> 工資多少錢(qián)
育嬰師工資多少錢(qián) >> 工資多少錢(qián)
化妝師工資多少錢(qián) >> 工資多少錢(qián)
咖啡師工資多少錢(qián) >> 工資多少錢(qián)
理財(cái)工資分配 >> 工資分配
會(huì)計(jì)工資分配 >> 工資分配
銀行工資分配 >> 工資分配
如何進(jìn)行工資分配 >> 工資分配
......


關(guān)鍵詞總共有4w個(gè),咋實(shí)現(xiàn)...

論壇徽章:
4
金牛座
日期:2013-10-11 16:12:50卯兔
日期:2014-07-31 09:17:19辰龍
日期:2014-08-08 09:28:02獅子座
日期:2014-09-14 20:32:05
2 [報(bào)告]
發(fā)表于 2015-08-18 11:21 |只看該作者
本帖最后由 ssfjhh 于 2015-08-18 11:22 編輯
  1. 會(huì)計(jì)工資分配 >> 工資分配
  2. 銀行工資分配 >> 工資分配
復(fù)制代碼
要是再來(lái)個(gè)“工商銀行工資分配”,該怎么算呢?

論壇徽章:
26
2015亞冠之胡齊斯坦鋼鐵
日期:2015-06-25 21:40:202015亞冠之柏斯波利斯
日期:2015-08-31 17:03:192015亞冠之柏斯波利斯
日期:2015-11-07 13:10:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00每日論壇發(fā)貼之星
日期:2015-11-10 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-11-26 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-12-02 06:20:00黃金圣斗士
日期:2015-12-07 17:57:4615-16賽季CBA聯(lián)賽之天津
日期:2015-12-23 18:34:14程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-01-02 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-01-06 06:20:00每日論壇發(fā)貼之星
日期:2016-01-06 06:20:00
3 [報(bào)告]
發(fā)表于 2015-08-18 15:26 |只看該作者
回復(fù) 1# GoGo闖


育嬰師工資多少錢(qián)
化妝師工資多少錢(qián)
咖啡師工資多少錢(qián)

最長(zhǎng)后綴是

師工資多少錢(qián)

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2015-08-18 18:30 |只看該作者
分詞都是要先有詞典的
代碼相對(duì)容易,可以參考開(kāi)源的ik之類(lèi)
分詞的工具,一般直接用elasticsearch

評(píng)分

參與人數(shù) 1信譽(yù)積分 +5 收起 理由
substr函數(shù) + 5 贊一個(gè)! 分詞都是要先有詞典的

查看全部評(píng)分

論壇徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白銀圣斗士
日期:2015-11-17 15:13:0815-16賽季CBA聯(lián)賽之新疆
日期:2016-04-01 09:10:58
5 [報(bào)告]
發(fā)表于 2015-08-19 12:34 |只看該作者
如果確定是詞后綴的話(huà),也許可以通過(guò)逆序數(shù)據(jù)后建立一個(gè)樹(shù)來(lái)進(jìn)行分類(lèi).
比如:
會(huì)計(jì)一個(gè)月工資多少錢(qián)。剑尽″X(qián)少多資工月個(gè)一計(jì)會(huì)
然后,
一個(gè)字一個(gè)節(jié)點(diǎn)建立樹(shù),每個(gè)節(jié)點(diǎn)上加一個(gè)本節(jié)點(diǎn)被訪問(wèn)幾次.
錢(qián)少多資工月個(gè)一計(jì)會(huì)
錢(qián)少多資工月個(gè)一機(jī)掘挖
這兩個(gè)數(shù)據(jù)建立的結(jié)構(gòu)就是:
從"錢(qián)"到"一"的訪問(wèn)次數(shù)都是2,后面的是1.
然后,在葉子結(jié)點(diǎn)上把原始字符串記錄上.
這樣,把所有數(shù)據(jù)都加入進(jìn)這個(gè)樹(shù)之后,就可以設(shè)定一個(gè)閾值來(lái)進(jìn)行劃分了.
比如:可以設(shè)定為當(dāng)一個(gè)節(jié)點(diǎn)訪問(wèn)5次以上才作為共同結(jié)點(diǎn),這時(shí)候,下級(jí)的所有葉子可以在這一個(gè)結(jié)點(diǎn)合并在一起.
然后,當(dāng)所有節(jié)點(diǎn)過(guò)濾完成之后,把內(nèi)容輸出就可以了.
因?yàn)榕懦雎窂降耐瑫r(shí),數(shù)據(jù)也已經(jīng)是按照對(duì)應(yīng)的詞分組了.

評(píng)分

參與人數(shù) 1信譽(yù)積分 +10 收起 理由
ssfjhh + 10 很給力!

查看全部評(píng)分

論壇徽章:
11
2015年迎新春徽章
日期:2015-03-04 09:55:282017金雞報(bào)曉
日期:2017-02-08 10:39:4215-16賽季CBA聯(lián)賽之遼寧
日期:2016-12-15 10:24:1715-16賽季CBA聯(lián)賽之佛山
日期:2016-11-30 09:04:2015-16賽季CBA聯(lián)賽之江蘇
日期:2016-04-29 15:56:1215-16賽季CBA聯(lián)賽之同曦
日期:2016-04-12 13:21:182016猴年福章徽章
日期:2016-02-18 15:30:3415-16賽季CBA聯(lián)賽之山東
日期:2016-02-16 11:37:52每日論壇發(fā)貼之星
日期:2016-02-07 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-02-07 06:20:0015-16賽季CBA聯(lián)賽之新疆
日期:2018-01-09 16:25:37
6 [報(bào)告]
發(fā)表于 2015-09-07 15:43 |只看該作者
哈哈,這個(gè)問(wèn)題我一般這樣做的,
先造一個(gè)詞庫(kù),然后把這好幾萬(wàn)數(shù)據(jù)都處理一下,如果有的條目沒(méi)有找到后綴,就把后綴打印出來(lái),手工(活自動(dòng))加到詞庫(kù)
然后再跑一次,直到?jīng)]有例外

人腦加電腦.手動(dòng)加自動(dòng),不全自動(dòng)也不全手動(dòng)

論壇徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白銀圣斗士
日期:2015-11-17 15:13:0815-16賽季CBA聯(lián)賽之新疆
日期:2016-04-01 09:10:58
7 [報(bào)告]
發(fā)表于 2015-09-07 23:22 |只看該作者
我的解決方案對(duì)應(yīng)的代碼如下:
其中,假定所有詞保存在"data.txt"文件中,并且,每個(gè)詞一行。
然后,在main中調(diào)用時(shí),以長(zhǎng)度3(可以直接把3更換成需要的次數(shù))作為關(guān)鍵詞出現(xiàn)的最低標(biāo)準(zhǔn)。
  1. def addWordToTree(word, statistics):
  2.     """
  3.     Add a word element into statistics tree
  4.     """
  5.     sequence = word[::-1]
  6.     start = statistics
  7.     for item in sequence:
  8.         if start.has_key(item):
  9.             start[item][0] += 1
  10.         else:
  11.             start[item] = [1, {}]
  12.         start = start[item][1]

  13. def readData(filename):
  14.     """
  15.     Read data from specified data file
  16.     """
  17.     result = {}
  18.     with open(filename, "r") as handle:
  19.         for line in handle.readlines():
  20.             line = line.strip()
  21.             addWordToTree(line.decode("utf-8"), result)
  22.     return result

  23. def filterData(data, key, status, bar = 4):
  24.     """
  25.     Filter built words tree with expected bar
  26.     """
  27.     for item in data.keys():
  28.         if data[item][0] < bar:
  29.             for subItem in data[item][1]:
  30.                 buildResult(data[item][1][subItem][1], key, status, item + subItem)
  31.         else:
  32.             filterData(data[item][1], key + item, status, bar)
  33.     return status

  34. def buildResult(data, key, status, content):
  35.     """
  36.     Build filtered result, [::-1] is used to ensure key and value in correct direction
  37.     """
  38.     if len(data) == 0:
  39.         if status.has_key(key[::-1]):
  40.             status[key[::-1]].append(content[::-1])
  41.         else:
  42.             status[key[::-1]] = [content[::-1]]
  43.     else:
  44.         for item in data.keys():
  45.             buildResult(data[item][1], key, status, content + item)

  46. def main():
  47.     data = readData("data.txt")
  48.    
  49.     result = {}
  50.     filterData(data, "", result, 3)
  51.     for key, value in result.iteritems():
  52.         print "=" * 80
  53.         print key.encode("utf-8")
  54.         print "-" * 60
  55.         for item in value:
  56.             print item.encode("utf-8")

  57. if __name__=="__main__":
  58.     main()
復(fù)制代碼
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專(zhuān)區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP