亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
樓主: crazyhadoop
打印 上一主題 下一主題

互聯(lián)網(wǎng)文本處理挑戰(zhàn)巨大 中文分詞系統(tǒng)設(shè)計如何面對? [復(fù)制鏈接]

論壇徽章:
0
11 [報告]
發(fā)表于 2012-05-29 08:49 |只看該作者
回復(fù) 1# crazyhadoop


    這個的基礎(chǔ)應(yīng)該是hadoop 處理

論壇徽章:
27
CU大;照
日期:2013-03-13 15:15:08CU大;照
日期:2013-05-20 10:46:38CU大牛徽章
日期:2013-05-20 10:46:44CU大;照
日期:2013-09-18 15:24:09CU大;照
日期:2013-09-18 15:24:20CU大牛徽章
日期:2013-09-18 15:24:25CU大;照
日期:2013-09-18 15:24:31CU大牛徽章
日期:2013-09-18 15:24:36CU大;照
日期:2013-09-18 15:24:41CU大牛徽章
日期:2013-09-18 15:24:48CU大;照
日期:2013-09-18 15:24:52處女座
日期:2013-09-27 17:45:43
12 [報告]
發(fā)表于 2012-05-29 10:04 |只看該作者
我在做我公司的站內(nèi)搜索時,使用lucene搜索引擎,其中分詞法我找了很多種類型的分詞工具,例如paoding,ictclas4j,imdict-chinese,mmseg4j,IKAnalyzer。
比較下來我發(fā)現(xiàn)IKAnalyzer比較適合我的需求,
1)它有通用詞庫,對于一些常用詞基本上可以分析出來。
2)它同時也有擴展庫,我可以自己定義詞庫,因為我公司的網(wǎng)站是一個專業(yè)型網(wǎng)站,專業(yè)詞匯比較多。
3)它不像其它基于詞庫的的分詞器就是簡單地根據(jù)詞庫進行分詞,他有一個比較簡單的分詞程序能夠按照自然語言進行分詞。
ictclas4j據(jù)說是中科院的分詞器java版,分詞能力很強,但是它太復(fù)雜了,不太適合我。
我需要把分詞器改造為適合我的,我修改了IKAnalyzer,讓它從數(shù)據(jù)庫里讀取詞庫,這樣我可以動態(tài)增加詞庫。
我設(shè)想中的分詞器,應(yīng)該還有一項功能:學習能力,就是根據(jù)用戶搜索的詞的頻率自動把搜索頻率比較高的詞加入到詞庫中。類似于google輸入法或者qq輸入法,能夠根據(jù)用戶輸入的詞的頻率,自動加入到常用詞里,自動聯(lián)想。

論壇徽章:
1
天蝎座
日期:2013-12-06 18:23:58
13 [報告]
發(fā)表于 2012-05-29 10:05 |只看該作者
回復(fù) 10# dooros


    這個做敏感詞用的到哦

論壇徽章:
1
天蝎座
日期:2013-12-06 18:23:58
14 [報告]
發(fā)表于 2012-05-29 10:06 |只看該作者
回復(fù) 12# yifangyou


    對的,理想的情況就是具備學習能力。這樣這個詞庫才有生命力

論壇徽章:
0
15 [報告]
發(fā)表于 2012-05-29 14:49 |只看該作者
好的分詞方法要有未登錄詞的識別功能,就是能將詞典里未出現(xiàn)的詞語識別出來。
還有就是專門的新詞發(fā)現(xiàn)。根據(jù)詞頻統(tǒng)計和規(guī)則過濾等。

回復(fù) 9# crazyhadoop

論壇徽章:
0
16 [報告]
發(fā)表于 2012-05-29 14:55 |只看該作者
前面的帖子中講到未登錄詞的問題。下面將講述一種對未登錄詞的簡單處理策略。

登錄字串的處理
首先,考慮未登陸字串的定義。未登陸字串是指在訓練語料中沒有作為詞語出現(xiàn)的字串。這包括兩種情形:
a.        在訓練集中作為字串出現(xiàn)過但沒有作為詞語出現(xiàn)過
b.        在訓練集中沒有出現(xiàn)過的字串。
對于這兩種未登陸字串,本文做統(tǒng)一處理。
對于未登陸字串,如果將其WR設(shè)為0,則會使得整個路徑的切分概率為0,這樣會導(dǎo)致無法識別未登錄詞,因此不可取。因此,需要給每個未登錄字串其設(shè)定一個略大于0的概率。
對于一個未登陸字串,我們可以根據(jù)其長度為其估算一個概率。有兩種做法,一種方法是簡單根據(jù)長度來設(shè)定概率,我們通過實踐發(fā)現(xiàn),如下設(shè)定是一種合適的選擇:
      WR(US)=0.1^(1.1*len-0.1)
其中l(wèi)en是未登陸字串US的長度。值得注意的是,實踐表明,當 大于3時,通常取WR(US)的值為0。也就是,未登陸詞的長度不大于3,這樣的識別效果最好。也就是說,長度大于3時,這種方法效果并不好。而且,由于多數(shù)未登陸詞是人名和地名等,這些詞的長度多為2和3。
另一種方法,根據(jù)統(tǒng)計來估計不同長度的未登陸字串的成詞概率WR。即將語料分割為訓練集和調(diào)整集兩部分,將那些只在調(diào)整集中出現(xiàn)而未在訓練集中出現(xiàn)的詞語,均視為未登陸詞。為了估計不同長度的未登陸字串的成詞概率,可以統(tǒng)計在調(diào)整集中某長度的未登陸詞的數(shù)量,除以該長度的未登陸字串的總數(shù),所得的值就是該長度的未登陸字串的成詞概率。
本文所述的系統(tǒng)采用了第一種方法進行平滑估計。

論壇徽章:
5
亥豬
日期:2013-10-15 13:41:04CU十二周年紀念徽章
日期:2013-10-24 15:41:34申猴
日期:2013-10-28 10:55:45辰龍
日期:2013-10-31 13:29:29丑牛
日期:2014-02-14 11:25:54
17 [報告]
發(fā)表于 2012-05-29 14:56 |只看該作者
回復(fù) 8# huihui_2012


    這樣優(yōu)化過的詞頻的計算方式分詞和用傳統(tǒng)二元分詞相比有什么優(yōu)勢和劣勢?

論壇徽章:
0
18 [報告]
發(fā)表于 2012-05-29 15:02 |只看該作者
這樣的方式下有兩個好處:便于加入詞典(后面仍將講述),節(jié)省存儲空間(前面已經(jīng)提到)

回復(fù) 17# lkk_super


   

論壇徽章:
0
19 [報告]
發(fā)表于 2012-05-29 15:04 |只看該作者
添加外部詞典
我們注意到WR值的計算依賴于切分語料,但是語料的標注耗時耗力,規(guī)模是受限制,F(xiàn)實中的新詞不斷涌現(xiàn),因此我們需要將外部詞典引入到分詞系統(tǒng)中。
如果詞典中的詞語在訓練集中作為詞語出現(xiàn),我們直接采用WR的定義公式進行計算。
如果詞典中的詞語沒有在訓練集中作為詞語出現(xiàn)(符合上面的未登錄字串的定義),該怎么計算它的WR值呢?顯然,其成詞概率高于一般的未登錄字串,計算方法如下:
WR(DW)=1/(1+count(DW))
其中DW是詞典里出現(xiàn)的詞語, count(DW)是該詞語在訓練集中作為字串出現(xiàn)的次數(shù)。


論壇徽章:
0
20 [報告]
發(fā)表于 2012-05-29 16:37 |只看該作者
以前對這個挺感興趣的,畢設(shè)想做短文本聚類,boss死活不讓,于是就沒做這個了。
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP