天干夜天干天天天爽视频,特黄a级毛片,亚洲av成人精品网站在线播放

論壇徽章:: 0

11樓 [報告]

發(fā)表于 2012-05-29 08:49 |只看該作者

回復(fù) 1# crazyhadoop

這個的基礎(chǔ)應(yīng)該是hadoop 處理

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

yifangyou

小富即安

論壇徽章:: 27

12樓 [報告]

發(fā)表于 2012-05-29 10:04 |只看該作者

我在做我公司的站內(nèi)搜索時，使用lucene搜索引擎，其中分詞法我找了很多種類型的分詞工具，例如paoding,ictclas4j,imdict-chinese,mmseg4j，IKAnalyzer。
比較下來我發(fā)現(xiàn)IKAnalyzer比較適合我的需求，
1）它有通用詞庫，對于一些常用詞基本上可以分析出來。
2）它同時也有擴展庫，我可以自己定義詞庫，因為我公司的網(wǎng)站是一個專業(yè)型網(wǎng)站，專業(yè)詞匯比較多。
3）它不像其它基于詞庫的的分詞器就是簡單地根據(jù)詞庫進行分詞，他有一個比較簡單的分詞程序能夠按照自然語言進行分詞。
ictclas4j據(jù)說是中科院的分詞器java版，分詞能力很強，但是它太復(fù)雜了，不太適合我。
我需要把分詞器改造為適合我的，我修改了IKAnalyzer，讓它從數(shù)據(jù)庫里讀取詞庫，這樣我可以動態(tài)增加詞庫。
我設(shè)想中的分詞器，應(yīng)該還有一項功能：學習能力，就是根據(jù)用戶搜索的詞的頻率自動把搜索頻率比較高的詞加入到詞庫中。類似于google輸入法或者qq輸入法，能夠根據(jù)用戶輸入的詞的頻率，自動加入到常用詞里，自動聯(lián)想。

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

crazyhadoop

版主

論壇徽章:: 1

13樓 [報告]

發(fā)表于 2012-05-29 10:05 |只看該作者

回復(fù) 10# dooros

這個做敏感詞用的到哦

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

crazyhadoop

版主

論壇徽章:: 1

14樓 [報告]

發(fā)表于 2012-05-29 10:06 |只看該作者

回復(fù) 12# yifangyou

對的，理想的情況就是具備學習能力。這樣這個詞庫才有生命力

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

huihui_2012

白手起家

論壇徽章:: 0

15樓 [報告]

發(fā)表于 2012-05-29 14:49 |只看該作者

好的分詞方法要有未登錄詞的識別功能，就是能將詞典里未出現(xiàn)的詞語識別出來。
還有就是專門的新詞發(fā)現(xiàn)。根據(jù)詞頻統(tǒng)計和規(guī)則過濾等。

回復(fù) 9# crazyhadoop

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

huihui_2012

白手起家

論壇徽章:: 0

16樓 [報告]

發(fā)表于 2012-05-29 14:55 |只看該作者

前面的帖子中講到未登錄詞的問題。下面將講述一種對未登錄詞的簡單處理策略。

登錄字串的處理
首先，考慮未登陸字串的定義。未登陸字串是指在訓練語料中沒有作為詞語出現(xiàn)的字串。這包括兩種情形：
a. 在訓練集中作為字串出現(xiàn)過但沒有作為詞語出現(xiàn)過
b. 在訓練集中沒有出現(xiàn)過的字串。
對于這兩種未登陸字串，本文做統(tǒng)一處理。
對于未登陸字串，如果將其WR設(shè)為0，則會使得整個路徑的切分概率為0，這樣會導(dǎo)致無法識別未登錄詞，因此不可取。因此，需要給每個未登錄字串其設(shè)定一個略大于0的概率。
對于一個未登陸字串，我們可以根據(jù)其長度為其估算一個概率。有兩種做法，一種方法是簡單根據(jù)長度來設(shè)定概率，我們通過實踐發(fā)現(xiàn)，如下設(shè)定是一種合適的選擇：
WR(US)=0.1^(1.1*len-0.1)
其中l(wèi)en是未登陸字串US的長度。值得注意的是，實踐表明，當大于3時，通常取WR(US)的值為0。也就是，未登陸詞的長度不大于3，這樣的識別效果最好。也就是說，長度大于3時，這種方法效果并不好。而且，由于多數(shù)未登陸詞是人名和地名等，這些詞的長度多為2和3。
另一種方法，根據(jù)統(tǒng)計來估計不同長度的未登陸字串的成詞概率WR。即將語料分割為訓練集和調(diào)整集兩部分，將那些只在調(diào)整集中出現(xiàn)而未在訓練集中出現(xiàn)的詞語，均視為未登陸詞。為了估計不同長度的未登陸字串的成詞概率，可以統(tǒng)計在調(diào)整集中某長度的未登陸詞的數(shù)量，除以該長度的未登陸字串的總數(shù)，所得的值就是該長度的未登陸字串的成詞概率。
本文所述的系統(tǒng)采用了第一種方法進行平滑估計。

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

lkk_super

稍有積蓄

論壇徽章:: 5

17樓 [報告]

發(fā)表于 2012-05-29 14:56 |只看該作者

回復(fù) 8# huihui_2012

這樣優(yōu)化過的詞頻的計算方式分詞和用傳統(tǒng)二元分詞相比有什么優(yōu)勢和劣勢？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

huihui_2012

白手起家

論壇徽章:: 0

18樓 [報告]

發(fā)表于 2012-05-29 15:02 |只看該作者

這樣的方式下有兩個好處：便于加入詞典（后面仍將講述），節(jié)省存儲空間（前面已經(jīng)提到）

回復(fù) 17# lkk_super

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

huihui_2012

白手起家

論壇徽章:: 0

19樓 [報告]

發(fā)表于 2012-05-29 15:04 |只看該作者

添加外部詞典
我們注意到WR值的計算依賴于切分語料，但是語料的標注耗時耗力，規(guī)模是受限制�，F(xiàn)實中的新詞不斷涌現(xiàn)，因此我們需要將外部詞典引入到分詞系統(tǒng)中。
如果詞典中的詞語在訓練集中作為詞語出現(xiàn)，我們直接采用WR的定義公式進行計算。
如果詞典中的詞語沒有在訓練集中作為詞語出現(xiàn)（符合上面的未登錄字串的定義），該怎么計算它的WR值呢？顯然，其成詞概率高于一般的未登錄字串，計算方法如下：
WR（DW)=1/(1+count(DW))
其中DW是詞典里出現(xiàn)的詞語， count(DW)是該詞語在訓練集中作為字串出現(xiàn)的次數(shù)。

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

_Rayx

富足長樂

論壇徽章:: 0

20樓 [報告]

發(fā)表于 2012-05-29 16:37 |只看該作者

以前對這個挺感興趣的，畢設(shè)想做短文本聚類，boss死活不讓，于是就沒做這個了。

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

互聯(lián)網(wǎng)文本處理挑戰(zhàn)巨大中文分詞系統(tǒng)設(shè)計如何面對？ [復(fù)制鏈接]

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

互聯(lián)網(wǎng)文本處理挑戰(zhàn)巨大 中文分詞系統(tǒng)設(shè)計如何面對？ [復(fù)制鏈接]

互聯(lián)網(wǎng)文本處理挑戰(zhàn)巨大中文分詞系統(tǒng)設(shè)計如何面對？ [復(fù)制鏈接]