亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問(wèn)板塊 發(fā)新帖
樓主: crazyhadoop
打印 上一主題 下一主題

互聯(lián)網(wǎng)文本處理挑戰(zhàn)巨大 中文分詞系統(tǒng)設(shè)計(jì)如何面對(duì)? [復(fù)制鏈接]

論壇徽章:
1
天蝎座
日期:2013-12-06 18:23:58
31 [報(bào)告]
發(fā)表于 2012-05-30 10:54 |只看該作者
回復(fù) 30# zhanggggfd


    大規(guī)模索引+ 學(xué)習(xí),只能通過(guò)智能算法來(lái)分析了,路還很長(zhǎng)

論壇徽章:
1
天蝎座
日期:2013-12-06 18:23:58
32 [報(bào)告]
發(fā)表于 2012-05-30 11:42 |只看該作者
回復(fù) 30# zhanggggfd


    現(xiàn)在常用的方法是基于統(tǒng)計(jì),不過(guò)這個(gè)要有大量的最新語(yǔ)料庫(kù)的配合,一般為了提高新詞的認(rèn)知準(zhǔn)確度,先都是在特定領(lǐng)域挖掘,泛泛的抓取識(shí)別還達(dá)不到這樣的技術(shù)

論壇徽章:
0
33 [報(bào)告]
發(fā)表于 2012-05-30 13:00 |只看該作者
學(xué)習(xí)。。。

論壇徽章:
4
CU十二周年紀(jì)念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亞冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
34 [報(bào)告]
發(fā)表于 2012-05-30 13:22 |只看該作者
crazyhadoop 發(fā)表于 2012-05-28 21:44
回復(fù) 6# hbsycw



是的,感覺(jué)搜狗輸入法,用著很不錯(cuò)~

論壇徽章:
0
35 [報(bào)告]
發(fā)表于 2012-05-30 14:41 |只看該作者
這樣聽(tīng)來(lái),要處理海量數(shù)據(jù)啊,還真是巨大挑戰(zhàn)。估計(jì)沒(méi)幾個(gè)公司做的了。不過(guò)說(shuō)不定那天就有人想出新算法,精簡(jiǎn)+聯(lián)想數(shù)據(jù)貌似也有可能。

回復(fù) 32# crazyhadoop


   

論壇徽章:
0
36 [報(bào)告]
發(fā)表于 2012-05-30 14:59 |只看該作者
看看。。。

論壇徽章:
0
37 [報(bào)告]
發(fā)表于 2012-05-30 17:20 |只看該作者
還是語(yǔ)法呀

要分清主語(yǔ),動(dòng)語(yǔ)
我是中國(guó)人
從左往右最長(zhǎng)匹配優(yōu)先:
讀入‘我’,一個(gè)字當(dāng)然是一個(gè)詞
再讀入‘是’,查表找‘我是’,不在表中,則‘我’是一個(gè)獨(dú)立的詞,‘是’還要下一步判斷
讀入‘中’‘是中’肯定不在表內(nèi),那‘是’也是一個(gè)獨(dú)立的詞,‘中’還要下一步判斷
讀入‘果’,‘中國(guó)’在表內(nèi)
再讀入‘人’,’中國(guó)人‘也在表內(nèi),
此時(shí)全部讀完,’中國(guó)人‘是一個(gè)次
結(jié)果就是:我 是 中國(guó)人
其他就是遞歸,
有時(shí)間還可以看一下龍書(shū)。

論壇徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午馬
日期:2014-08-06 03:56:58
38 [報(bào)告]
發(fā)表于 2012-05-30 19:15 |只看該作者
是一個(gè)比較艱巨的任務(wù)。

論壇徽章:
0
39 [報(bào)告]
發(fā)表于 2012-05-30 21:28 |只看該作者
精簡(jiǎn)+聯(lián)想數(shù)據(jù)

這個(gè)怎么解讀
回復(fù) 35# zhanggggfd


   

論壇徽章:
0
40 [報(bào)告]
發(fā)表于 2012-05-30 21:41 |只看該作者
我參考別人的論文實(shí)現(xiàn)過(guò)一個(gè)新詞發(fā)現(xiàn)的程序。基本思想:
根據(jù)一個(gè)字串上下文的多樣性來(lái)確認(rèn)是否是新詞。對(duì)于比較正規(guī)的新聞文體,識(shí)別新詞的效果還是不錯(cuò)的。

回復(fù) 30# zhanggggfd


   
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP