亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 34909 | 回復: 13
打印 上一主題 下一主題

【大話IT】如何用算法學習判定“紅樓夢(下)”原作者? [復制鏈接]

論壇徽章:
146
2015年亞洲杯之日本
日期:2015-04-28 13:32:012015年亞洲杯之朝鮮
日期:2015-05-06 10:16:442015年亞洲杯之日本
日期:2015-05-06 10:21:342015年亞洲杯紀念徽章
日期:2015-05-13 17:16:442015亞冠之北京國安
日期:2015-05-13 17:18:292015亞冠之鹿島鹿角
日期:2015-05-13 17:19:062015亞冠之德黑蘭石油
日期:2015-05-27 16:47:402015亞冠之塔什干棉農(nóng)
日期:2015-05-28 15:24:122015亞冠之卡爾希納薩夫
日期:2015-06-01 13:52:392015亞冠之柏斯波利斯
日期:2015-06-04 17:37:292015亞冠之阿爾納斯爾
日期:2015-06-16 11:31:202015亞冠之塔什干火車頭
日期:2015-06-23 10:12:33
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2017-03-13 09:52 |只看該作者 |倒序瀏覽
獲獎公布:
有獎回復:chenxing2   Heguangwu
請以上獲獎人員在5月20日前將姓名、電話、郵箱、公司、職務、快遞地址站短給hyukhae079408,以便盡快給大家發(fā)放禮品。
話題背景:

看標題算是個有趣的問題,今天主要就算法邏輯展開討論,

某產(chǎn)品運營狗受大神啟發(fā),開啟自己的機器學習初體驗模式,在此,援引一小部分思路:

1.作為一個從沒看過紅樓夢的人,我的大致思路是這樣的:用開源的分詞工具把全書分詞(python的jieba分詞),然后統(tǒng)計詞頻。把出現(xiàn)頻次超過100次的詞語找出來,人工去掉一些可能因為文章內(nèi)容造成前后出現(xiàn)不一致的人名、地名;
2.然后每一章按照2中的詞頻表,看這一章中出現(xiàn)這些詞語的頻次;
3.前80回、后40回各選15回作為機器學習的數(shù)據(jù),讓機器學習這些章節(jié)的用詞特點,然后推算其他章節(jié)的用詞特點是屬于前80回呢、還是后40回;
4.如果機器根據(jù)這些用詞特征推算的是否屬于后40回的結果跟實際的結果吻合,那么就說明后40回的寫作風格跟前80回有很大不同,很可能是兩個人寫的;


以上,只是產(chǎn)品同學,作為初學者的淺嘗輒止,如果你有更好的思路和邏輯,歡迎拍磚。這可能跟你是否讀過《紅樓夢》沒多大關系,本次討論,主要就算法和機器學習展開討論。


討論問題:(任選其一)

1.如何用算法學習判定“紅樓夢(下)”原作者?您是否有更好的思路。
2.如何做好機器學習、數(shù)據(jù)挖掘工作?需要設計哪方面的語言和算法學習?(可引薦相關專業(yè)圖書,以及具體算法的學習)
3.機器學習應該準備哪些數(shù)學預備知識?


討論時間:2017年3月13日—4月13日


活動獎勵:

活動結束后,我們將會選取1個精彩回復,送DTCC2017大會入場券一張。

選取3個回復,送社區(qū)春季版運動帽衫


DTCC 2017 來啦!

隨著云計算和大數(shù)據(jù)時代的來臨,數(shù)據(jù)正在以前所未有的速度成為各個領域價值創(chuàng)造的核心驅(qū)動力。

在此背景下,國內(nèi)最受關注的數(shù)據(jù)庫技術盛會——2017第八屆中國數(shù)據(jù)庫技術大會(DTCC2017)將于2017年5月11-13日如約而至。本屆大會以“數(shù)據(jù)驅(qū)動•價值發(fā)現(xiàn)”為主題,匯集來自互聯(lián)網(wǎng)、電子商務、金融、電信、政府、行業(yè)協(xié)會等20多個領域的120多位技術專家,共同探討Oracle、MySQL、NoSQL、云端數(shù)據(jù)庫、智能數(shù)據(jù)平臺、區(qū)塊鏈、數(shù)據(jù)可視化、深度學習等領域的前瞻性熱點話題與技術。大會共設定2大主場和20個技術專場,將吸引5000多名IT人士參會,為數(shù)據(jù)庫人群、大數(shù)據(jù)從業(yè)人員、廣大互聯(lián)網(wǎng)人士及行業(yè)相關人士提供最具價值的交流平臺。




官網(wǎng)鏈接:http://dtcc.it168.com/
購票鏈接:http://dtcc.it168.com/goupiao.html

歡迎掃碼關注DTCC官方微信,獲取最新信息!




論壇徽章:
13
15-16賽季CBA聯(lián)賽之八一
日期:2016-07-08 21:00:1415-16賽季CBA聯(lián)賽之同曦
日期:2017-02-15 14:26:1515-16賽季CBA聯(lián)賽之佛山
日期:2017-02-20 14:19:2615-16賽季CBA聯(lián)賽之青島
日期:2017-05-07 16:49:1115-16賽季CBA聯(lián)賽之廣夏
日期:2017-07-30 09:13:1215-16賽季CBA聯(lián)賽之廣東
日期:2018-07-05 22:34:3615-16賽季CBA聯(lián)賽之江蘇
日期:2018-09-03 12:10:2115-16賽季CBA聯(lián)賽之上海
日期:2018-09-25 03:49:2215-16賽季CBA聯(lián)賽之廣東
日期:2018-09-25 04:09:12
2 [報告]
發(fā)表于 2017-03-13 14:55 |只看該作者
回復 1# 王楠w_n


精彩回復

論壇徽章:
18
卯兔
日期:2013-09-27 17:41:0615-16賽季CBA聯(lián)賽之佛山
日期:2016-07-09 17:34:45操作系統(tǒng)版塊每周發(fā)帖之星
日期:2015-12-02 15:01:04IT運維版塊每日發(fā)帖之星
日期:2015-12-02 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-07 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-03 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-01 06:20:00羊年新春福章
日期:2015-04-01 17:56:06拜羊年徽章
日期:2015-04-01 17:56:062015年迎新春徽章
日期:2015-03-04 09:49:452015年辭舊歲徽章
日期:2015-03-03 16:54:15天秤座
日期:2015-01-14 06:39:28
3 [報告]
發(fā)表于 2017-03-13 19:25 |只看該作者
支持楠楠同學,占地更新

論壇徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2015-12-01 06:20:002015亞冠之首爾
日期:2015-11-04 22:25:43IT運維版塊每日發(fā)帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27獅子座
日期:2014-05-12 11:00:00辰龍
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年紀念徽章
日期:2013-10-24 15:41:34IT運維版塊每日發(fā)帖之星
日期:2016-01-27 06:20:0015-16賽季CBA聯(lián)賽之新疆
日期:2016-06-07 14:10:01
4 [報告]
發(fā)表于 2017-03-14 06:35 |只看該作者
這么做太簡單。結果很可能偏差。不過支持探索。

論壇徽章:
0
5 [報告]
發(fā)表于 2017-03-14 10:47 |只看該作者
我希望用算法研究每章節(jié)的特點,以判定前后有什么區(qū)別。而不是一開始就說前80后40.用算法去湊合出這個結論,就沒有多大意思了。

論壇徽章:
72
20周年集字徽章-20	
日期:2020-10-28 14:04:30操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-07-13 06:20:0015-16賽季CBA聯(lián)賽之廣夏
日期:2016-07-10 09:04:02數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2016-07-09 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-07-09 06:20:00數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2016-07-07 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-07-07 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-07-04 06:20:00數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2016-07-03 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-07-03 06:20:00數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2016-07-02 06:20:00操作系統(tǒng)版塊每日發(fā)帖之星
日期:2016-07-02 06:20:00
6 [報告]
發(fā)表于 2017-03-15 16:05 |只看該作者
直接統(tǒng)計詞頻是不是太粗暴了。
語句模式匹配是不是更好一下?

論壇徽章:
40
水瓶座
日期:2013-08-15 11:26:422015年辭舊歲徽章
日期:2015-03-03 16:54:152015年亞洲杯之烏茲別克斯坦
日期:2015-03-27 14:01:172015年亞洲杯之約旦
日期:2015-03-31 15:06:442015亞冠之首爾
日期:2015-06-16 23:24:37IT運維版塊每日發(fā)帖之星
日期:2015-07-01 22:20:002015亞冠之德黑蘭石油
日期:2015-07-08 09:32:07IT運維版塊每日發(fā)帖之星
日期:2015-08-29 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-08-29 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-10 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-11 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00
7 [報告]
發(fā)表于 2017-03-15 16:21 |只看該作者
現(xiàn)在活動不錯 就是不送技術圖書了

論壇徽章:
19
處女座
日期:2014-07-18 14:50:5415-16賽季CBA聯(lián)賽之北京
日期:2019-09-16 15:39:1415-16賽季CBA聯(lián)賽之上海
日期:2019-09-15 15:29:0415-16賽季CBA聯(lián)賽之山西
日期:2017-03-09 10:58:232017金雞報曉
日期:2017-02-08 10:33:212017金雞報曉
日期:2017-01-10 15:13:2915-16賽季CBA聯(lián)賽之深圳
日期:2016-12-15 17:55:53C
日期:2016-10-25 16:00:1515-16賽季CBA聯(lián)賽之新疆
日期:2016-07-21 14:02:0415-16賽季CBA聯(lián)賽之江蘇
日期:2016-06-30 12:15:04shanzhi
日期:2016-06-17 17:59:31平安夜徽章
日期:2015-12-26 00:06:30
8 [報告]
發(fā)表于 2017-03-19 17:04 |只看該作者
3.機器學習應該準備哪些數(shù)學預備知識?
微積分、矩陣論,其次概率、統(tǒng)計,還有就是離散數(shù)學,計算機算法,這些大學計算機專業(yè)都要學習的專業(yè)課程,然后再深入學習具體的機器學習算法。

論壇徽章:
13
數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2015-08-06 06:20:002017金雞報曉
日期:2017-02-08 10:39:422017金雞報曉
日期:2017-01-10 15:13:29極客徽章
日期:2016-12-07 14:08:02JAVA
日期:2016-10-25 16:01:09luobin
日期:2016-06-17 17:46:362016猴年福章徽章
日期:2016-02-18 15:30:3415-16賽季CBA聯(lián)賽之天津
日期:2015-12-16 22:35:03黃金圣斗士
日期:2015-11-24 10:43:13IT運維版塊每日發(fā)帖之星
日期:2015-10-09 06:20:002015亞冠之廣州恒大
日期:2015-09-21 21:40:222015七夕節(jié)徽章
日期:2015-08-21 11:06:17
9 [報告]
發(fā)表于 2017-03-21 07:38 |只看該作者
1.如何用算法學習判定“紅樓夢(下)”原作者?您是否有更好的思路。

   這個沒啥好思路,這個看是不是一個作者寫的,感覺這方法不一定行的通。
    因為這個東西通常是一個感性的認識,而不同的人對這個感性的不同,導致有的人能察覺,而有的人察覺不出來。
   對于冷冰冰的電腦,就沒這個技能。

   如果真要弄的話,估計還得涉及漢語言文學,語感等等這些東西,而目前好像還沒搞這個方向的吧,或者搞不動,或者不切實際吧。

   僅靠詞頻來弄,我想就是一個人寫的,也會被判斷出來不是一個人寫的。

   僅靠詞頻,倒是可以用來檢測,兩篇文章是否是抄襲的

論壇徽章:
89
水瓶座
日期:2014-04-01 08:53:31天蝎座
日期:2014-04-01 08:53:53天秤座
日期:2014-04-01 08:54:02射手座
日期:2014-04-01 08:54:15子鼠
日期:2014-04-01 08:55:35辰龍
日期:2014-04-01 08:56:36未羊
日期:2014-04-01 08:56:27戌狗
日期:2014-04-01 08:56:13亥豬
日期:2014-04-01 08:56:02亥豬
日期:2014-04-08 08:38:58程序設計版塊每日發(fā)帖之星
日期:2016-01-05 06:20:00程序設計版塊每日發(fā)帖之星
日期:2016-01-07 06:20:00
10 [報告]
發(fā)表于 2017-04-02 17:49 |只看該作者
這個問題需要具體看看,有數(shù)據(jù)之后跑起來才能知道怎么效果好。
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP