獲獎公布: 有獎回復:chenxing2 Heguangwu 請以上獲獎人員在5月20日前將姓名、電話、郵箱、公司、職務、快遞地址站短給hyukhae079408,以便盡快給大家發(fā)放禮品。 話題背景:
看標題算是個有趣的問題,今天主要就算法邏輯展開討論,
某產(chǎn)品運營狗受大神啟發(fā),開啟自己的機器學習初體驗模式,在此,援引一小部分思路:
1.作為一個從沒看過紅樓夢的人,我的大致思路是這樣的:用開源的分詞工具把全書分詞(python的jieba分詞),然后統(tǒng)計詞頻。把出現(xiàn)頻次超過100次的詞語找出來,人工去掉一些可能因為文章內(nèi)容造成前后出現(xiàn)不一致的人名、地名;
2.然后每一章按照2中的詞頻表,看這一章中出現(xiàn)這些詞語的頻次;
3.前80回、后40回各選15回作為機器學習的數(shù)據(jù),讓機器學習這些章節(jié)的用詞特點,然后推算其他章節(jié)的用詞特點是屬于前80回呢、還是后40回;
4.如果機器根據(jù)這些用詞特征推算的是否屬于后40回的結果跟實際的結果吻合,那么就說明后40回的寫作風格跟前80回有很大不同,很可能是兩個人寫的;
以上,只是產(chǎn)品同學,作為初學者的淺嘗輒止,如果你有更好的思路和邏輯,歡迎拍磚。這可能跟你是否讀過《紅樓夢》沒多大關系,本次討論,主要就算法和機器學習展開討論。
討論問題:(任選其一)
1.如何用算法學習判定“紅樓夢(下)”原作者?您是否有更好的思路。
2.如何做好機器學習、數(shù)據(jù)挖掘工作?需要設計哪方面的語言和算法學習?(可引薦相關專業(yè)圖書,以及具體算法的學習) 3.機器學習應該準備哪些數(shù)學預備知識?
討論時間:2017年3月13日—4月13日
活動獎勵:
活動結束后,我們將會選取1個精彩回復,送DTCC2017大會入場券一張。
選取3個回復,送社區(qū)春季版運動帽衫
DTCC 2017 來啦!
隨著云計算和大數(shù)據(jù)時代的來臨,數(shù)據(jù)正在以前所未有的速度成為各個領域價值創(chuàng)造的核心驅(qū)動力。
在此背景下,國內(nèi)最受關注的數(shù)據(jù)庫技術盛會——2017第八屆中國數(shù)據(jù)庫技術大會(DTCC2017)將于2017年5月11-13日如約而至。本屆大會以“數(shù)據(jù)驅(qū)動•價值發(fā)現(xiàn)”為主題,匯集來自互聯(lián)網(wǎng)、電子商務、金融、電信、政府、行業(yè)協(xié)會等20多個領域的120多位技術專家,共同探討Oracle、MySQL、NoSQL、云端數(shù)據(jù)庫、智能數(shù)據(jù)平臺、區(qū)塊鏈、數(shù)據(jù)可視化、深度學習等領域的前瞻性熱點話題與技術。大會共設定2大主場和20個技術專場,將吸引5000多名IT人士參會,為數(shù)據(jù)庫人群、大數(shù)據(jù)從業(yè)人員、廣大互聯(lián)網(wǎng)人士及行業(yè)相關人士提供最具價值的交流平臺。
官網(wǎng)鏈接:http://dtcc.it168.com/
購票鏈接:http://dtcc.it168.com/goupiao.html
歡迎掃碼關注DTCC官方微信,獲取最新信息!
![]()
|