亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問板塊 發(fā)新帖
查看: 1830 | 回復(fù): 0
打印 上一主題 下一主題

python pandas用于大數(shù)據(jù)分析的場(chǎng)景 [復(fù)制鏈接]

論壇徽章:
6
IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-09-05 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-09-06 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-17 06:20:00IT運(yùn)維版塊每周發(fā)帖之星
日期:2015-11-06 19:28:13IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-11-07 06:20:00操作系統(tǒng)版塊每周發(fā)帖之星
日期:2015-12-02 15:01:04
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2015-09-16 09:58 |只看該作者 |倒序?yàn)g覽
最近在學(xué)習(xí)pandas相關(guān)的知識(shí),嘆服他對(duì)數(shù)字型信息的高效靈活處理,但是一直覺得有些困擾的地方是,數(shù)據(jù)源可以有哪些渠道獲得?
從Python For Data Analysis 書中描述data load的方式有一下幾種:
1. 從文本文件中加載數(shù)據(jù)
2. 從數(shù)據(jù)庫(kù)中加載數(shù)據(jù)
3. 從binary format文件中加載數(shù)據(jù),主要指hdf5和excel格式的文件
4. 從html和web API提取數(shù)據(jù)

針對(duì)以上不同的情況,那一般什么場(chǎng)景下會(huì)使用到pandas進(jìn)行分析呢?
1. 文本文件我想到的是對(duì)大日志文件的分析
2. 從數(shù)據(jù)庫(kù)中提取數(shù)據(jù),我很擔(dān)心會(huì)不會(huì)在獲取數(shù)據(jù)的過程中會(huì)存在性能瓶頸?比如我從一個(gè)表中提取一億條數(shù)據(jù),光這一步就會(huì)很耗時(shí)(不知道hbase是否會(huì)快一點(diǎn))
3. 暫時(shí)還未想到什么情況會(huì)用到,是否和第一次情況類似?至少不存在第二步數(shù)據(jù)提取的過程
4. 如果與html或者WEB API數(shù)據(jù)存在哪里呢?我理解這類數(shù)據(jù)不是一次達(dá)到一個(gè)很大的規(guī)模,是一個(gè)累積的過程吧

請(qǐng)各位大俠也幫忙指點(diǎn)指點(diǎn),討論討論,多謝,因?yàn)槲乙恢闭J(rèn)為hadoop這樣大型的環(huán)境應(yīng)該是上了幾個(gè)TB的數(shù)據(jù)才會(huì)更加適用,pandas正好是一個(gè)補(bǔ)充,所以想把這事兒想明白  
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP