平臺(tái) 論壇博客文庫(kù)

› 論壇 › 程序設(shè)計(jì) › Python › python pandas用于大數(shù)據(jù)分析的場(chǎng)景

python pandas用于大數(shù)據(jù)分析的場(chǎng)景 [復(fù)制鏈接]

risepp

家境小康

論壇徽章:: 6

IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-09-05 06:20:00

IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-09-06 06:20:00

IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-17 06:20:00

IT運(yùn)維版塊每周發(fā)帖之星
日期:2015-11-06 19:28:13

IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-11-07 06:20:00

操作系統(tǒng)版塊每周發(fā)帖之星
日期:2015-12-02 15:01:04

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2015-09-16 09:58 |只看該作者 |倒序?yàn)g覽

最近在學(xué)習(xí)pandas相關(guān)的知識(shí)，嘆服他對(duì)數(shù)字型信息的高效靈活處理，但是一直覺得有些困擾的地方是，數(shù)據(jù)源可以有哪些渠道獲得？
從Python For Data Analysis 書中描述data load的方式有一下幾種：
1. 從文本文件中加載數(shù)據(jù)
2. 從數(shù)據(jù)庫(kù)中加載數(shù)據(jù)
3. 從binary format文件中加載數(shù)據(jù)，主要指hdf5和excel格式的文件
4. 從html和web API提取數(shù)據(jù)

針對(duì)以上不同的情況，那一般什么場(chǎng)景下會(huì)使用到pandas進(jìn)行分析呢？
1. 文本文件我想到的是對(duì)大日志文件的分析
2. 從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)，我很擔(dān)心會(huì)不會(huì)在獲取數(shù)據(jù)的過程中會(huì)存在性能瓶頸？比如我從一個(gè)表中提取一億條數(shù)據(jù)，光這一步就會(huì)很耗時(shí)（不知道hbase是否會(huì)快一點(diǎn)）
3. 暫時(shí)還未想到什么情況會(huì)用到，是否和第一次情況類似？至少不存在第二步數(shù)據(jù)提取的過程
4. 如果與html或者WEB API數(shù)據(jù)存在哪里呢？我理解這類數(shù)據(jù)不是一次達(dá)到一個(gè)很大的規(guī)模，是一個(gè)累積的過程吧

請(qǐng)各位大俠也幫忙指點(diǎn)指點(diǎn)，討論討論，多謝，因?yàn)槲乙恢闭J(rèn)為hadoop這樣大型的環(huán)境應(yīng)該是上了幾個(gè)TB的數(shù)據(jù)才會(huì)更加適用，pandas正好是一個(gè)補(bǔ)充，所以想把這事兒想明白

python

文庫(kù)|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

返回列表

Chinaunix › 論壇 › 程序設(shè)計(jì) › Python › python pandas用于大數(shù)據(jù)分析的場(chǎng)景

積分 0, 距離下一級(jí)還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

python pandas用于大數(shù)據(jù)分析的場(chǎng)景 [復(fù)制鏈接]