平臺(tái) 論壇博客文庫(kù)

› 論壇 › IT運(yùn)維 › Hadoop和大數(shù)據(jù)技術(shù) › spark 新手,請(qǐng)教spark 如何寫二進(jìn)制文件到hdfs

[Spark] spark 新手,請(qǐng)教spark 如何寫二進(jìn)制文件到hdfs [復(fù)制鏈接]

tianhailong

豐衣足食

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2018-03-14 20:58 |只看該作者 |倒序?yàn)g覽

本帖最后由 tianhailong 于 2018-03-14 21:01 編輯

我目前做一個(gè)spark 應(yīng)用開發(fā)，

讀取一些點(diǎn)云數(shù)據(jù)(二進(jìn)制格式)，隨后做一系列處理后

保存為普通的二進(jìn)制文件，保存在 hdfs上邊，

我使用python 開發(fā)，通過hadoop 文件api 寫文件到hdfs

Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration

def save_file_content(fileContent, fileName, savePath, Path, FileSystem, Configuration):
   fs = FileSystem.get(Configuration())
   output = fs.create(Path(savePath + "/" + fileName))

   output.write(bytearray(fileContent))
   output.close()

但是這個(gè)只能在driver 機(jī)器執(zhí)行，我把rdd 放在 driver 機(jī)器遍歷寫入，

content = rdd.collect()

for i in content:

save(i, savePath, Path, FileSystem, Configuration)

但是這種方式數(shù)據(jù)量大時(shí)會(huì)內(nèi)存溢出，請(qǐng)問有什么更好的方向?qū)懭雋dfs 嗎？

返回列表

Chinaunix › 論壇 › IT運(yùn)維 › Hadoop和大數(shù)據(jù)技術(shù) › spark 新手,請(qǐng)教spark 如何寫二進(jìn)制文件到hdfs

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào)：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員聯(lián)系我們：huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

[Spark] spark 新手,請(qǐng)教spark 如何寫二進(jìn)制文件到hdfs [復(fù)制鏈接]