程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

如何将pyspark数据帧写入HDFS,然后如何将其读回数据帧?

发布于2019-10-14 07:21     阅读(840)     评论(0)     点赞(30)     收藏(5)


我有一个很大的pyspark数据框。所以我想对其子集执行预处理,然后将它们存储到hdfs。稍后,我想阅读所有内容并合并在一起。谢谢。


解决方案


  • 将DataFrame写入HDFS(Spark 1.6)。

    df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

一些格式的选项是csvparquetjson等。

  • 从HDFS(Spark 1.6)读取DataFrame。

    sqlContext.read.format('parquet').load('/path/to/file') 

格式方法采用参数如parquetcsvjson等。



所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:https://www.pythonheidong.com/blog/article/135168/f891f403db38de45b5e3/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

30 0
收藏该文
已收藏

评论内容:(最多支持255个字符)