安装jupyter notebook并集成pyspark记录

内容分析应用 · 发表于 2021-8-31 14:54:34

spark计算结果做持久化，保存到本地文件的示例：

# 直接保存，会保存成文件夹
read_txt.saveAsTextFile("file:///home/xiaohuzi/spark_exercise/data/save_testfile.txt")
# 先 collect 再保存为 txt
save_to_csv(read_txt.collect())

复制代码

内容分析应用 · 发表于 2021-8-31 14:57:19

本帖最后由内容分析应用于 2021-8-31 14:58 编辑

spark计算结果如果需要写入hadoop的HDFS, 则调用对应的api：

#!coding:utf-8
import sys
from hdfs.client import Client
#设置utf-8模式
reload(sys)
sys.setdefaultencoding( "utf-8" )
#关于python操作hdfs的API可以查看官网:
#https://hdfscli.readthedocs.io/en/latest/api.html
#追加数据到hdfs文件
def append_to_hdfs(client,hdfs_path,data):
client.write(hdfs_path, data,overwrite=False,append=True)
#覆盖数据写到hdfs文件
def write_to_hdfs(client,hdfs_path,data):
client.write(hdfs_path, data,overwrite=True,append=False)
#移动或者修改文件
def move_or_rename(client,hdfs_src_path, hdfs_dst_path):
client.rename(hdfs_src_path, hdfs_dst_path)

复制代码

Fuller · 发表于 2021-8-31 15:42:01

内容分析应用发表于 2021-8-31 14:54
spark计算结果做持久化，保存到本地文件的示例：

先做collect是什么目的？

内容分析应用 · 发表于 2021-9-5 10:59:52

Fuller 发表于 2021-8-31 15:42
先做collect是什么目的？

上面示例保存到本地文件，用了collect方法。一次collect操作会将分布式各个节点上的数据汇聚到一个driver节点上，而这么一来，后续所执行的运算和操作就会脱离这个分布式环境而相当于单机环境下运行。

按相关文档的说明，在单机环境下做测试使用collect问题不大，但分布式环境下尽量规避用collect，会有性能问题。

安装jupyter notebook并集成pyspark记录

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页