pyspark Acemyzoe

Spark

Apache Spark 是一个快速而强大的框架,提供 API 来对弹性数据集执行大规模分布式处理。

弹性分布式数据集 (RDD),RDD 是该引擎的基础和骨干数据类型。

Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。

MLlib 是 Apache Spark 的可扩展机器学习库。

Apache Spark 是用 Scala 编程语言编写的。PySPark 的计算速度和能力与 Scala 相似。PySpark 是一个并行的分布式引擎,用于运行大数据应用程序。

  1. 使用 PySpark 执行大数据分析
  2. 通过利用 Spark SQL 模块,将 sql 查询与 DataFrames 配套使用
  3. 将机器学习与 MLlib 库一起使用

使用 PySpark 处理结构化数据和进行机器学习建模

API文档

https://spark.apache.org/docs/latest/api/python/

教程

http://codingdict.com/article/8880 Pyspark 教程

https://developer.ibm.com/zh/technologies/analytics/tutorials/getting-started-with-pyspark/API 学习使PySpark 入门

https://zhuanlan.zhihu.com/p/57792897 pyspark学习–dataframe操作