Spark
Apache Spark 是一个快速而强大的框架,提供 API 来对弹性数据集执行大规模分布式处理。
弹性分布式数据集 (RDD),RDD 是该引擎的基础和骨干数据类型。
Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。
MLlib 是 Apache Spark 的可扩展机器学习库。
Apache Spark 是用 Scala 编程语言编写的。PySPark 的计算速度和能力与 Scala 相似。PySpark 是一个并行的分布式引擎,用于运行大数据应用程序。
- 使用 PySpark 执行大数据分析
- 通过利用 Spark SQL 模块,将 sql 查询与 DataFrames 配套使用
- 将机器学习与 MLlib 库一起使用
使用 PySpark 处理结构化数据和进行机器学习建模
API文档
https://spark.apache.org/docs/latest/api/python/
教程
http://codingdict.com/article/8880 Pyspark 教程
https://developer.ibm.com/zh/technologies/analytics/tutorials/getting-started-with-pyspark/API 学习使PySpark 入门
https://zhuanlan.zhihu.com/p/57792897 pyspark学习–dataframe操作