Spark

Jupyter NotebookでSpark(PySpark)を起動する

Spark の Python 実行環境である PySpark を Jupyter Notebook で起動する方法です。PySpark 単体だと補完も効かずに使いにくいですが、Jupyter Notebook と組み合わせる事で使い勝手が格段に向上します。

SparkのPairRDDについて

Apache Spark の ペアRDD(PairRDDFunctions)について。

SparkのDoubleRDDについて

Apache Spark の DoubleRDD(Functions)について。

SparkのRDDについて

Apache Spark の RDD について。

Sparkアプリケーションの実行方法(spark-submit)

Spark アプリケーションの実行コマンドである spark-submit の使用方法と実行のサンプルプログラムです。

Sparkのインストール方法

Spark のインストールについてまとめました。