spark
1ヶ月近く過ぎてしまいましたが、今年のPyConJPで、「Pythonで入門するApache Spark」というタイトルでスピーカーを務めさせていただきました。 資料 Jupyterコード 動画 PyConJPには参加者として2012年くらいから参加していましたが、スピーカーとして参加…
前回の記事では、SparkのShuffle Writeの実装を追ってみました。 今回は、Shuffle Readの実装について調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。) Shuffle Read Shuffle Readは、Shuffle Writeに…
前回の記事では、SparkのShuffleについて、Physical Planから見た内容についてまとめました。 今回は、実行時の観点からのShuffle Writeについて調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。) 実行…
前回の記事では、SparkのShuffleについての概要と、Logical Planから見たShuffleについてまとめました。 今回は、Physical Planから見たShuffleについて調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。…
技術評論社から「詳解Apache Spark」が刊行されました! www.amazon.co.jp 今回、私は内容のレビューという形でこの本の出版に関わらせていただきました。 総評 Apache Sparkについてなかなか網羅的にまとめられている良本です。Sparkは情報が出てきていると…
Sparkでは、reduceByKeyやgroupByKeyのような特定の処理を行う場合、シャッフルと呼ばれる処理が実行されます。 これの詳細について自分なりにある程度詳細な理解がしたかったのでまとめてみます。 Sparkのバージョンは1.6.1です。 SparkでのShuffleの概要 S…
spark1.6がリリースされました。 Spark 1.6.0 released | Apache Spark 詳しい変更点は上記を見ていただくとして、ここではDatasetとメモリ管理方式の変更について紹介します。 メモリ管理の変更 Spark1.6ではメモリ(ヒープ)の管理が柔軟になり、より効率…
最近はSparkにお熱ということで、spark-summit 2014で催されたSpark StreamingでTwitterのタイムラインからハッシュタグの出現頻度を抽出する、というお題をやってみたいとおもいます。 spark-summit 2014のhands on資料 Stream Processing w/ Spark Streami…