The Dabsong Conshirtoe

技術系の話を主にします。

spark

PyConJP 2016で「Pythonで入門するApache Spark」を話した

1ヶ月近く過ぎてしまいましたが、今年のPyConJPで、「Pythonで入門するApache Spark」というタイトルでスピーカーを務めさせていただきました。 資料 Jupyterコード 動画 PyConJPには参加者として2012年くらいから参加していましたが、スピーカーとして参加…

SparkのShuffleについて調べてみる (4:Shuffle Readの実装探検)

前回の記事では、SparkのShuffle Writeの実装を追ってみました。 今回は、Shuffle Readの実装について調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。) Shuffle Read Shuffle Readは、Shuffle Writeに…

SparkのShuffleについて調べてみる (3:Shuffle Writeの実装探検)

前回の記事では、SparkのShuffleについて、Physical Planから見た内容についてまとめました。 今回は、実行時の観点からのShuffle Writeについて調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。) 実行…

SparkのShuffleについて調べてみる (2:Physical Plan)

前回の記事では、SparkのShuffleについての概要と、Logical Planから見たShuffleについてまとめました。 今回は、Physical Planから見たShuffleについて調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。…

「詳解Apache Spark」刊行

技術評論社から「詳解Apache Spark」が刊行されました! www.amazon.co.jp 今回、私は内容のレビューという形でこの本の出版に関わらせていただきました。 総評 Apache Sparkについてなかなか網羅的にまとめられている良本です。Sparkは情報が出てきていると…

SparkのShuffleについて調べてみる (1:概要とLogical Plan)

Sparkでは、reduceByKeyやgroupByKeyのような特定の処理を行う場合、シャッフルと呼ばれる処理が実行されます。 これの詳細について自分なりにある程度詳細な理解がしたかったのでまとめてみます。 Sparkのバージョンは1.6.1です。 SparkでのShuffleの概要 S…

Spark1.6 - Datasetの導入とメモリ管理の変更

spark1.6がリリースされました。 Spark 1.6.0 released | Apache Spark 詳しい変更点は上記を見ていただくとして、ここではDatasetとメモリ管理方式の変更について紹介します。 メモリ管理の変更 Spark1.6ではメモリ(ヒープ)の管理が柔軟になり、より効率…

spark-summit 2014のSpark Streamingのお題をやってみる

最近はSparkにお熱ということで、spark-summit 2014で催されたSpark StreamingでTwitterのタイムラインからハッシュタグの出現頻度を抽出する、というお題をやってみたいとおもいます。 spark-summit 2014のhands on資料 Stream Processing w/ Spark Streami…