The Dabsong Conshirtoe

技術系の話を主にします。

2016-01-01から1年間の記事一覧

PyConJP 2016で「Pythonで入門するApache Spark」を話した

1ヶ月近く過ぎてしまいましたが、今年のPyConJPで、「Pythonで入門するApache Spark」というタイトルでスピーカーを務めさせていただきました。 資料 Jupyterコード 動画 PyConJPには参加者として2012年くらいから参加していましたが、スピーカーとして参加…

SparkのShuffleについて調べてみる (4:Shuffle Readの実装探検)

前回の記事では、SparkのShuffle Writeの実装を追ってみました。 今回は、Shuffle Readの実装について調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。) Shuffle Read Shuffle Readは、Shuffle Writeに…

SparkのShuffleについて調べてみる (3:Shuffle Writeの実装探検)

前回の記事では、SparkのShuffleについて、Physical Planから見た内容についてまとめました。 今回は、実行時の観点からのShuffle Writeについて調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。) 実行…

SparkのShuffleについて調べてみる (2:Physical Plan)

前回の記事では、SparkのShuffleについての概要と、Logical Planから見たShuffleについてまとめました。 今回は、Physical Planから見たShuffleについて調べていきたいと思います。(前回と同じく今回も個人的な理解の促進のためにこの日記を書いています。…

「詳解Apache Spark」刊行

技術評論社から「詳解Apache Spark」が刊行されました! www.amazon.co.jp 今回、私は内容のレビューという形でこの本の出版に関わらせていただきました。 総評 Apache Sparkについてなかなか網羅的にまとめられている良本です。Sparkは情報が出てきていると…

低レベルな技術も大事ですよね。

昔お世話になった方が書いていたので読んでみました。 www.wantedly.com 感想を適当に。 低レベルな技術を身につけよう マネージドサービスや、高レベルなAPIを備えたミドルウェアに囲まれて生きている我々には耳の痛い話です。 全員がLinuxカーネルについて…

SparkのShuffleについて調べてみる (1:概要とLogical Plan)

Sparkでは、reduceByKeyやgroupByKeyのような特定の処理を行う場合、シャッフルと呼ばれる処理が実行されます。 これの詳細について自分なりにある程度詳細な理解がしたかったのでまとめてみます。 Sparkのバージョンは1.6.1です。 SparkでのShuffleの概要 S…

Spark1.6 - Datasetの導入とメモリ管理の変更

spark1.6がリリースされました。 Spark 1.6.0 released | Apache Spark 詳しい変更点は上記を見ていただくとして、ここではDatasetとメモリ管理方式の変更について紹介します。 メモリ管理の変更 Spark1.6ではメモリ(ヒープ)の管理が柔軟になり、より効率…

Scala占い

あけましておめでとうございます。 恒例の占い企画です。 2013年はPython、2014年はHaskell、2015年はGoで占いをしました。今年はScalaです。 scala> import scala.util.Random import scala.util.Random scala> Random.shuffle(List("大凶", "凶", "大吉", …