読者です 読者をやめる 読者になる 読者になる

NTT・NTTデータのHadoop関連スライドまとめ

最近、並列分散システムにはまってる。
といっても自分でHadoopクラスタを組んで、分散処理やってます、とかではなくて、Web上の記事やスライド、論文を読んで粛々と情報収集をしている段階。

HadoopMapReduceってコトバは知っていたが、詳しい仕組みを知らなくて色々漁っていたら、NTTやNTTデータHadoopコミッターの人たちが発表に使ったスライドがスライドシェアに多数アップされていたので、自分の興味と合致したものをまとめてみた。

Apache Hadoop エコシステム を中心とした分散処理の今と未来
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)
Hadoopの構成についての説明がわかりやすい。
また、最近ばんばん出てきてるHadoop(HDFS)上で動作するツール群(Hive、YARN、Spark、Storm、Tez、Impala、Presto等々)の位置づけが整理できる。

ストリームデータ分散処理基盤Storm
StormというHDFS上で動くストリーム処理基盤の紹介。
あんまり良くわからんかったが一応載せておく。

Apache Spark の紹介(前半:Sparkのキホン)
Apache Sparkのご紹介 (後半:技術トピック)
NTTデータにおける Apache Spark への取り組み
Hadoop上で動作するMapReduceは処理を繰り返すためにデータをストレージに書き出し・読み出しが必要になり、良いパフォーマンスが得られない。
そこで出てきたのがSpark。
Sparkはオンメモリで処理を行うので、機械学習で良く出てくる繰り返しパラメータを更新していくような処理で効果を発揮する。
スライドではSparkの開発の動機とかSparkの思想・仕組みが良くまとまっていてわかりやすかった。

ちゃんとした人たちのスライドだけあって、しっかりした内容があるし安心感がある。
そして、スライドもみやすい。
それにしてもNTTデータってすごい人もいるのだなあと。