たくさんのサーバを並列して処理をするなんてロマンがあるじゃないですか。
2009年ごろには実際にまだ一般的ではなかったAmazon EC2上でHadoopを動かしたりしていたわけです。 → Amazon EC2上で Hadoopを動かした
このころはApache Hadoop 0.20くらいの時代です。
業務で扱うこともなく、知識としてかじっている程度。
そんな私が年に一度Hadoop漬けになる日があるわけです。
Hadoop / Spark Conference Japan 2016
終わったあとにぐったりするくらい刺激が多すぎて疲れちゃいます。
今回のイベントに参加した感想をちょっとだけ。
- YARN(分散環境のリソース管理)が一般的だった
- MapReduceオワコン。これからはApache Tezに変わってゆく
- HiveQLとかSpackSQLとかSQL互換のインターフェイスが一般的
- セキュリティなどのエンタープライズにどんどんフォーカスがあたっている
なんというかNTTデータやIBMがコミットしているくらいですから完全にエンタープライズの世界なんですね。たくさんの計算機資源をクラウドで調達してHadoopでぶん回して、何台か壊れても処理継続のために痛くも痒くもない!みたいな夢のある世界はとっくの昔終わっていたわけです。
今回は事前登録で1300人を超える方が参加申し込みされたそうです。
知らないだけでビッグデータってそんなにビジネスになっているんでしょうか?
某ベンダーのセッションがクラウドのDWHをオンプレのHadoop / Spackに載せ替えるという案件の紹介でしたが、ハートメーカの担当者とHadoopディストリビューションのエンジニアが数ヶ月付きっきりでDWHと比べて早くなったという話。
クラウド上のDWHはすごくパフォーマンス良いですね!
さて、Yahoo!の6000ノード+120PB規模のクラスタを必要している会社はどれくらいあるんでしょう?12,000店舗を超えるコンビニチェーンの発注処理を扱うシステムを受注する会社ってどれくらいあるんでしょうか?
そんな意味ではさくらインターネットの数十台程度の規模で原価計算処理をやっているという事例紹介は、自分の中では現実的な活用事例である気がします。
セッション内容としてはHadoop云々よりも業務プロセス設計大事という話でしたが。
ここをこうやったら3秒改善するよ みたいなテクニックの話も目立ち、リアリティのある話が多かった印象です。
もっとワクワクしそうなRSA(rack scale architecture)の世界とかを追いかけてみたいと思います。