2016/01/18

13.5TBのデータセット。どう使う?

Yahoo!が機械学習などの研究者向けに13.5TBという超巨大なデータセットを公開しました。

Yahooは今朝、Yahoo Labs Webscopeからこれまでで最大となる機械学習のためのデータセットを学術研究コミュニティーに解放すると発表した。この新たなデータセットの容量は驚きの13.5テラバイト(圧縮していない)で、匿名化したユーザーのインタラクションデータで構成されている。具体的には2015年2月から2015年5月までにYahooのホームページ、Yahooニュース、Yahooスポーツ、YahooファイナンスとYahoo不動産を訪れた2000万人のインタラクションデータだ。
Yahooがこれまでで最大の機械学習用データセットを研究コミュニティーに解放 | TechCrunch Japan

誰でも簡単にダウンロードできるようなシロモノではないものの、これだけの公開データは過去最大規模のようです。もっとも普通の規模の会社だとこの規模のログデータなんて集まらない気も。。。


確かにこれだけの規模のデータを分析するのであればHadoopのような分散処理の仕組みが必要ですね。Hadoopの生みの親がYahoo‼出身なのもの納得です。



ちなみに先日作ったさくらのクラウドのオブジェクトストレージ概算器に入れたところ、全部保存するとして月額64,260円で格納可能です。
思ったより安かった。