auの日記

プログラミング初心者の日記。(auはハンドルネームです)

Apache Hadoopについて調べてみた

auです。

課題をやったらHadoopについて理解が深まったのでまとめようと思います。

Hadoopとは

Apache Hadoopは、複数のサーバ上で分散処理を行います。

スケールアウトが可能なため、サーバの台数に比例して処理能力が向上します

また、冗長性が高く、一つのサーバがダウンしても、他のサーバで代用することが可能です。

Hadoopは多くのデータを処理できる特徴もあり、数ペタバイト級のデータすら処理できます。ちなみにディスク上で処理を行うためちょっと遅いです。

Apache Sparkというものもあり、こちらはメモリで処理をするため非常に処理が早いです。