auです。
課題をやったらHadoopについて理解が深まったのでまとめようと思います。
Apache Hadoopは、複数のサーバ上で分散処理を行います。
スケールアウトが可能なため、サーバの台数に比例して処理能力が向上します。
また、冗長性が高く、一つのサーバがダウンしても、他のサーバで代用することが可能です。
Hadoopは多くのデータを処理できる特徴もあり、数ペタバイト級のデータすら処理できます。ちなみにディスク上で処理を行うためちょっと遅いです。
Apache Sparkというものもあり、こちらはメモリで処理をするため非常に処理が早いです。