高速なSQLでのデータ分析を目指す場合、Hadoop系の技術を使ってHDFSにORCやParquet形式でテーブルを格納してHive、Presto、Spark SQLでクエリーする方向と、ある意味素直にPostgresSQLで分析 (analytic use case) 向けの構成でクラスターを組む方向があるようなのだけれど、どっちが良いのかよく分からない。

何となく、それぞれの説明で出てくるクラスターノード数から憶測するに、性能のスケール具合は前者が、構築容易性は後者が優れていそうな印象ではある。確かめるのは、なかなか難しいね。さてはて、どうしたものか。