Amazon Redshiftの利点

2013年06月30 14時54分

Amazon Redshiftの利点

Amazon Redshiftについて色々と聞く機会があった。その時聞いたことメモ。

Amazon EMRとAmazon Redshiftの違い

まずは、よく比較されることになるEMRとRedshiftの違いから。

Amazon EMR

HadoopクラスタとHiveを簡単に使うためのサービス。自由な台数のクラスタを自由なタイミングで起動したり破棄したりできる。

Hadoopクラスタ運用(初期設定、チューニング、等)の手間が完全に不要なのはものすごいメリット。

クエリの速さは、ログの量によりますが、数分～数十分くらいかかる。(ログの行数が数百万～数千万ある時)

Amazon Redshift

利用者から見た基本的な用途・できることはEMRとほとんど同じ。ただ、仕組みが全く違う。

RedshiftはRDBのような(Postgresベースらしい)テーブル設計を持つ。例えば、VARCHAR(255)みたいなカラムを持つ。EMR(Hive)では全部のカラムをSTRINGにしたりしても(パフォーマンス的に)全然OK。

RDBのようなややこしいテーブル設計が必要な代わりに、クエリの実行速度はHiveよりも断然早い。(最大で10倍、通常は2～3倍くらい？)

いわゆる普通のSQLが使えるので、fromの後にテーブル名を2つ書いたりできて便利。HiveQLだとそういう省略記法が書けないのでJOINを丁寧に書いていく必要がある。

EMRとRedshiftのどちらを選ぶべきか

ざっくり言うと、EMRはシンプルだけど遅い、Redshiftは複雑だけど早い、という違いがある。値段は、EMRの方が比較的安いっぽい。

ログの行数が数百万～数億くらいならEMRを選んだ方がよいと思う。

早い遅いと言っても、EMRもRedshiftも、通常のDBのようにクエリの結果をミリ秒オーダーで返すDBではない。あくまでもバッチ集計用と割り切った方がよい。

EMRはシンプルでRedshiftは複雑と書いたのは、主にテーブルのカラムの部分。とは言っても、EMR(Hive)は自分で圧縮コーデックやファイルフォーマットを指定する必要があるし、どっちがシンプルかは一概には言えない。

テーブルに対してDISTKEYとSORTKEYを指定する必要がある

ここからはRedshiftの特徴について書いていきます。

DISTKEYはカーディナリティが良い(データが最もばらついている)であろうカラムに指定する。

SORTKEYは範囲指定をすることが多いカラムに指定する。例えばDateTime型とか。

DISTKEYとSORTKEYは一見、RDBにおけるインデックスっぽいけど、インデックスとはけっこう違うものらしい。あと、カラムナー指向のDBではDISTKEYとSORTKEYの考え方は割と一般的らしい。

同時実行クエリ数は最大15

並列に実行できるクエリは最大15個らしい。FIFOのキューとして実装されている。

それだけだと遅いクエリがきたときに早いクエリも含めて全部ストップしてしまうので、早いクエリ用のキューと遅いクエリ用のキューを分けることができる。

遅いクエリ用のキューと早いクエリ用のキューはユーザーグループごとに使い分けるっぽい。

同時接続セッション数は最大95

通常のWebアプリケーションからがんがん接続するような用途には使いづらい。そもそもクエリが遅いってのもありますが。

クエリの実行に最低でも数分くらいはかかるので、どうしてもWebアプリケーションからクエリを実行したいなら、結果をキャッシュしておくとか、一旦別のDBを介すとか工夫する必要がある。

ストレージ容量はすごくでかい

細かくは忘れたけどテラ単位だったような。

Redshiftのストレージとは別にS3を介すことになるので、S3に保存しっぱなしにしておくなら実質的には容量無限です。

バックアップにはスナップショットを利用する

AWSを使う人にはお馴染みのスナップショットの仕組みを使って障害に備えることになる。デフォルトでは半日に1回くらい自動でスナップショットが取られるっぽい。

任意のタイミングでスナップショットを取ることもできる。

Redshiftのストレージとは別にS3もあるのでまぁ普通に安心できると思う。

インスタンスタイプはh1.xlarge、h1.8xlargeから選べる

それぞれのインスタンスを使いたい台数分指定してRedshiftを起動することになる。シングルインスタンス構成も可能。

間違いのご指摘やご意見は@ts_3156まで

よろしくお願いします(^^)

著者プロフィール

Webサイトをいくつか作っています。

ツイッターはこちら

新着記事

・2015/12/23

re:Work - Guide: 素晴らしいマネージャーを賞賛し、素晴らしいマネージャーから学ぶ new

・2015/12/19

re:Work - Guide: マネージャーの能力を伸ばし、マネージャーをサポートする new

・2015/12/16

re:Work - Guide: 素晴らしいマネージャーの要素を見付け出す new

・2015/12/13

re:Work - Subject: マネージャー

・2015/12/13

re:Work - Guide: 候補者の応募体験を形作る

・2015/12/13

re:Work - Guide: 面接者をトレーニングする

・2015/12/08

re:Work - Guide: 委員会方式による採用意思決定

・2015/12/05

re:Work - Guide: 構造化面接を実施する

・2015/12/05

re:Work - Guide: 履歴書をレビューする

・2015/12/04

re:Work - Subject: 採用

・2015/12/04

re:Work - Guide: 募集要項の書き方

・2015/04/29

RubyMineでMarkDownのみ行末の空白を残す設定

新しい記事一覧

ソーシャルランキング

・2013/05/30

Lean Analytics: KPIにしてはいけない8つの指標 349 users

・2011/12/20

楽天が大成功した理由とクラウドファンディングが成功しない理由 174 users

・2013/05/26

ニコニコ動画のタグの傾向を見てみた 77 users

・2013/05/28

ニコニコ動画のタグネットワークを描画してみた 75 users

・2012/11/25

fluentdの簡単な使い方、設定方法一覧 65 users

・2012/03/24

Android SDK r17で高速化されたAndroidエミュレータを動かす全手順 59 users

・2011/12/19

とんQに提案メールを送ったらすっごい丁寧な返事が返ってきた！ 42 users

・2013/03/17

各種レコメンドアルゴリズムの特徴・計算方法まとめ 35 users

・2013/05/29

ABテストを検定する 34 users

・2013/03/14

Job Queueシステムを自分で設計するときに必要な設定項目メモ 29 users

・2013/03/14

Job Queueシステムを自分で設計するときに必要な設定項目メモ 29 users

アクセス数ランキング

・2012/01/07

Android端末のGoogleアカウント同期機能まとめ【電話帳、Gmail、カレンダー、Picasa】

・2012/03/24

Android SDK r17で高速化されたAndroidエミュレータを動かす全手順

・2012/10/14

HTMLだけでツイッターを埋め込む方法

・2011/12/20

楽天が大成功した理由とクラウドファンディングが成功しない理由

・2012/10/10

絵師さんが参考にしているサイトだいたい200個まとめ

Hive Color

Hive Color