【AWS】Amazon Redshift のテーブル作成からデータのロードまでの方法（入門編）

Amazon Redshift のクラスター作成から接続までができたら、次はテーブルを作成してデータをロードするまでを実施します。試してみたいけどデータがないという方は AWS の方でサンプルデータが用意されていますので問題ありません。この記事は Redshift 入門ガイドのステップ 5: Amazon S3 のサンプルデータをロードする - Amazon Redshift を元にすすめています。

テーブルの作成

データをロードするためのテーブルを作成します。ステップ 5: Amazon S3 のサンプルデータをロードする - Amazon Redshift にあるcreate table文をコピーして実行してください。今回の実行環境には SQL Workbench/J を使用しています。

f:id:tasukujp:20150822193529p:plain

Database Explorer をクリックしてテーブルが作成されたか確認しましょう。

f:id:tasukujp:20150822200307p:plain

f:id:tasukujp:20150822200320p:plain

Amazon S3からデータのコピー

テーブルの作成が完了したらデータをコピー（ロード）します。Redshift では大容量のデータをロードする場合には、Amazon Redshift SQL COPY コマンドによる S3、DynamoDB からの一括ロードが推奨されています。これは、AWS上でデータを並列に処理して Redshift にロードでき、効率が良いためです。これに比べ、INSERT クエリによる1件ずつのレコード追加はパフォーマンスが悪いです（INSERT...SELECT構文は除く）。

それでは AWS のサンプルデータを使用してロードします。COPYクエリの<region-specific-bucket-name>と<Your-Access-Key-ID>と<Your-Secret-Access-Key>を置き換えて実行しましょう。

f:id:tasukujp:20150822202646p:plain