用語解説
Amazon Redshiftとは、AWSが提供するフルマネージドのペタバイト規模クラウドデータウェアハウスサービスです。列指向ストレージと大規模並列処理(MPP)により、複雑な分析クエリを高速に実行します。
Redshift Spectrumを使うとS3上のデータレイクを直接クエリでき、Redshiftクラスターにロードすることなく外部データを分析できます。BIツール(Tableau・QuickSight・Looker等)からJDBC/ODBCで接続してビジネスインテリジェンスの基盤として活用されます。
どんな場面で活用するか
- 数百GBから数十TBの販売データ・ログデータに対してBIツールから複雑な集計クエリを実行する場合
- S3データレイクとRedshiftを組み合わせたレイクハウスアーキテクチャで柔軟な分析基盤を構築する場合
- 複数のデータソースをGlue ETLでRedshiftに統合しデータウェアハウスとして一元的に管理する場合
よくある誤解
「RedshiftはOLTP用途のトランザクション処理にも最適だ」は誤りです。正しくはRedshiftはOLAP(分析処理)に特化した設計であり、頻繁な小規模INSERT/UPDATE/DELETEが多いトランザクション処理にはRDS/AuroraのほうがはるかにI/O効率が高くなります。
判断のヒント
パフォーマンスチューニング:Redshiftのパフォーマンスはソートキーと分散キーの設計に大きく依存します。EXPLAIN コマンドで実行計画を確認し、ネステッドループ結合の発生を排除することで劇的な高速化が期待できます。