用語解説
AWS Glueとは、AWSが提供するサーバーレスのETL(Extract, Transform, Load)サービスです。データの抽出・変換・ロードを自動化し、データレイクやデータウェアハウスの構築を支援します。
Glue Data CatalogはS3・RDS・DynamoDBなどのメタデータを一元管理するカタログとして機能し、クローラーがデータソースを自動スキャンしてスキーマを検出・登録します。Apache Sparkベースのジョブエンジンで大規模なデータ変換処理を実行できます。
どんな場面で活用するか
- 複数のデータソース(RDS・S3・DynamoDB)からデータを抽出してRedshiftに統合ロードするETLパイプラインを構築する場合
- S3のデータレイクのスキーマをGlue Data CatalogでAthena・EMRから利用できるよう管理する場合
- 異なるフォーマット(CSV・JSON・Parquet)のデータを変換して統一的なデータモデルに整形する場合
よくある誤解
「AWS GlueはリアルタイムストリーミングETLには使えない」は誤りです。正しくはGlue Streaming ETLジョブはKinesis Data StreamsやApache Kafkaからのストリームデータのリアルタイム変換に対応しています。
判断のヒント
コスト管理:Glueのジョブ料金はDPU(Data Processing Unit)時間で課金されます。Glue Studio で実行プランを確認し不要なパーティションスキャンを排除し、プッシュダウン述語を活用することでDPU使用量とコストを削減できます。