GLOSSARY

AWS Glue

AWS Glue

用語解説

AWS Glueとは、AWSが提供するサーバーレスのETL(Extract, Transform, Load)サービスです。データの抽出・変換・ロードを自動化し、データレイクやデータウェアハウスの構築を支援します。

Glue Data CatalogはS3・RDS・DynamoDBなどのメタデータを一元管理するカタログとして機能し、クローラーがデータソースを自動スキャンしてスキーマを検出・登録します。Apache Sparkベースのジョブエンジンで大規模なデータ変換処理を実行できます。

どんな場面で活用するか

  • 複数のデータソース(RDS・S3・DynamoDB)からデータを抽出してRedshiftに統合ロードするETLパイプラインを構築する場合
  • S3のデータレイクのスキーマをGlue Data CatalogでAthena・EMRから利用できるよう管理する場合
  • 異なるフォーマット(CSV・JSON・Parquet)のデータを変換して統一的なデータモデルに整形する場合

よくある誤解

AWS GlueはリアルタイムストリーミングETLには使えない」は誤りです。正しくはGlue Streaming ETLジョブはKinesis Data StreamsやApache Kafkaからのストリームデータのリアルタイム変換に対応しています。

判断のヒント

コスト管理:Glueのジョブ料金はDPU(Data Processing Unit)時間で課金されます。Glue Studio で実行プランを確認し不要なパーティションスキャンを排除し、プッシュダウン述語を活用することでDPU使用量とコストを削減できます。

「この用語を自社で活用できるか確認したい」
「どの施策から始めるべきか相談したい」

無料相談で最適な活用方法をご提案します。