GLOSSARY

AWS Glue

AWS Glue

用語解説

AWS Glueとは、AWSが提供するサーバーレスのETL（Extract, Transform, Load）サービスです。データの抽出・変換・ロードを自動化し、データレイクやデータウェアハウスの構築を支援します。

Glue Data CatalogはS3・RDS・DynamoDBなどのメタデータを一元管理するカタログとして機能し、クローラーがデータソースを自動スキャンしてスキーマを検出・登録します。Apache Sparkベースのジョブエンジンで大規模なデータ変換処理を実行できます。

どんな場面で活用するか

複数のデータソース（RDS・S3・DynamoDB）からデータを抽出してRedshiftに統合ロードするETLパイプラインを構築する場合
S3のデータレイクのスキーマをGlue Data CatalogでAthena・EMRから利用できるよう管理する場合
異なるフォーマット（CSV・JSON・Parquet）のデータを変換して統一的なデータモデルに整形する場合

よくある誤解

「AWS GlueはリアルタイムストリーミングETLには使えない」は誤りです。正しくはGlue Streaming ETLジョブはKinesis Data StreamsやApache Kafkaからのストリームデータのリアルタイム変換に対応しています。

判断のヒント

コスト管理：Glueのジョブ料金はDPU（Data Processing Unit）時間で課金されます。Glue Studio で実行プランを確認し不要なパーティションスキャンを排除し、プッシュダウン述語を活用することでDPU使用量とコストを削減できます。

「この用語を自社で活用できるか確認したい」
「どの施策から始めるべきか相談したい」

無料相談で最適な活用方法をご提案します。

お問い合わせ

無料デモ予約

有効リード数を最大化するには？サービス紹介資料をダウンロード