GCPデータベースまとめ


GCPにおけるデータベースの比較をまとめています。

特徴 BigQuery Cloud SQL Cloud Spanner Cloud Dataproc Cloud Firestore(旧DataStore) Cloud Bigtable
サービスの種類 分析データウェアハウス RDB(リレーショナルデータベースサービス) RDB(リレーショナルデータベースサービス) マネージドHadoop/Sparkサービス ドキュメント指向データベース 分散型NoSQLデータベース
主なユースケース 大規模データ分析、クエリ処理 トランザクション処理、小・中規模アプリケーション グローバル規模の分散データベース、トランザクション処理 大規模データ処理、バッチ処理 モバイル・Webアプリケーション、リアルタイムデータ IoT、時系列データ、分析、リアルタイムデータ
データモデル 列指向型データストア リレーショナル(SQL) リレーショナル(SQL) HDFS, Parquet, ORCなどの形式をサポート ドキュメント指向(JSONライク) 列指向(HBase API互換)
スケーリング 自動スケーリング 垂直スケーリング 水平スケーリング クラスターのサイズと構成によるスケーリング 自動スケーリング 自動スケーリング
ストレージとコンピュートの分離 はい いいえ いいえ はい いいえ はい

(*)GCS(Google Cloud Storage)とはストレージサービス。AWSで言う。S3。

データ可視化にはGCPサービスの"Looker Studio"を利用する。

Looker Studio の主なデータソース
・データベース(BigQuery、MySQL、PostgreSQL など)
・Google マーケティング プラットフォーム サービス(Google 広告、アナリティクス、ディスプレイ&ビデオ 360、検索広告 360 など)
・Google の一般向けサービス(スプレッドシート、YouTube、Search Console など)
・CSV ファイルのアップロードおよび Google Cloud Storage を介したフラット ファイル
・ソーシャル メディア プラットフォーム(Facebook、Reddit、Twitter など)
・その他ソースの組み合わせ

(1)BigQuery

・サーバーレスの低コストのエンタープライズ データ ウェアハウスでデータベース管理者が不要。データ アナリストの生産性を高める。使い慣れたSQLを使用してデータの分析、洞察を見つけることが可能。
・列指向ストレージ上に論理データ ウェアハウスを作成。
・オブジェクト ストレージやスプレッドシートからのデータ作成が可能。
・スコープ(scope)により、特定のコンテキストや使用目的に関連する範囲や範囲を指定。

Dataproc と Dataflowの違い

特徴 Dataproc Dataflow
サービスの種類 マネージドHadoop/Sparkサービス ストリームおよびバッチデータ処理サービス
主なユースケース 大規模データ処理、バッチ処理 ストリーム処理、バッチ処理、ETLワークフロー
データ処理エンジン Apache Hadoop、Apache Spark Apache Beam
処理方式 バッチ処理、ストリーム処理 ストリーム処理、バッチ処理
クラスタ管理 ユーザーがクラスターを手動で管理・構成 サーバーレスで自動スケーリング
スケーリング クラスターのサイズと構成によるスケーリング 自動スケーリング
使いやすさ Hadoop/Sparkの知識が必要 Apache Beamを使用するため、プログラムの知識が必要
コスト管理 クラスターの起動と停止によりコストを管理 使用したリソースに基づく課金、サーバーレス
インテグレーション Hadoopエコシステムとの高い互換性 他のGCPサービス(BigQuery、Pub/Subなど)との統合
開発とデプロイ 自動化とスクリプトを使用してデプロイ コードベースのパイプラインとしてデプロイ



[戻る]