BLOG

データ分析

データレイクを構築できる代表的な5製品を比較

MARKETER'S NOTE

膨大なデータを整理するのに近年使われているデータレイク。そもそもデータレイクとはどのようなサービスを指すのでしょうか。この記事では、データレイクの説明やデータレイク構築時のポイント、データレイクが構築できる製品などを詳しく解説します。データレイクに興味がある方は、ぜひ参考にしてください。

データレイクとは

そもそもデータレイクとは、さまざまなデータを、形式を変えずに保持・保管できる中央ストレージのことを指します。データを魚にたとえ、データが自由に泳ぎ回る湖(レイク)と考えるとわかりやすいでしょう。

データレイクは、保管データの形式を変えないという点が大きな特徴です。この特徴により、構造化データ・非構造化データ問わず、あらゆるデータを保管しておけます。一般に、画像や動画、音声、メモなど多くのデータは、非構造化データという形式を持たないデータであるため、データレイクはより柔軟にデータを保管できるとして、近年注目を集めています。

IT分野のリサーチやアドバイザーをしているガートナー社は、データレイクを「各種データ資産のストレージ・インスタンスの集合」だと定義しています。この定義の通り、データレイクに保管されたデータは、資産として、IoTへの活用やリアルタイム分析、機械学習など、さまざまな場面で活用できます。データレイクを通して、データを活用していくことは、より高度なデータ分析につながり、さらなる企業の発展にも貢献するでしょう。

データレイク構築時のポイント

利便性の高い状態でデータを保管できるデータレイクですが、構築時にはいくつか注意しておきたいポイントがあります。ここではそのポイントを紹介します。

事前のデータアセスメント

さまざまなデータを保管できるデータレイクですが、雑多にデータを詰め込んでいては、その後の分析がしづらくなります。事前に「どのようなデータを保管するのか」をある程度決めておくとよいでしょう。セキュリティポリシーにより、データの取り出しや活用が一部に限定される場合もあるため、よく確認しておくことが大切です。

データソースとの自動連携

データレイクを利用する際に、手作業ですべてのデータを保管するのは大変面倒であり、エラーやミスが起きる原因にもなります。そのため、データソースとの自動連携があると便利です。現在利用している主要なデータソースとの連携ができるかどうかをチェックしておきましょう。

データの流れ

データのアップロードやダウンロード、分析などのデータ活用の流れは、基本的に一方通行になるようにしましょう。逆方向でのデータ活用ができる状態では、データの管理やエラー時の対応が難しくなります。

データカタログの活用

データレイク運用時にもっとも気をつけておきたいのが、データカタログの活用です。データレイクでは、あらゆるデータをそのまま保管できるため、管理をしておかないと必要なデータと不必要なデータが入り混じった雑然とした状態になってしまいます。この状態を、沼を表すスワンプという単語を使って、データスワンプといいます。
データスワンプは、データレイクがデータをそのまま保管できてしまうことが原因で起こります。これを防ぐには、保管しているデータの情報をグループやタグなどで検索可能にしたデータカタログを用意し、管理することが大切です。データカタログで識別したデータを定期的に削除することで、データレイクをきれいな状態に保てます。

データレイクを構築できるサービス一覧

近年では、データレイクを構築できるサービスがいくつも提供されています。ここでは、中でもおすすめの5つのサービスを紹介します。

Amazon S3(AWS)

https://aws.amazon.com/jp/s3/
Amazon Simple Storage Service(Amazon S3)は、AWSが提供する最大級・ハイパフォーマンスなデータレイク向けストレージサービスです。Netflixを始め、Georgia-Pacific、NASDAQ、Syscoなど、多くの有名企業がAmazon S3を利用してデータレイクを構築しています。

Amazon S3の最たる特徴は、「99.999999999% (イレブンナイン) の耐久性」と「オンデマンドのスケーラビリティ」と言えるでしょう。

・99.999999999% (イレブンナイン) の耐久性
Amazon S3は、高いデータ耐久性を実現するように設計されています。どの程度の耐久性かというと、1,000万件のデータを1万年保管して1件失われるかどうか、といったレベルです。さらにAmazon S3では、自動的に複数のシステム間でデータの複製・保存が行われるので、極めて高い水準でのデータ保護が可能です。

・オンデマンドのスケーラビリティ
Amazon S3では、必要に応じてストレージリソースをスケールアップ・ダウンさせられます。先行投資や時間のかかるリソースの調達サイクルが不要となり、あらゆる企業の需要に素早く応えてくれます。

【利用料金】
東京リージョンにおいて、S3標準ストレージ利用料金は、0.025USD/GB(50TB/月まで)です。詳しくは、「AWS 料金計算ツール」で試算できます。

Oracle Cloud Infrastructure Object Storage(Oracle Cloud)

https://www.oracle.com/jp/cloud/storage/object-storage.html

Oracle Cloud Infrastructure Object Storage(OCI Object Storage)は、優れた信頼性にパフォーマンス、費用対効果を備えたストレージサービスです。

99.999999999%の耐久性を備えるほか、「オブジェクト数、容量無制限」「自動自己修復機能」という特徴があります。

・オブジェクト数、容量無制限
OCI Object Storageは、保存するデータ(オブジェクト)の数に制限がありません。利用するストレージ容量が事前に予測できない、今後大きく変動する可能性がある場合、効果的に機能します。

・自動自己修復機能
データの整合性が常に監視されており、破損したデータは冗長コピーから自動的に修復されます。データの正確性・有効性を疑わなくてよいうえ、手動で修復する手間も必要としません。

【利用料金】
ストレージ利用料金は0.0255USD/GBです。詳しくは、「Oracle Cloudコスト試算ツール」で見積もれます。

Cloud Storage(Google Cloud Platform)

https://cloud.google.com/storage?hl=ja#section-1

Cloud Storageは、Google Cloudに含まれるストレージサービスです。99.999999999%の耐久性を実現しているほか、保存できるデータ量、最小ファイルサイズに制限がありません。Twitterやゴールデンステート・ウォリアーズ、Broad Instituteなどの企業、スポーツチームで利用されています。

ほかのストレージサービスとの大きな違いは、「さまざまなGoogleのサービスとネイティブに連携できる」「自動で最適なコスト運用がなされる」という2点です。

・さまざまなGoogleのサービスとネイティブに連携できる
Googleサービスと連携することで、より効果的なデータ分析が行えます。一例として、Cloud Storageに保存された画像ファイルを、Google Cloudの画像認識機能を用いて、画像検索することが可能です。

・自動で最適なコスト運用がなされる
Cloud Storageはストレージ使用量やデータ保存期間に合わせた、4段階のストレージクラスが用意されています。使用状況に応じて、自動的に適切なクラスに移行するよう設定も可能です。これにより、最低限のコストでデータレイクを構築できます。

【利用料金】
4プランの内、「STANDARD STORAGE」のストレージ利用料金は、1GB/月あたり0.02USD~と設定されています。個別の料金見積もりは、Google Cloudセールスチームにお問い合わせください。

Azure Data Lake Storage(Azure)

https://azure.microsoft.com/ja-jp/services/storage/data-lake-storage/

Azure Data Lake Storageは、Microsoftが提供するビッグデータ分析用のデータレイク向けストレージサービスです。Rockwell AutomationやSmithGroup、マークス&スペンサーなどの企業で活用されています。

Azure Data Lake Storage の特徴として、99.99999999999999%(シックスティーンナイン)のデータ耐久性や、要求の厳しい大規模な分析を高いパフォーマンスで実行可能な点が挙げられます。

このほか、ストレージ容量の自動スケーリングなど数多くの機能を備えていますが、特筆すべきは「セキュリティへの取り組み」です。

・セキュリティへの取り組み
Microsoftはサイバーセキュリティの研究・開発に年間10億USD以上の投資を行っています。

また、データセキュリティとプライバシー保護に関するエキスパート3,500人以上からなるチームが、データ運用・保全に努めています。

【利用料金】
東京リージョンにおいて、ストレージ利用料金は、0.002USD/GB(50TB/月まで)です。詳しい料金見積もりは、Azure営業担当者にお問い合わせください。

IBM Cloud Pak for Data(IBM Cloud)

https://www.ibm.com/jp-ja/products/cloud-pak-for-data

IBM Cloud Pak for Dataは、データの収集や分析、AI活用を簡素化・自動化するツールです。データ運用の最適化や、AI用の情報アーキテクチャーを作成するのを得意としますが、データレイクの構築も可能です。Wunderman ThompsonやiKure Techsoft、Lufthansaなどの企業で利用されています。

IBM Cloudの主な導入メリットは、「時間コストの削減」と「あらゆる環境で稼働する」2点です。

・時間コストの削減
IBM Cloudを導入することで、ETL(データの抽出/変換/書き出し)プロセスにかかる時間を、最大65%削減可能です。また、データの収集や分析、自動化するための時間を最大90%と大幅に短縮します。

・あらゆる環境で稼働する
IBM Cloudは、AWSやAzure、Google Cloudのいずれでも、問題なく稼働します。さらに、マルチクラウド環境にも対応しており、あらゆる場所にあるデータをつなぎます。

【利用料金】
利用料金は、下記の「IBM Cloudコスト見積もりツール」でご確認ください。
https://cloud.ibm.com/estimator/review

まとめ

データレイクは、企業におけるあらゆるデータをそのまま保管しておける便利なデータストレージです。これまで保管できなかった画像や動画などの非構造化データを保管することで、さまざまなデータ分析に活用できます。Amazon S3やOracle Cloud Infrastructure Object Storageなどいろいろなサービスがあるので、自社に合ったものを選びましょう。

案件を一年後に倍にする 顧客ナーチャリングとデータ活用術

関連記事

CONTACTお問合わせ

お取引全般や、
採用に関するお問合わせは、こちら