BLOG

データ分析/活用

データレイクを構築できる代表的な5製品を比較

MARKETER'S NOTE

膨大なデータを整理するのに近年使われているデータレイク。そもそもデータレイクとはどのようなサービスを指すのでしょうか。この記事では、データレイクの説明やデータレイク構築時のポイント、データレイクが構築できる製品などを詳しく解説します。データレイクに興味がある方は、ぜひ参考にしてください。

データ活用を阻む要因から理解する<br>データ活用に失敗しないためのポイント

データ活用を阻む要因から理解する
データ活用に失敗しないためのポイント

データを活用しても様々な阻害要因によって成果に結びつかない企業が多いのが現状です。本資料では、そんなデータ活用に失敗しないためのポイントをご紹介します。

資料ダウンロード

データレイクとは

そもそもデータレイクとは、さまざまなデータを、形式を変えずに保持・保管できる中央ストレージのことを指します。データを魚にたとえ、データが自由に泳ぎ回る湖(レイク)と考えるとわかりやすいでしょう。

データレイクは、保管データの形式を変えないという点が大きな特徴です。この特徴により、構造化データ・非構造化データ問わず、あらゆるデータを保管しておけます。一般に、画像や動画、音声、メモなど多くのデータは、非構造化データという形式を持たないデータであるため、データレイクはより柔軟にデータを保管できるとして、近年注目を集めています。

IT分野のリサーチやアドバイザーをしているガートナー社は、データレイクを「各種データ資産のストレージ・インスタンスの集合」だと定義しています。この定義の通り、データレイクに保管されたデータは、資産として、IoTへの活用やリアルタイム分析、機械学習など、さまざまな場面で活用できます。データレイクを通して、データを活用していくことは、より高度なデータ分析につながり、さらなる企業の発展にも貢献するでしょう。

データレイク構築時のポイント

利便性の高い状態でデータを保管できるデータレイクですが、構築時にはいくつか注意しておきたいポイントがあります。ここではそのポイントを紹介します。

事前のデータアセスメント

さまざまなデータを保管できるデータレイクですが、雑多にデータを詰め込んでいては、その後の分析がしづらくなります。事前に「どのようなデータを保管するのか」をある程度決めておくとよいでしょう。セキュリティポリシーにより、データの取り出しや活用が一部に限定される場合もあるため、よく確認しておくことが大切です。

データソースとの自動連携

データレイクを利用する際に、手作業ですべてのデータを保管するのは大変面倒であり、エラーやミスが起きる原因にもなります。そのため、データソースとの自動連携があると便利です。現在利用している主要なデータソースとの連携ができるかどうかをチェックしておきましょう。

データの流れ

データのアップロードやダウンロード、分析などのデータ活用の流れは、基本的に一方通行になるようにしましょう。逆方向でのデータ活用ができる状態では、データの管理やエラー時の対応が難しくなります。

データカタログの活用

データレイク運用時にもっとも気をつけておきたいのが、データカタログの活用です。データレイクでは、あらゆるデータをそのまま保管できるため、管理をしておかないと必要なデータと不必要なデータが入り混じった雑然とした状態になってしまいます。この状態を、沼を表すスワンプという単語を使って、データスワンプといいます。
データスワンプは、データレイクがデータをそのまま保管できてしまうことが原因で起こります。これを防ぐには、保管しているデータの情報をグループやタグなどで検索可能にしたデータカタログを用意し、管理することが大切です。データカタログで識別したデータを定期的に削除することで、データレイクをきれいな状態に保てます。

データレイクを構築できるサービス一覧

近年では、データレイクを構築できるサービスがいくつも提供されています。ここでは、中でもおすすめの5つのサービスを紹介します。

Amazon S3(AWS)

https://aws.amazon.com/jp/s3/
Amazon Simple Storage Service(Amazon S3)は、AWSが提供する最大級・ハイパフォーマンスなデータレイク向けストレージサービスです。Netflixを始め、Georgia-Pacific、NASDAQ、Syscoなど、多くの有名企業がAmazon S3を利用してデータレイクを構築しています。

Amazon S3の最たる特徴は、「99.999999999% (イレブンナイン) の耐久性」と「オンデマンドのスケーラビリティ」と言えるでしょう。

・99.999999999% (イレブンナイン) の耐久性
Amazon S3は、高いデータ耐久性を実現するように設計されています。どの程度の耐久性かというと、1,000万件のデータを1万年保管して1件失われるかどうか、といったレベルです。さらにAmazon S3では、自動的に複数のシステム間でデータの複製・保存が行われるので、極めて高い水準でのデータ保護が可能です。

・オンデマンドのスケーラビリティ
Amazon S3では、必要に応じてストレージリソースをスケールアップ・ダウンさせられます。先行投資や時間のかかるリソースの調達サイクルが不要となり、あらゆる企業の需要に素早く応えてくれます。

【利用料金】
東京リージョンにおいて、S3標準ストレージ利用料金は、0.025USD/GB(50TB/月まで)です。詳しくは、「AWS 料金計算ツール」で試算できます。

Oracle Cloud Infrastructure Object Storage(Oracle Cloud)

https://www.oracle.com/jp/cloud/storage/object-storage.html

Oracle Cloud Infrastructure Object Storage(OCI Object Storage)は、優れた信頼性にパフォーマンス、費用対効果を備えたストレージサービスです。

99.999999999%の耐久性を備えるほか、「オブジェクト数、容量無制限」「自動自己修復機能」という特徴があります。

・オブジェクト数、容量無制限
OCI Object Storageは、保存するデータ(オブジェクト)の数に制限がありません。利用するストレージ容量が事前に予測できない、今後大きく変動する可能性がある場合、効果的に機能します。

・自動自己修復機能
データの整合性が常に監視されており、破損したデータは冗長コピーから自動的に修復されます。データの正確性・有効性を疑わなくてよいうえ、手動で修復する手間も必要としません。

【利用料金】
ストレージ利用料金は0.0255USD/GBです。詳しくは、「Oracle Cloudコスト試算ツール」で見積もれます。

Cloud Storage(Google Cloud Platform)

https://cloud.google.com/storage?hl=ja#section-1

Cloud Storageは、Google Cloudに含まれるストレージサービスです。99.999999999%の耐久性を実現しているほか、保存できるデータ量、最小ファイルサイズに制限がありません。Twitterやゴールデンステート・ウォリアーズ、Broad Instituteなどの企業、スポーツチームで利用されています。

ほかのストレージサービスとの大きな違いは、「さまざまなGoogleのサービスとネイティブに連携できる」「自動で最適なコスト運用がなされる」という2点です。

・さまざまなGoogleのサービスとネイティブに連携できる
Googleサービスと連携することで、より効果的なデータ分析が行えます。一例として、Cloud Storageに保存された画像ファイルを、Google Cloudの画像認識機能を用いて、画像検索することが可能です。

・自動で最適なコスト運用がなされる
Cloud Storageはストレージ使用量やデータ保存期間に合わせた、4段階のストレージクラスが用意されています。使用状況に応じて、自動的に適切なクラスに移行するよう設定も可能です。これにより、最低限のコストでデータレイクを構築できます。

【利用料金】
4プランの内、「STANDARD STORAGE」のストレージ利用料金は、1GB/月あたり0.02USD~と設定されています。個別の料金見積もりは、Google Cloudセールスチームにお問い合わせください。

Azure Data Lake Storage(Azure)

https://azure.microsoft.com/ja-jp/services/storage/data-lake-storage/

Azure Data Lake Storageは、Microsoftが提供するビッグデータ分析用のデータレイク向けストレージサービスです。Rockwell AutomationやSmithGroup、マークス&スペンサーなどの企業で活用されています。

Azure Data Lake Storage の特徴として、99.99999999999999%(シックスティーンナイン)のデータ耐久性や、要求の厳しい大規模な分析を高いパフォーマンスで実行可能な点が挙げられます。

このほか、ストレージ容量の自動スケーリングなど数多くの機能を備えていますが、特筆すべきは「セキュリティへの取り組み」です。

・セキュリティへの取り組み
Microsoftはサイバーセキュリティの研究・開発に年間10億USD以上の投資を行っています。

また、データセキュリティとプライバシー保護に関するエキスパート3,500人以上からなるチームが、データ運用・保全に努めています。

【利用料金】
東京リージョンにおいて、ストレージ利用料金は、0.002USD/GB(50TB/月まで)です。詳しい料金見積もりは、Azure営業担当者にお問い合わせください。

IBM Cloud Pak for Data(IBM Cloud)

https://www.ibm.com/jp-ja/products/cloud-pak-for-data

IBM Cloud Pak for Dataは、データの収集や分析、AI活用を簡素化・自動化するツールです。データ運用の最適化や、AI用の情報アーキテクチャーを作成するのを得意としますが、データレイクの構築も可能です。Wunderman ThompsonやiKure Techsoft、Lufthansaなどの企業で利用されています。

IBM Cloudの主な導入メリットは、「時間コストの削減」と「あらゆる環境で稼働する」2点です。

・時間コストの削減
IBM Cloudを導入することで、ETL(データの抽出/変換/書き出し)プロセスにかかる時間を、最大65%削減可能です。また、データの収集や分析、自動化するための時間を最大90%と大幅に短縮します。

・あらゆる環境で稼働する
IBM Cloudは、AWSやAzure、Google Cloudのいずれでも、問題なく稼働します。さらに、マルチクラウド環境にも対応しており、あらゆる場所にあるデータをつなぎます。

【利用料金】
利用料金は、下記の「IBM Cloudコスト見積もりツール」でご確認ください。
https://cloud.ibm.com/estimator/review

まとめ

データレイクは、企業におけるあらゆるデータをそのまま保管しておける便利なデータストレージです。これまで保管できなかった画像や動画などの非構造化データを保管することで、さまざまなデータ分析に活用できます。Amazon S3やOracle Cloud Infrastructure Object Storageなどいろいろなサービスがあるので、自社に合ったものを選びましょう。

データ活用を阻む要因から理解するデータ活用に失敗しないためのポイント

データの活用は、顧客満足度の向上や意思決定の迅速化・正当化などの企業の 売上・利益に貢献する様々な効果があります。

本資料では、そんなデータ活用のポイントをご紹介します。

データ活用を阻む要因から理解するデータ活用に失敗しないためのポイント

資料ダウンロード

関連記事

CONTACTお問合わせ

お取引全般や、
採用に関するお問合わせは、こちら