記事というより小さな本ですが、全くの初心者から、ビッグデータ技術と関連アプリケーションの概念と意味を詳しく知る「インサイダー」へとあなたを導いてくれるからです!
スラスト
-1 ウィキボン・コミュニティのビッグデータ宣言
-2 データ処理と分析:従来のアプローチ
-3 ビッグデータの性質の変化
-4 ビッグデータ処理と分析の新しいアプローチ
4.1 Hadoop
4.2 NoSQL
4.3 超並列分析データベース
-5 ビッグデータアプローチの補完性
-6 ビッグデータベンダーの開発状況
-7 ビッグデータ:実践的ユースケース
-8 ビッグデータのスキルギャップ
-9 ビッグデータ:組織とサプライヤーの次のステップ
ウィキボン・コミュニティのビッグデータ宣言
効果的なビジネス・アナリティクス・ツールとテクニックを企業に提供することは、CIOにとって最優先事項です。効果的なビジネス・アナリティクスによって、データ・アナリストとビジネス担当者の双方がデータから洞察を得ることができ、それを行動に移すことで、企業の効率性と収益性の向上につながります。
ビジネスアナリティクスはすべてデータベースです。従来は、CRMシステムの顧客データ、ERPシステムの業務データ、会計データベースの財務データなど、企業が自ら作成・保存する構造化データを意味していました。ソーシャルメディアやウェブサービス、データセンサーやネットワーク化されたデバイス、機械や人間が生成したオンライントランザクション、その他の非構造化データや半構造化データのソースの急増により、企業が利用できるデータの量や種類、ビジネス価値の最大化を追求するためのほぼリアルタイムのアナリティクスの必要性が急速に高まっています。これらをビッグデータと呼びます。
従来のデータ管理やビジネス分析のツールや技術がビッグデータの圧力にさらされている一方で、組織がビッグデータ分析から洞察を得るための新しいアプローチが登場しています。これらの新しいアプローチは、データ処理、分析、アプリケーションに対して、従来のツールやテクノロジーとは根本的に異なるアプローチをとります。こうした新しいアプローチには、オープンソースのフレームワークであるHadoop、NoSQLデータベース、超並列分析データベースなどがあります。つまり、組織は技術的・文化的な観点からビジネスアナリティクスへのアプローチ方法を見直す必要があるのです。
ほとんどの組織にとって、このシフトは容易なことではありませんが、シフトを受け入れ、ビッグデータをビジネスアナリティクスの実践の礎とする企業にとっては、臆病なライバルをはるかに凌駕する大きな競争上の優位性を手にすることができます。ビッグデータを活用した複雑なビジネスアナリティクスによって、企業は顧客行動や不安定な市場環境に対するこれまでにない洞察を得ることができ、データ主導のビジネス上の意思決定を競合他社よりも迅速かつ効率的に行うことができるようになります。
ビッグデータ処理を保存・サポートするサーバーサイドのテクノロジーから、エンドユーザーに活気ある新しい洞察をもたらすフロントエンドのデータ可視化ツールまで、ビッグデータの出現はハードウェア、ソフトウェア、サービスプロバイダーにも大きな機会を提供しています。ビジネス価値を高めるビッグデータのユースケースを提供するにしても、ビッグデータを現実のものとする技術やサービスを開発するにしても、組織がビッグデータの実践者に移行するのを支援するこれらのベンダーは成功するでしょう。
ビッグデータは、あらゆる業界にとって新たな決定的な競争優位性です。ビッグデータを一過性のものと考えている企業やテクノロジー・プロバイダーは、先を見据えている競合他社に遅れを取らないよう、懸命に努力しなければならないことにすぐに気づくでしょう。今から思えば、それは非常に危険なことです。ビッグデータの現実を理解し、それを受け入れる企業にとって、新たなイノベーション、高い俊敏性、高い収益性の可能性は事実上無限です。
データ処理と分析:伝統的な方法
従来、特定の分析目的のためのデータ処理は、かなり静的な設計図に基づいていました。通常のビジネスプロセスを通じて、組織はCRM、ERP、財務システムなどのアプリケーションを通じて、安定したデータモデルに基づく構造化データを作成します。データ統合ツールは、エンタープライズアプリケーションやトランザクションデータベースからデータを抽出、変換、ロードするために使用され、一時的な領域でデータ品質チェックとデータ正規化が実行され、データは最終的に整然とした行や表に図式化されます。このモデリングされ、クレンジングされたデータは、企業レベルのデータウェアハウスにロードされます。このプロセスは、毎日、毎週など定期的に行われます。
従来のデータウェアハウスでは、データウェアハウスの管理者は、ウェアハウス内の標準化されたデータを定期的に計算するスケジュールを作成し、その結果のレポートをさまざまなビジネス部門に配布していました。また、ダッシュボードや、限られた機能しか持たない管理者向けのその他の可視化ツールも作成します。
一方、ビジネスアナリストは、データ分析ツールを使用してデータウェアハウスで高度な分析を実行するか、データ量の制限のためにサンプルデータをローカルデータベースにインポートします。専門家以外のユーザーは、フロントエンドのビジネスインテリジェンスツールを使用して、データウェアハウスの基本的なデータの可視化と限定的な分析を行います。大量のデータはデータウェアハウスのリソースを圧迫し、パフォーマンスを低下させる可能性があるためです。
ビッグデータの性質の変化
ウェブ、モバイル機器、その他のテクノロジーの出現は、データの性質に根本的な変化をもたらしました。ビッグデータには、「従来の」企業データとは異なる重要かつユニークな特徴があります。集中化され、高度に構造化され、管理しやすいデータではなく、データは分散化し、緩やかに構造化され、かつてないほど大規模になっています。
具体的には
-Volume-ウェブ、モバイル機器、ITインフラなどを通じて企業のファイアウォールの内外で生成されるデータ量は、年々飛躍的に増加しています。
-データの種類-非構造化テキストデータや半構造化データなど、データの種類は多様化しています。
-ベロシティ - デジタル・トランザクション、モバイル・コンピューティング、インターネットやモバイル・デバイスを利用する大量のユーザーのおかげで、新しいデータが作成されるスピードとリアルタイム分析の必要性が高まっています。
大まかに言えば、ビッグデータは以下のような複数のソースから生成されます:
-モバイル機器:世界中で50億台以上の携帯電話が使用されています。すべての通話、テキストメッセージ、インスタントメッセージはデータとして記録されます。モバイル・デバイスは、ソーシャルメディアなどのアプリケーションの使用を容易にし、大量のデータを生成します。また、モバイル機器は位置情報を収集し、送信します。
-オンライン取引:数え切れないほどの自動取引を含め、毎日何十億ものオンライン購入、株式取引などが行われています。各取引は、小売業者、銀行、クレジットカード、信用機関などによって収集される多数のデータポイントを生成します。
-ネットワーク機器とセンサー:さまざまな種類の電子機器が半構造化ログデータを作成し、あらゆる行動を記録します。
図2-従来のデータとビッグデータの比較 出典:Wikibon1021
従来のデータウェアハウスなどのデータ管理ツールは、時間的にも費用対効果的にも、ビッグデータを処理・分析することはできません。つまり、従来のエンタープライズレベルのデータウェアハウスが扱えるリレーショナルテーブルにデータを整理する必要があります。膨大な量の非構造化データにこの構造を適用することは、必要な時間と人件費のために現実的ではありません。さらに、従来のエンタープライズレベルのデータウェアハウスを拡張してペタバイト級のデータに対応させるには、専用のハードウェアに莫大な投資を行う必要があります。また、データロードという単一のボトルネックがあるため、従来のデータウェアハウスのパフォーマンスは低下します。
その結果、ビッグデータを処理・分析する新しい方法が必要になります。
ビッグデータの処理と分析への新しいアプローチ
ビッグデータの処理と分析には複数のアプローチが存在しますが、そのほとんどに共通する特徴があります。すなわち、ハードウェアを活用し、拡張された並列処理技術を使用し、非構造化データおよび半構造化データを処理するために非リレーショナルデータストアを採用し、エンドユーザーに洞察を伝えるためにビッグデータに高度な分析とデータ可視化技術を適用します。
ウィキボンは、ビジネス分析とデータ管理市場を変革する3つのビッグデータ・アプローチを特定しました。
ハドープ
Hadoopは、分散された大量の非構造化データを処理、保存、分析するためのオープンソースのフレームワークです。もともとはYahooのDoug Cutting氏によって作成されたもので、Hadoopは2000年代初頭にGoogleがウェブページのインデックス作成のために開発したユーザー定義関数であるMapReduceにインスパイアされたものです。複数の並列ノードに分散されたペタバイト単位のデータを処理するために設計されました。
Hadoopクラスターは安価な商用ハードウェア上で動作するため、ハードウェア拡張のための金銭的なプレッシャーがありません。Hadoopは現在、Apache Software Consortiumのプロジェクトであり、何百人もの貢献者がそのコア技術を常に改善しています。Hadoopは現在、Apache Software Consortiumのプロジェクトで、何百人もの貢献者がコア技術を常に改良しています。基本コンセプト:1台のマシンで実行するために膨大な量のデータを制限するのとは異なり、Hadoopはビッグデータを複数の部分に分割し、各部分を同時に処理・分析できるようにします。
Hadoopの仕組み
顧客は、ログファイル、ソーシャルメディアフィード、内部データストアなどのソースから非構造化データおよび半構造化データを取得します。HadoopのデフォルトのファイルストレージシステムはHadoop分散ファイルシステムです。ファイルシステムは、データをリレーショナルな行や列に整理する必要がないため、大量の非構造化データや半構造化データを格納するのに適しています。
各「セクション」は複数回コピーされ、ファイルシステムにロードされます。そのため、あるノードに障害が発生した場合、別のノードには障害が発生したノードのデータのコピーが格納されます。ネームノードはメディエーターとして機能し、どのノードが利用可能か、特定のデータがクラスタ内のどこに保存されているか、どのノードに障害が発生したかなどの情報を伝達する役割を担います。
データがクラスタにロードされると、MapReduceフレームワークによって分析される準備が整います。クライアントはジョブトラッカーと呼ばれるノードに「マッチング」ジョブを提出します。ジョブトラッカーは名前ノードを参照して、ジョブを完了するためにアクセスする必要があるデータと、必要なデータがクラスタのどこに格納されているかを決定します。決定されると、ジョブトラッカーは関連するノードにクエリを送信します。各ノードは、すべてのデータを一箇所に集中して処理するのではなく、同時並行的に処理します。これはHadoopの本質的な特徴です。
各ノードは指定されたジョブの処理を終えると、その結果を保存します。クライアントは、タスクトラッカー経由で「Reduce」タスクを開始します。クライアントはタスクトラッカー経由で "Reduce "タスクを開始します。"Reduce "タスクはマップフェーズで各ノードに保存された結果データを集約し、元のクエリに対する "answer "を取得し、クラスタ内の別のノードに "answer "をロードします。クライアントはその結果にアクセスすることができ、分析するために複数の分析環境にロードすることができます。
MapReduceフェーズが完了すると、処理されたデータはデータサイエンティストなどが高度なデータ分析技術を使ってさらに分析することができます。また、このデータをモデル化し、Hadoopクラスタから既存のリレーショナル・データベース、データウェアハウス、その他の従来のITシステムに転送して、さらに分析することもできます。
Hadoopの技術コンポーネント
Hadoop「スタック」はいくつかのコンポーネントで構成されています。含まれています:
- Hadoop 分散ファイルシステム: すべての Hadoop クラスタのデフォルトのストレージ層; .
- 名前ノード:Hadoopクラスタ内のノードで、データストレージの場所やノードの障害に関する情報を提供します。
- セカンダリノード:ネームノードのバックアップで、ネームノードに障害が発生した場合に備え、ネームノードのデータを定期的に複製して保存します。
- ジョブトラッカー:MapReduceジョブまたはデータ処理タスクを開始および調整するHadoopクラスタ内のノード。
- スレーブノード:Hadoopクラスタの通常のノードで、スレーブノードはデータを保存し、ジョブトラッカーからデータ処理の指示を受け取ります。
HadoopのMapReduceジョブの結果を保存するために、NoSQLデータストレージシステムも使用されています。Javaに加えて、多くのMapReduceジョブやその他のHadoop機能は、Hadoop専用に設計されたオープンソース言語であるPigで記述されています。分析モデルを作成できます。
Hadoop Components and Subprojects Guidebook: HBase, Sqoop, Flume, etc: Apache Hadoop Definitions」の記事を参照してください。
Hadoop:長所と短所
Hadoopの主なメリットは、これまで他の方法では処理できなかった大量の非構造化データや半構造化データを、コスト削減かつ効率的な方法で処理・分析できることです。Hadoopクラスターはペタバイト、あるいはペタバイト級のデータまで拡張できるため、組織はもはやサンプルデータセットに依存する必要はなく、関連するすべてのデータを処理して分析できます。データサイエンティストは、分析に反復的なアプローチを取ることができ、クエリ文を常に改良してテストすることで、これまで知られていなかった洞察を明らかにすることができます。Hadoopの利用コストも安価です。開発者はApacheのHadoop Distributed Platformを無料でダウンロードでき、1日もかからずにHadoopを使い始めることができます。
Hadoopとその無数のコンポーネントの欠点は、それらが未成熟でまだ発展段階にあるということです。すべての新しく未熟なテクノロジーと同様に、大量の非構造化データを高度に分析するための Hadoop クラスタの実装と管理には、多くの専門知識、スキル、トレーニングが必要です。残念ながら、Hadoop 開発者やデータサイエンティストが不足している現状では、多くの組織にとって、複雑な Hadoop クラスターを保守して活用することは現実的ではありません。また、Hadoopの多くのコンポーネントは技術コミュニティを通じて改良され、常に新しいコンポーネントが作成されているため、未成熟なオープンソーステクノロジーとして失敗するリスクもあります。最後に、Hadoop はバッチ指向のフレームワークであるため、リアルタイムのデータ処理や分析には対応していません。
朗報としては、Apache Hadoopプロジェクトに賢いIT人材が貢献し続けているため、Hadoop開発者やデータサイエンティストの新世代が成熟しつつあるということです。その結果、テクノロジーは進化し、より強力になり、実装と管理が容易になっています。ベンダーのみならず既存のIT企業も、エンタープライズ対応の商用Hadoop分散プラットフォーム、ツール、サービスの開発に取り組んでいます。また、Hadoopと連携してほぼリアルタイムの分析ソリューションを提供するため、NoSQLデータシステムの改良に取り組んでいる新興企業もあります。
ノーエスキューエル
Hadoopと同様に、大量のマルチ構造化データを扱うことができるNoSQLと呼ばれる新しい形式のデータベースが登場しました。しかし、Hadoopが大規模なバッチ形式の履歴分析のサポートに秀でているのであれば、ほとんどの場合、NoSQLデータベースは、エンドユーザーや自動化されたビッグデータアプリケーションに、複数構造データで保存された大量の離散データを提供することを目的としています。この機能はリレーショナル・データベースには欠けており、ビッグデータの規模では基本的なパフォーマンスを維持することができません。
NoSQLとHadoopが連携するケースもあります。例えば、GoogleのBigTableに倣った人気のNoSQLデータベースであるHBaseは、通常HDFSの上にデプロイされ、Hadoopに低レイテンシーで高速なルックアップを提供します。
現在利用可能なNoSQLデータベースには次のようなものがあります:
· HBase
· Cassandra
· MarkLogic
· Aerospike
· MongoDB
· Accumulo
· Riak
- CouchDB
· DynamoDB
現在のほとんどのNoSQLデータベースの欠点は、パフォーマンスとスケーラビリティのためにACID原則に従っていることです。また、多くのNoSQLデータベースには洗練された管理・監視ツールがありません。これらの欠点は、オープンソースのNoSQLコミュニティや、さまざまなNoSQLデータベースの商用化を試みているDataStax、Sqrrl、10gen、Aerospike、Couchbaseなどのベンダーの努力によって克服されつつあります。
超並列分析データベース
従来のデータウェアハウスとは異なり、超並列分析データベースは、必要最小限のデータモデリングで大量の構造化データを迅速に取得することができ、テラバイトやペタバイトのデータにも対応できるように拡張することができます。
エンドユーザーにとって最も重要なことは、超並列分析データベースが複雑なSQLクエリの結果をほぼリアルタイムでサポートすることです。超並列分析データベースは、場合によってはほぼリアルタイムのビッグデータアプリケーションをサポートします。超並列分析データベースの基本的な機能は以下のとおりです:
超並列処理機能: その名が示すとおり、超並列分析データベースは超並列処理を使用して、複数のマシン上でのデータ収集、処理、クエリを同時にサポートします。これにより、単一のマシン上で実行され、データ収集の単一のボトルネックポイントによって制限される従来のデータウェアハウスと比較して、より高速なパフォーマンスを実現します。
シェアードレスアーキテクチャ: シェアードレスアーキテクチャは、分析データベース環境において単一障害点がないことを保証します。このアーキテクチャでは、各ノードが他のノードから独立しているため、1台のマシンに障害が発生しても、他のノードは実行を継続できます。これは、何百台ものコンピュータが並列にデータを処理し、1台または複数のマシンに障害が発生することが避けられない超並列処理環境では特に重要です。
カラム構造: 超並列分析データベースの多くはカラム構造を採用していますが、リレーショナルデータベースの多くは行構造でデータを格納・処理します。列構造環境では、クエリ文に対する「答え」はデータ行全体ではなく、必要なデータを含む列によって決定されるため、クエリ結果が瞬時に得られます。また、従来のリレーショナルデータベースのように、データを整然としたテーブルに構築する必要もありません。
強力なデータ圧縮機能: データ圧縮機能により、分析データベースは従来のデータベースよりも少ないハードウェアリソースで大量のデータを収集・保存できます。例えば、10対1の圧縮機能を備えたデータベースでは、10テラバイトのデータを1テラバイトに圧縮することができます。データエンコーディングは、大量のデータに効率的に対応するための鍵です。
商用ハードウェア: Hadoopクラスタと同様、ほとんどの超並列分析データベースは、DellやIBMなどのベンダーが提供する市販のハードウェア上で動作します。
メモリーでのデータ処理: 超並列分析データベースの中には、リアルタイムのデータ処理にダイナミックRAMやフラッシュメモリーを使用するものがあります。データを完全にメモリ内で実行するものもあれば、「コールド」データには安価だが低性能のディスク・メモリを、「ホット」データにはダイナミックRAMやフラッシュ・メモリを使用するハイブリッド・アプローチを採用するものもあります。
しかし、超並列分析データベースにはいくつかの盲点があります。特に、大量の半構造化データや非構造化データを保存、処理、分析するようには設計されていません。
ビッグデータ・アプローチの補完性
Hadoop、NoSQL、超並列分析データベースは相互に排他的ではありません。Hadoopは、分散した大量の非構造化データをバッチモードで処理・分析し、過去の履歴を分析することを得意とし、NoSQLデータベースは、ウェブベースのビッグデータ・アプリケーション向けに、複数の構造化データをほぼリアルタイムで保存・処理することを得意としています。また、超並列分析データベースは、主流の構造化データの大容量をほぼリアルタイムで分析するのに適しています。
例えば、Hadoopで行われた過去の分析は、分析データベースに移植してさらに分析したり、従来の企業データウェアハウスの構造化データと統合したりすることができます。ビッグデータ分析からの洞察は、ビッグデータ・アプリケーションを通じて製品化することができます。企業の目標は、3つのテクノロジーが可能な限りシームレスにデータと洞察を共有できる柔軟なビッグデータアーキテクチャを実装することです。
Hadoop の開発者や管理者がこのデータ統合を実現できるよう、多くの構築済みコネクタが利用可能です。また、ビッグデータアプリケーションを提供するベンダーも数多くあります。これらのビッグデータアプリケーションは、Hadoop、アナリティクスデータベース、および設定済みのハードウェアをバンドルしており、最小限のチューニングで迅速なデプロイを実現できます。別のシナリオでは、Hadapt社がSQLとHadoop/MapReduce処理の両方を同じクラスタ上で提供する単一プラットフォームを提供しています。Cloudera社もImpalaとHortonworksプロジェクトのオープンソースイニシアティブでこの戦略を追求しています。
しかし、ビッグデータを最大限に活用するためには、組織はさらなるステップを踏まなければなりません。つまり、高度なアナリティクスを使用してデータを処理し、それを使用して意味のある洞察を導き出す必要があります。データサイエンティストは、この複雑な作業をいくつかの言語や手法を使って行います。分析結果は、Tableauのようなツールで可視化したり、ビッグデータ・アプリケーションで操作したりすることができます。他のベンダーは、非中核ユーザーがビッグデータと直接やり取りできるビジネスインテリジェンスタイプのアプリケーションを開発しています。
図3 - 現代のデータ・アーキテクチャ 出典: Wikibon 1023
ウィキボンは、企業のCIOに対して、ビッグデータ・アプローチを採用するために、既存のデータウェアハウス、データ統合、その他のデータ管理技術をすべて「段階的に廃止し、置き換える」ことを推奨しているわけではありません。
ウィキボンは、CIOはポートフォリオ・マネージャーのように考え、優先順位を再検討し、リスク要因を軽減するために必要な措置を講じながら、組織がイノベーションと成長に向かうための基盤を築かなければならないと考えています。既存のデータ管理技術をビッグデータ・アプローチに置き換えることは、それがビジネスとして理にかなっており、開発計画が既存のデータ管理インフラと可能な限りシームレスに統合されている場合にのみ意味があります。最終的な目標は、最新のデータ・アーキテクチャに転換することです。
ビッグデータベンダーの開発状況
図4 - ビッグデータ・プロバイダーの動向 出典:Wikibon 1022
ビッグデータ:実際の使用例
Hadoopをはじめとするビッグデータテクノロジーが魅力的な理由のひとつは、組織が質問の意味さえわからないような問題に対する答えを見つけることができる点です。これは、新製品につながるアイデアを導き出したり、業務効率を改善する方法を特定するのに役立ちます。しかし、グーグル、フェイスブック、リンクトインのようなインターネット大手や、より伝統的な企業にも、ビッグデータの明確な利用事例がすでにいくつかあります。例えば
レコメンデーション・エンジン:Web リソースやオンライン小売業者は、Hadoop を使用して、プロフィールや行動データに基づいてユーザー、製品、サービスをマッチングし、レコメンデーションします。LinkedIn はこのアプローチを使用して「知り合いかもしれない人」機能を強化し、Amazon はオンライン消費者に関連する製品をレコメンデーションします。
センチメント分析: Hadoopは、高度なテキスト分析ツールと連携して、ツイートやFacebookなどのソーシャルメディアやソーシャルネットワークに投稿された構造化されていないテキストを分析し、特定の企業、ブランド、製品に対するユーザーのセンチメントを判断します。この分析では、マクロレベルのセンチメントと、個々のユーザーのセンチメントの両方に焦点を当てることができます。
リスク・モデリング: 金融会社や銀行などは、Hadoopや次世代データ・ウェアハウスを使用して大量の取引データを分析し、金融資産のリスクを判断したり、潜在的な「what-if」シナリオに備えて市場行動をシミュレーションしたり、リスクに基づいて見込み顧客をスコアリングしたりします。
不正行為の検知: 金融会社や小売業者などは、ビッグデータ技術を利用して、顧客の行動と過去の取引データを組み合わせ、不正行為を検知しています。例えば、クレジットカード会社は、盗難の可能性があるカード取引を特定するためにビッグデータ技術を使用しています。
キャンペーン分析:マーケティング部門は、業界を問わず、マーケティング・キャンペーンの効果をモニターし、判断するために長年テクノロジーを活用してきました。ビッグデータにより、マーケティングチームはクリックストリームデータや通話詳細ログデータなど、ますます粒度の細かいデータを大量に入手できるようになり、分析の精度が向上します。
解約分析: 企業はHadoopとビッグ・データ・テクノロジーを使用して顧客の行動データを分析し、どの顧客が競合のサプライヤーやサービス・プロバイダーに移る可能性が最も高いかを示す分析モデルを特定します。企業は、失った顧客を維持するための最も効果的な手段を講じることができます。
ソーシャルグラフ分析: Hadoopと次世代データウェアハウスの組み合わせにより、ソーシャルネットワークデータをマイニングし、ソーシャルネットワーク内でどの顧客が他の顧客に最も影響を与えているかを特定することができます。これは、企業が「最も重要な」顧客を特定するのに役立ちます。最も多くの製品を購入し、最も多くのお金を使う顧客とは限りませんが、他の顧客の購買行動に最も影響を与えることができる顧客です。
UXアナリティクス:消費者向け組織は、Hadoopやその他のビッグデータテクノロジーを使用して、単一の顧客インタラクションチャネルからデータを収集し、顧客エクスペリエンスの全体像を把握します。これにより、組織は顧客とのインタラクション・チャネル間の相互作用を理解し、顧客ライフサイクル全体にわたってユーザー・エクスペリエンスを最適化できます。
ネットワーク・モニタリング:Hadoopやその他のビッグデータ・テクノロジーは、サーバー、ストレージ・デバイス、その他のITハードウェアからデータを取得、分析、表示するために使用され、管理者がネットワーク・アクティビティを監視し、ボトルネックやその他の問題を診断することを可能にします。この種の分析は、燃料効率を改善するための輸送ネットワークや、もちろん他のネットワークにも適用できます。
研究開発:Hadoop テクノロジーを使用して大量のテキストデータや履歴データを調査し、新製品の開発に役立てている企業もあります。
もちろん、上記はすべてビッグデータのユースケースの一例に過ぎません。実際、あらゆる組織におけるビッグデータの最も説得力のある活用事例は、まだ発見されていないかもしれません。それこそがビッグデータの可能性なのです。
ビッグデータのスキル格差
組織がビッグデータを採用する際の最大の障壁は、Hadoop管理スキル、ビッグデータ分析スキル、データサイエンスなどの関連スキルの不足です。ビッグデータが真に大量に採用され、その潜在能力をフルに発揮するためには、スキルギャップを埋めることが重要です。これには2つの側面から取り組む必要があります:
第一に、オープンソースコミュニティと商用ビッグデータベンダーは、従来のITやビジネスインテリジェンスの専門家の参入障壁を下げる、使いやすいビッグデータ管理や分析のツールやテクノロジーを開発しなければならないということです。これらのツールやテクノロジーは、基礎となるデータ処理フレームワークの複雑さを可能な限り抽象化する必要があります。これは、グラフィカル・ユーザー・インターフェース、ウィザードのようなインストール機能、ルーチン・タスクの自動化を組み合わせることで実現できます。
第二に、既存のITやビジネスインテリジェンスの専門家、そして高校生や大学生を、将来必要とされるビッグデータの実務家に育成するための教育資源を社会がもっと開発することです。
マッキンゼー・アンド・カンパニーの調査によると、2018年までに米国だけでも、アナリティクスの専門スキルを持つ人材が14万人から19万人、ビッグデータ分析を使って効果的な意思決定を行う方法を知っている管理職やアナリストが150万人不足するとみられています。不足の理由のひとつは、さまざまな統合スキルを必要とするデータサイエンスの法則そのものにあります。
具体的には、データサイエンティストには統計学、コンピューターサイエンス、数学に重点を置いた技術的スキルが求められます。また、既存のビジネスを理解し、ビッグデータがビジネスに最も価値を提供できる方向性を見出すことができなければなりません。データサイエンティストには、専門的なコミュニケーションスキルや、ビッグデータの可視化を通じてビジネスの同僚にストーリーを伝える能力が求められます。
本レポートで述べたように、いくつかのビッグデータ・ベンダーがビッグデータのトレーニングコースを提供し始めています。IT実務者は、こうしたトレーニングや教育イベントを利用してデータ分析のスキルを磨く絶好の機会を得ており、組織内での新たなキャリアパスを明確にすることができます。同様に、南カリフォルニア大学、ノースカロライナ州立大学、ニューヨーク大学などでも、ビッグデータと高度なアナリティクスに関する大学レベルのコースがいくつか開設されています。しかし、ビッグデータの発展と普及には、さらに多くの講座が必要です。
ビッグデータの技術格差は、より良いツールとテクノロジー、そしてより良い教育とトレーニングという2つの面でしか克服できません。
アクション・アイテム:あらゆる業界の企業は、既存および潜在的なビッグデータのユースケースを評価し、ビッグデータ・コミュニティに参加して最新の技術開発について学ぶべきです。ビッグデータ・コミュニティで志を同じくする企業やベンダーと協力し、ビッグデータがビジネス価値を提供できる分野を特定しましょう。次に、組織内のビッグデータ技術のレベルを検討し、Hadoopなどのビッグデータアプローチのトライアルを開始するかどうかを決定します。その場合は、IT部門やビジネス部門と協力して、ビッグデータのツール、テクノロジー、手法を組織の既存のITインフラに統合する計画を策定します。
最も重要なことは、全スタッフにデータ主導の文化を醸成し、データ実験を奨励することから始めることです。この基盤が築かれたら、ビジネス価値を最大化するためにビッグデータの手法やアプローチを使い始め、新たに成熟したビッグデータのアプローチを継続的に再評価します。
ITベンダーは、組織がビッグデータの最も収益性の高い実用的なユースケースを特定し、ビッグデータ技術の導入、管理、利用を容易にする製品やサービスを開発するのを支援すべきです。プロプライエタリではなくオープンな考え方を持ち、顧客が新しいビッグデータ技術やツールを試すのに必要な柔軟性を与えること。同様に、組織がビッグデータ・アプローチを導入・管理するために必要なスキルを開発するのに役立つビッグデータ・サービスの構築にも着手してください。最も重要なことは、ビッグデータ導入プログラムが成熟し、成長するにつれて、顧客のフィードバックに耳を傾け、タイムリーに対応することです。





