ビッグデータという言葉はさまざまな場所で使われるようになり、その重要性が大きくなっていることを感じる方も多いのではないでしょうか。しかし、実際にビッグデータとはどのようなものかというと、的確な答えは難しいものです。ここではビッグデータの基本、活用の方法と例、活用に際しての課題をご紹介します。

ビッグデータとは

ビッグデータは「大量のデータ」と捉えられがちです。実際にビッグデータという言葉が使われた初期には、大量のデータを集めてそこから何かを導き出すことを目的としていました。しかし、現在使われているビッグデータという言葉は量的な大きさだけで定義されるものではありません。もう少し複雑でさまざまな可能性を持つものを表しています。ビッグデータとはどのようなものか、それに対し明確な定義として提唱された3つのVという考えについて見てみましょう。

3つのVで表現されるビッグデータ

2000年代の初め、IT調査会社のアナリスト、タグ・レイニーはビッグデータには3つのVを持つことが必要だと定義しました。その3つとは、volume(量)・velocity(速度)・variety(多様性)です。

「volume(量)」は、ビッグデータという言葉を聞いて誰もが最初に思い浮かべるのではないでしょうか。やはりそのイメージ通り、タグ・レイニー氏の定義にもデータの量は含まれています。そもそもビッグデータは、大量のデータから何を生み出そうという発想が根底にあり、その進化とともに、取り扱われるデータ量はさらに膨大なものとなっています。ここで定義されるvolumeとは、データそのものの量も意味しますが、その膨大なデータを処理する能力も含んでいます。

「velocity(速度)」が表すのは、データの行き交う速さではありません。データが更新される頻度、変化の速さです。とりわけインターネット上にあるデータは常に変化し続け、それに対応できるシステムでなければ実情に即した結果を導き出すことはできません。ビッグデータにはこういった変化の速さとそれに対応する更新頻度も求められます。

「variety(多様性)」は、「ただの大量のデータ群」と「ビッグデータ」との違いを表すもっとも特徴的な部分といえるかもしれません。これまでのようなデータの集積の場合には、多くの場合はそのデータは整形され構造化データとして保存されていました。しかし、ビッグデータに含まれるものは数値だけのデータではなく、音声や動画、テキストやメール、株価や金融の情報など、非構造化されたものもあります。こういった、構造化データ・非構造化データのどちらも処理する能力も必要です。

ビッグデータの定義として、この「3つのV」が主流となっています。これらをまとめると、ビッグデータは「多様で大量の変化を伴うデータ群とそれを処理する能力」と言い表すことができます。

ビッグデータはデータを扱うシステムも含む

3つのVの定義においてvariety(多様性)で表されるように、ビッグデータには数値や文字列と言った構造化データだけでなく、非構造化データも含まれます。こういった条件のデータは、従来のシステムでは取り扱いが困難でしたが、ここにビッグデータが期待される理由があります。従来は取り扱いが難しいとされたこれらの非構造化データの活用に期待が高まっているのです。

ビッグデータとはデータそのものを表す場合もありますが、それだけでは活用の幅や可能性は広がりません。その膨大で多様な情報が変化するのに追従できるスピードを持ったシステムも含まれていなければならないのです。

ビッグデータの活用例

では実際に、ビッグデータはどのような場面で活用されているのでしょうか。

アイトラッキングデータにより消費者行動を分析

アイトラッキングとは、人の目の動きを観測してどこを見ているかを把握する技術です。このアイトラッキングデータを蓄積し、消費者行動の分析に活用している例があります。

大手飲料メーカーでは自動販売機にアイトラッキング機能を組み込み、これによって集めたデータを分析しどの場所にどういった商品を配置するか決定しています。これにより消費者行動に関するデータの種類が増え、分析の効果が向上し売上増加につなげています。

ランキングの更新頻度でサイトの信頼感を上昇

ビッグデータの活用にもっとも熱心なのはEC業界かもしれません。総合ECサイトにとってレコメンド(おすすめ)機能が大きな効果を上げるのは周知のことです。このレコメンド機能には、ビッグデータが活用されています。いかにビッグデータを活用できるかによってECサイトの勝敗は決まるとも言われるほどです。

また、単純にビッグデータを活用するだけでなく、レコメンド機能や売上ランキング機能の更新頻度もサイトの信頼につながる要素として重要視されています。ビッグデータ分析の頻度とその結果の反映速度が重要度を増しているのです。

カーナビのデータから危険箇所を特定

カーナビから収集したデータをビッグデータとして分析し交通の安全に利用しているケースもあります。ドライバーが急ブレーキを踏んだ箇所をカーナビが送信、サーバーにデータとして蓄積します。これをビッグデータとして解析し、その結果をもとに作成したのがセーフティマップです。ビッグデータ解析から予測した交通事故が起こりうる箇所がカーナビに反映され、ドライバーに通知されます。これにより事故発生率を大きく減少させることができたと報告されています。

こういった、ビッグデータの活用例はほかにも多くの実例があります。ビッグデータの活用例についてはこちらの記事をご覧ください。

→ ビッグデータの活用事例~もう始まっているビッグデータの活用(リンク)

ビッグデータ活用で課題となる3つの障壁

このようにさまざまなことを可能にできるビッグデータですが、課題は残されています。ビッグデータの活用には次のような3つの障壁があり、これらを解決しなければ本来の効果を生み出すことができません。

データ収集・分析の基盤整備

ビッグデータを活用するためには分析が必要であり、分析するためには適切なデータが必要です。このデータを収集するときに、多量の使えないゴミデータが含まれている可能性があります。ゴミデータが多ければ分析効率は低下し、結果を反映するまで時間がかかってしまいます。時間がかかればその結果のリアルタイム性が失われ、活用ができないものになってしまうかもしれません。

また、分析のための十分なシステムが用意されていなかったり、部署間でのシステム連携が取れていなかったりする場合にもビッグデータ活用は困難です。

ビッグデータを十分に活用するためには、こういったデータ収集から分析までの条件と環境を整備する必要があるのです。

データ保管とセキュリティ

ビッグデータの活用例として多いのは、顧客の購買行動を分析したものです。こういった点からも、企業が保管するビッグデータには顧客データを含むケースが多いということがわかります。

このような情報が流出することは企業の信頼失墜を招き、さらには事業運営が困難になることもありえます。IoTが普及しあらゆるものがインターネットに接続しているということを忘れず、扱う情報の重要性をしっかり認識しておかなければなりません。ビッグデータを運用するうえで、セキュリティ管理には細心の注意を払う必要があります。

重くのしかかる人材不足の問題

日本国内では多くの産業分野で人材不足が問題視されています。ICT分野も同様で、ビッグデータの扱いに関するプロが不足しているのが現状です。ビッグデータを運用するプロフェッショナル、データサイエンティストの育成と確保が急務となっています。

ビッグデータ活用でさまざまな産業に変化が訪れる

ビッグデータとはどのようなもので、どういった課題があるのかをご紹介しました。

今や世界のさまざまな産業はビッグデータの活用によって大きな変化を迎えようとしています。ビッグデータにより企業のサービスや販売戦略、さらには運営体制にも変化が訪れるかもしれません。それほどビッグデータは大きな可能性を持ち、有利な変化をもたらすことが期待されているのです。

参考:
情報通信白書 平成27年版(3)国内ビッグデータ活用事例|総務省

© 2020 Stratus Technologies.