ビジネスデータ分析を支える技術について簡単に解説したいと思います。データ分析は割と広い世界になっていて、使われる技術は色々とあります。まず下記の図を見てください。
データ分析システムをフルに作ろうとすると、だいたいこの図のようなフローになると思います。左から右へ流れて行きます。まず、一番左のグループです。データが生成される場所ですね。
データは形式により大きく3つに分かれます。
構造化データ
非構造化データ
半構造化データ
ここで必要な技術は何でしょう? データ理解です。これが実は案外難しい。習うより慣れろではないですが、経験がものを言うエリアです。分析をするプロセスに持ち込むデータの量、形式、質などを期待されるアウトプットを考えて、整理し、必要なら加工していかなけばならないのですね。欠損が無いか、もしあればどう補うのか。センサーデータなどのの場合は、採用するかどうかの基準値を決めなければなりません。非構造化データの場合も、どのデータを使うのかの基準値が必要になります。分析に使用するアルゴリズムによっては、必要とするデータ量が決まっているものもあります。後工程のことを考えつつ、データを理解し、必要なアクションを取って行くスキルが求められます。ここを安易に通過すると、期待する分析結果が得られないリスクがあります。
次に、データをためるDWH(データウエアハウス)とData Lake(データレイク)。構造化データ(典型的な構造化データは、RDBMS)はDWHにため込むことになります。ほとんどがCloud DWHになります。半構造化データと非構造化データは、Data Lakeに保存しておきます。従って、DWHとData Lakeの技術スキルが必要とされます。
次が、分析プロセス。データが保存されているDWHやData Lakeから分析に必要なデータを抽出して持っていく必要があるわけです。Data Martを作る場合もあります。レガシーシステムですとETLの知識が必要でしたがCloudでは、もう少し簡単になっています。DWHから分析に必要なデータを抽出する為には、SQLがわかっていなければなりません。Cloud Data Lakeの場合は、データカタログという機能が用意されており、抽出が容易になっています。
分析プロセスについては、下図を見て下さい。
分析プロセスで必要なスキルは、どのようなものでしょうか?
ここでは、データは使える状態になっているので、分析に使うアルゴリズムを決めます。データと期待されているアウトプットを考えて、アルゴリズムを決めるスキルが必要です。
処理プロセスとしては最後になる、データビジュアライゼーションです。具体的には、Microsoft Power BIやTableauといったセルフサービスBIのスキルですね。最近は、第二世代も出てきていますので、この分野の知識とスキルも大切です。
ビジュアライゼーションされた分析結果を読み取り、意思決定を支援できる知見を得ることがビジネスデータ分析の目的です。この知見発見というのが、ビジネスデータ分析の最大の難所です。ドメイン知識も必要ですし、おのれの知識や経験を総動員して考えなければなりません。クライアントやビジネスパートナーと知見発見ミーティングを持つ必要もありますが、それでもたたき台はコンサルタントが作成する必要があります。頑張りどころですし、ここで評価も決まってきます。
Crieitは誰でも投稿できるサービスです。 是非記事の投稿をお願いします。どんな軽い内容でも投稿できます。
また、「こんな記事が読みたいけど見つからない!」という方は是非記事投稿リクエストボードへ!
こじんまりと作業ログやメモ、進捗を書き残しておきたい方はボード機能をご利用ください。
ボードとは?
コメント