検索
特集/連載

クエリでは分析できない? より進化したデータ分析技術リレーショナルデータベースの限界(後編)

現在のデータ分析ニーズに、リレーショナルデータベースと従来のクエリでは対応できない。現在進みつつある、人工知能やディープラーニング、コグニティブアナリティクスなどについて整理しよう。

Share
Tweet
LINE
Hatena

 前編(Computer Weekly日本語版 9月20日号掲載)では、従来のリレーショナルデータベースでは不向きな用途の増加と、それに代わるデータ管理システムの種類と特徴を解説した。後編では、普及が進んでいるデータ分析手法をまとめた。

人工知能

 人工知能(AI)は、業務の効率を改善し、既存のデータから新しい知見を得てそれを提供することを重視した、幅広いテクノロジーを網羅している。AIツールは、推論、知識、計画、学習、自然言語処理など多岐にわたるプロセスを自動化する。

 「H2O.ai」のようなツールを使用すると、高速でスケーラビリティ(拡張性)を備えた、スマートな機械学習/AIアプリケーションを構築できる。別のAIツールである「SigOpt」は開発者向けで、実験を実行し、製品を改善するための試行錯誤を減らすことができる。マーケティングの分野であれば、「Conversica」の導入を検討している企業もあるだろう。自動化した電子メールに対する応答から見込み客を評価し、優先順位をつけるAIツールだ。

 AIツールを既存のデータソースと統合するためにAIを導入する例は非常に多い。Accentureなどの大手インテグレーターから英国のGreymathsやドイツのColenetなど特定分野のスペシャリストに至るまで、主にシステムインテグレーションの専門企業がこうしたツールを構築している。

 ほとんどの場合、AIプロセスではシステムのトレーニングや微調整に膨大な量のデータが必要であり、今なお開発段階にとどまっている。この開発を進めているのは、主に特定の業界だ。例えば莫大(ばくだい)な量のデータを扱い、大きな値を含む莫大な数のトランザクションの処理にミリ秒単位の応答を要求される金融業界や、医薬品開発に膨大な量のデータのモデリングと試行を要する製薬業界などが挙げられる。

機械学習

 最低限のAIレベルでは、手作業の中で何度も同じことを繰り返し実行しなければならなかった部分をプロセス自動化技術で置き換える。AIが機械学習を獲得すると、次のレベルに到達する。この場合、プログラムは観察結果と経験のデータを組み合わせて、モデルの構築を「学習」する。結果として得られたモデルは予測的、すなわち具体的な内容が分かりやすいもので、手近にあるデータからより多くの知識を得ることによって進化を続ける。

 機械学習は、以前は人間でなければ扱えないとされていた複雑な問題に主に導入されている。ただし、その解決法を繰り返してそのまま利用できることはほとんどないため、問題解決のプロセスは非常に時間とコストがかかるものとなっている。

 一方、プログラムにルールとユーザー体験を提供することを基本とするAIとは対照的に、機械学習は優れたパフォーマンスを発揮する明示的なアルゴリズムが利用できない演算タスクや、プログラムでは推論のルールしか提供できないタスクに採用される。その適用例といえるアプリケーションには、メールのフィルタリング、ネットワークへの侵入者や悪質な行為を行う部内者の検出、光学文字認識(OCR)、ランク付けの学習、コンピュータビジョンなどがある。

 機械学習の商用応用例はMicrosoftで見られる。同社のDynamics CRMサービスを使えば、ユーザーは問題発生からの時間を追うことでパターンを特定し、解決までの時間を短縮し、パフォーマンスを向上させることができる。

 Cisco Systemsは最近、暗号化されたトラフィックでマルウェアを検出する暗号化トラフィック分析(ETA)機能を発表した。ETAは、接続内の先頭のデータパケットだけでなく、パケットの長さと時間のシーケンスや、フロー内のパケットペイロード間のバイト分布も分析する。この検出プロセスは、機械学習モデルを拡張することによって、時間の経過とともに改善される。その際、機械学習モデルがリソースを独占したり、トラフィックを減速させたりすることはない。ETAを実装している最初の製品では、NetFlowデータを使用する。このデータは、Ciscoの「Catalyst 9000」とサービス統合型ルーター「4000シリーズ」をセキュリティアナリティクスの「Cisco Stealthwatch」と統合したシステムで得られるものだ。

深層学習

 深層学習(ディープラーニング)は、データ集約型の機械学習プロセスを目的とした、機械学習の具体的な方式の1つだ。トレーニングと推論の両方でGPUアクセラレーションに依存しているため、ハードウェアとソフトウェアのコンポーネントを緊密に統合する必要がある。

 米国では、「NVIDIA DGX」とGPUアーキテクチャ「Volta」でGPUアクセラレーションを採用し、データセンター、デスクトップ、ノートPC、世界最速のスーパーコンピュータといったさまざまなフォームファクタで展開している。クラウド向けアプリケーションであるNVIDIAの「NCG」(New College Graduate)は、Amazon、Google、IBM、Microsoftのサービスで利用できる。

 他方日本では、富士通が国立研究開発法人理化学研究所(理研)向けのディープラーニングシステムを手掛けることを発表した。このシステムは日本では最大規模のスーパーコンピュータに搭載するもので、AIテクノロジーに関する研究開発を加速させることを目指している。

 対してソフトウェア面では、Google Brainチームが大きく貢献した。オープンソースの「TensorFlow」を使用し、機械学習とディープニューラルネットワークの研究を実施したのだ。このアーキテクチャは柔軟で、1つ以上のCPUまたはGPUで動作する。またデスクトップ、サーバ、モバイルデバイスの全てにおいて、同一のAPIが稼働する。このシステムは、IT業界に特化したディープラーニングの幅広い分野を支えるものとなっている。さらに法曹界では、新興企業のIntraspexionが、訴訟に発展しそうな事例を調査して未然に防止する早期警告システムのコアとして、TensorFlowを採用している。

コグニティブアナリティクス




*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***






Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る