2017年10月13日 08時00分 公開
特集/連載

リレーショナルデータベースの限界(後編)クエリでは分析できない? より進化したデータ分析技術

現在のデータ分析ニーズに、リレーショナルデータベースと従来のクエリでは対応できない。現在進みつつある、人工知能やディープラーニング、コグニティブアナリティクスなどについて整理しよう。

[Bernt Ostergaard,Computer Weekly]
Computer Weekly

 前編(Computer Weekly日本語版 9月20日号掲載)では、従来のリレーショナルデータベースでは不向きな用途の増加と、それに代わるデータ管理システムの種類と特徴を解説した。後編では、普及が進んでいるデータ分析手法をまとめた。

Computer Weekly日本語版 10月4日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 10月4日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

人工知能

 人工知能(AI)は、業務の効率を改善し、既存のデータから新しい知見を得てそれを提供することを重視した、幅広いテクノロジーを網羅している。AIツールは、推論、知識、計画、学習、自然言語処理など多岐にわたるプロセスを自動化する。

 「H2O.ai」のようなツールを使用すると、高速でスケーラビリティ(拡張性)を備えた、スマートな機械学習/AIアプリケーションを構築できる。別のAIツールである「SigOpt」は開発者向けで、実験を実行し、製品を改善するための試行錯誤を減らすことができる。マーケティングの分野であれば、「Conversica」の導入を検討している企業もあるだろう。自動化した電子メールに対する応答から見込み客を評価し、優先順位をつけるAIツールだ。

 AIツールを既存のデータソースと統合するためにAIを導入する例は非常に多い。Accentureなどの大手インテグレーターから英国のGreymathsやドイツのColenetなど特定分野のスペシャリストに至るまで、主にシステムインテグレーションの専門企業がこうしたツールを構築している。

 ほとんどの場合、AIプロセスではシステムのトレーニングや微調整に膨大な量のデータが必要であり、今なお開発段階にとどまっている。この開発を進めているのは、主に特定の業界だ。例えば莫大(ばくだい)な量のデータを扱い、大きな値を含む莫大な数のトランザクションの処理にミリ秒単位の応答を要求される金融業界や、医薬品開発に膨大な量のデータのモデリングと試行を要する製薬業界などが挙げられる。

機械学習

 最低限のAIレベルでは、手作業の中で何度も同じことを繰り返し実行しなければならなかった部分をプロセス自動化技術で置き換える。AIが機械学習を獲得すると、次のレベルに到達する。この場合、プログラムは観察結果と経験のデータを組み合わせて、モデルの構築を「学習」する。結果として得られたモデルは予測的、すなわち具体的な内容が分かりやすいもので、手近にあるデータからより多くの知識を得ることによって進化を続ける。

 機械学習は、以前は人間でなければ扱えないとされていた複雑な問題に主に導入されている。ただし、その解決法を繰り返してそのまま利用できることはほとんどないため、問題解決のプロセスは非常に時間とコストがかかるものとなっている。

 一方、プログラムにルールとユーザー体験を提供することを基本とするAIとは対照的に、機械学習は優れたパフォーマンスを発揮する明示的なアルゴリズムが利用できない演算タスクや、プログラムでは推論のルールしか提供できないタスクに採用される。その適用例といえるアプリケーションには、メールのフィルタリング、ネットワークへの侵入者や悪質な行為を行う部内者の検出、光学文字認識(OCR)、ランク付けの学習、コンピュータビジョンなどがある。

 機械学習の商用応用例はMicrosoftで見られる。同社のDynamics CRMサービスを使えば、ユーザーは問題発生からの時間を追うことでパターンを特定し、解決までの時間を短縮し、パフォーマンスを向上させることができる。

 Cisco Systemsは最近、暗号化されたトラフィックでマルウェアを検出する暗号化トラフィック分析(ETA)機能を発表した。ETAは、接続内の先頭のデータパケットだけでなく、パケットの長さと時間のシーケンスや、フロー内のパケットペイロード間のバイト分布も分析する。この検出プロセスは、機械学習モデルを拡張することによって、時間の経過とともに改善される。その際、機械学習モデルがリソースを独占したり、トラフィックを減速させたりすることはない。ETAを実装している最初の製品では、NetFlowデータを使用する。このデータは、Ciscoの「Catalyst 9000」とサービス統合型ルーター「4000シリーズ」をセキュリティアナリティクスの「Cisco Stealthwatch」と統合したシステムで得られるものだ。

深層学習

 深層学習(ディープラーニング)は、データ集約型の機械学習プロセスを目的とした、機械学習の具体的な方式の1つだ。トレーニングと推論の両方でGPUアクセラレーションに依存しているため、ハードウェアとソフトウェアのコンポーネントを緊密に統合する必要がある。

 米国では、「NVIDIA DGX」とGPUアーキテクチャ「Volta」でGPUアクセラレーションを採用し、データセンター、デスクトップ、ノートPC、世界最速のスーパーコンピュータといったさまざまなフォームファクタで展開している。クラウド向けアプリケーションであるNVIDIAの「NCG」(New College Graduate)は、Amazon、Google、IBM、Microsoftのサービスで利用できる。

 他方日本では、富士通が国立研究開発法人理化学研究所(理研)向けのディープラーニングシステムを手掛けることを発表した。このシステムは日本では最大規模のスーパーコンピュータに搭載するもので、AIテクノロジーに関する研究開発を加速させることを目指している。

 対してソフトウェア面では、Google Brainチームが大きく貢献した。オープンソースの「TensorFlow」を使用し、機械学習とディープニューラルネットワークの研究を実施したのだ。このアーキテクチャは柔軟で、1つ以上のCPUまたはGPUで動作する。またデスクトップ、サーバ、モバイルデバイスの全てにおいて、同一のAPIが稼働する。このシステムは、IT業界に特化したディープラーニングの幅広い分野を支えるものとなっている。さらに法曹界では、新興企業のIntraspexionが、訴訟に発展しそうな事例を調査して未然に防止する早期警告システムのコアとして、TensorFlowを採用している。

コグニティブアナリティクス

続きはComputer Weekly日本語版 10月4日号にて

本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。


Computer Weekly日本語版 最近のバックナンバー

Computer Weekly日本語版 9月20日号 なぜ暗号通貨は主流にならないのか

Computer Weekly日本語版 9月6日号 乗るしかない この802.11ac Wave 2に

Computer Weekly日本語版 8月16日号 LinuxでもPowerShell


この記事を読んだ人にお薦めの関連記事

注目テーマ

ITmedia マーケティング新着記事

news062.jpg

ランドスケイプの企業データベース「LBC」がマーべリックのDMP搭載型DSP「Sphere」と連携
ランドスケイプは、同社の企業データベース「LBC」がマーベリックのDMP搭載型DSP「Sphere...

news068.jpg

ジーニー、CRM/SFAシステム「ちきゅう」を会社分割契約により事業承継
ジーニーは、ちきゅうが提供する中小企業向けCRM/SFAシステム「ちきゅう」の開発・販売...

news066.jpg

電通、広告統合プランニング・効果検証ツール「STADIA OOHプラス」(β版)を開発
電通は、テレビ広告とインターネット広告の統合プランニングを実現する「STADIA」の機能...