DataOps実践のヒント：DataOpsの誕生【後編】

データサイエンティストがDataOpsを実践するには、データを扱う環境が必要だ。都度IT部門と交渉して環境を整えてもらうようでは時間がかかり過ぎる。

≫ 2019年06月28日 08時00分公開

　前編（Computer Weekly日本語版　6月5日号掲載）では、複数の識者のコメントを通してDataOpsの考え方とメリットを紹介した。後編では、DataOpsを実践する上での課題、DataOpsに有効な技術を解説する。

　DataOpsは、データサイエンスの非効率性を幾分緩和するのに役立つ。Moneysupermarket.comでデータ戦略および高度分析の責任者を務めるハービンダー・アトウォル氏は、英Computer Weeklyのインタビューに答えてデータサイエンスへの投資にまつわる問題に触れた。

　英ロンドンで開催されたデータサイエンスイベントに登壇した同氏は、データサイエンティストがIT部門にデータへのアクセスを要請する際の問題点を取り上げた。データサイエンティストは必要なコンピューティングリソースについてIT部門と交渉した後、それらのリソースがプロビジョニングされるのを待たなければならない。データモデルの構築とテストに必要な一連のツールをインストールするために、さらにIT部門の手を借りることは避けられない。

　マルチクラウド管理ツールベンダーのMorpheus Dataでビジネス開発部門のバイスプレジデントを務めるブラッド・パークス氏は次のように話す。「DataOpsのコンテキストでは、データの収集、モデリング、キュレーション用の環境を素早く構築／解体するのに自動化は欠かせない。また、開発者と同じくデータサイエンティストはインフラ管理者ではないことを認めなければならない」

　コンサルティング企業Altran Technologiesでテクノロジー担当バイスプレジデント補佐を務めるジテンドラ・テト氏は、データサイエンティストとデータマネジャーはデータ管理、データ採集、データ分析を行う際のアプローチをモデル駆動型に変えることで、DevOpsから多くのことを学べると指摘する。

　自動化とオーケストレーションの適切なプラットフォームがあれば、DataOpsのセルフサービスが実現する。そうしたプラットフォームは、データサイエンティストがデータセットを要求し、そのデータセットを利用する環境を立ち上げて、その後IT運用部門と一切やりとりすることなくその環境を破棄できる。

　テト氏によると、これによりデータサイエンティストは自動化されたデータベースシステムによって適用されるデータとデータモデルをバージョン管理システムで管理できるようになる。

　コンテナは、開発中のデータモデルのテスト実行に必要なソフトウェアライブラリやデータセット全てと共に、データサイエンティストが求める運用環境を巧みにカプセル化できるようにする。

分析と機械学習を加速するDataOps

AIがスクリプトを生成するコードレスなアプリテスト自動化ツール登場

演算機能を搭載したHDD／SSD「コンピュテーショナルストレージ」登場か

いまさら聞けないAmazon S3＆オブジェクトストレージ

重要度が低下してきたストレージ管理者が進むべき2つキャリア

コンテナ化された形式

　EDAツールベンダーSynopsysのシニアテクニカルエバンジェリスト、ティム・マッケイ氏は次のように述べる。「データサイエンティストは、コンテナ形式の実験的なモデルを作成できる。そうすることで、モデルの改良時に更新したモデルを素早く展開できるようになる。リアルタイムに比較できるように以前のモデルを残すことも可能だ。モデル内の各ノードが別のノードと機能もパフォーマンスも同じであるという確証の下に、基盤となるリソースをシームレスかつ素早く拡張できることをモデル自体が証明する」

　DataOpsをサポートするいわゆるデータサイエンスプラットフォームが数多く登場し始めている。Moneysupermarket.comが導入しているものの一つにDomino Data Labのプラットフォームがある。アトウォル氏によると、このプラットフォームはデータサイエンティストが作業するためのセルフサービスを提供する。

　Rogue Waveのレオック氏は次のように語る。「DataOpsと最新データ分析の実践、新興の機械学習技術が組み合わされば、組織はデータ主導のビジネスモデルの急増に備えられると考えている」

意思決定の強化

　モノのインターネット（IoT）センサーストリームに高度な分析を適用するなど、意思決定強化用のデータ使用量が増加すれば、現在生成されている既に天文学的な数のデータが桁違いに減少するだろう。

　これは恐らく、データモデルとテストデータの管理が大きく重視される。つまり、DataOpsの役割がますます重要になる。

　AIOpsベンダーのMoogsoftで採鉱技術責任者（CTO）兼製品戦略担当グローバルバイスプレジデントを務めるウィル・カペッリ氏は、DevOpsチームとデータサイエンティストの効果的な連携の必要性を説く。「DevOpsの担当者は忍耐力に欠けることが多過ぎる。それが人間によるものでもアルゴリズムによるものでも、厳密な分析の結果を待つことに耐えられない。一方データサイエンティストはあまりに気難しい。コンピュータサイエンスよりも数学に関してとりわけその傾向が強い。だが本当は、DevOpsはデータサイエンスの結果が素早く効率的に提供されることを必要とするため、どちらのコミュニティーも悪い習慣を幾分克服する必要がある。今こそデータサイエンス自体について、速やかに考えを深めるべきだろう」

TechTargetジャパントップデータ分析