データサイエンティストがDataOpsを実践するには、データを扱う環境が必要だ。都度IT部門と交渉して環境を整えてもらうようでは時間がかかり過ぎる。
前編(Computer Weekly日本語版 6月5日号掲載)では、複数の識者のコメントを通してDataOpsの考え方とメリットを紹介した。後編では、DataOpsを実践する上での課題、DataOpsに有効な技術を解説する。
DataOpsは、データサイエンスの非効率性を幾分緩和するのに役立つ。Moneysupermarket.comでデータ戦略および高度分析の責任者を務めるハービンダー・アトウォル氏は、英Computer Weeklyのインタビューに答えてデータサイエンスへの投資にまつわる問題に触れた。
英ロンドンで開催されたデータサイエンスイベントに登壇した同氏は、データサイエンティストがIT部門にデータへのアクセスを要請する際の問題点を取り上げた。データサイエンティストは必要なコンピューティングリソースについてIT部門と交渉した後、それらのリソースがプロビジョニングされるのを待たなければならない。データモデルの構築とテストに必要な一連のツールをインストールするために、さらにIT部門の手を借りることは避けられない。
マルチクラウド管理ツールベンダーのMorpheus Dataでビジネス開発部門のバイスプレジデントを務めるブラッド・パークス氏は次のように話す。「DataOpsのコンテキストでは、データの収集、モデリング、キュレーション用の環境を素早く構築/解体するのに自動化は欠かせない。また、開発者と同じくデータサイエンティストはインフラ管理者ではないことを認めなければならない」
コンサルティング企業Altran Technologiesでテクノロジー担当バイスプレジデント補佐を務めるジテンドラ・テト氏は、データサイエンティストとデータマネジャーはデータ管理、データ採集、データ分析を行う際のアプローチをモデル駆動型に変えることで、DevOpsから多くのことを学べると指摘する。
自動化とオーケストレーションの適切なプラットフォームがあれば、DataOpsのセルフサービスが実現する。そうしたプラットフォームは、データサイエンティストがデータセットを要求し、そのデータセットを利用する環境を立ち上げて、その後IT運用部門と一切やりとりすることなくその環境を破棄できる。
テト氏によると、これによりデータサイエンティストは自動化されたデータベースシステムによって適用されるデータとデータモデルをバージョン管理システムで管理できるようになる。
コンテナは、開発中のデータモデルのテスト実行に必要なソフトウェアライブラリやデータセット全てと共に、データサイエンティストが求める運用環境を巧みにカプセル化できるようにする。
EDAツールベンダーSynopsysのシニアテクニカルエバンジェリスト、ティム・マッケイ氏は次のように述べる。「データサイエンティストは、コンテナ形式の実験的なモデルを作成できる。そうすることで、モデルの改良時に更新したモデルを素早く展開できるようになる。リアルタイムに比較できるように以前のモデルを残すことも可能だ。モデル内の各ノードが別のノードと機能もパフォーマンスも同じであるという確証の下に、基盤となるリソースをシームレスかつ素早く拡張できることをモデル自体が証明する」
DataOpsをサポートするいわゆるデータサイエンスプラットフォームが数多く登場し始めている。Moneysupermarket.comが導入しているものの一つにDomino Data Labのプラットフォームがある。アトウォル氏によると、このプラットフォームはデータサイエンティストが作業するためのセルフサービスを提供する。
Rogue Waveのレオック氏は次のように語る。「DataOpsと最新データ分析の実践、新興の機械学習技術が組み合わされば、組織はデータ主導のビジネスモデルの急増に備えられると考えている」
モノのインターネット(IoT)センサーストリームに高度な分析を適用するなど、意思決定強化用のデータ使用量が増加すれば、現在生成されている既に天文学的な数のデータが桁違いに減少するだろう。
これは恐らく、データモデルとテストデータの管理が大きく重視される。つまり、DataOpsの役割がますます重要になる。
AIOpsベンダーのMoogsoftで採鉱技術責任者(CTO)兼製品戦略担当グローバルバイスプレジデントを務めるウィル・カペッリ氏は、DevOpsチームとデータサイエンティストの効果的な連携の必要性を説く。「DevOpsの担当者は忍耐力に欠けることが多過ぎる。それが人間によるものでもアルゴリズムによるものでも、厳密な分析の結果を待つことに耐えられない。一方データサイエンティストはあまりに気難しい。コンピュータサイエンスよりも数学に関してとりわけその傾向が強い。だが本当は、DevOpsはデータサイエンスの結果が素早く効率的に提供されることを必要とするため、どちらのコミュニティーも悪い習慣を幾分克服する必要がある。今こそデータサイエンス自体について、速やかに考えを深めるべきだろう」
Copyright © ITmedia, Inc. All Rights Reserved.
工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。
複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。