DataOps実践のヒント
データサイエンティストがDataOpsを実践するには、データを扱う環境が必要だ。都度IT部門と交渉して環境を整えてもらうようでは時間がかかり過ぎる。
前編(Computer Weekly日本語版 6月5日号掲載)では、複数の識者のコメントを通してDataOpsの考え方とメリットを紹介した。
後編では、DataOpsを実践する上での課題、DataOpsに有効な技術を解説する。
Computer Weekly日本語版 6月19日号無料ダウンロード
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 6月19日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
DataOpsは、データサイエンスの非効率性を幾分緩和するのに役立つ。Moneysupermarket.comでデータ戦略および高度分析の責任者を務めるハービンダー・アトウォル氏は、英Computer Weeklyのインタビューに答えてデータサイエンスへの投資にまつわる問題に触れた。
英ロンドンで開催されたデータサイエンスイベントに登壇した同氏は、データサイエンティストがIT部門にデータへのアクセスを要請する際の問題点を取り上げた。データサイエンティストは必要なコンピューティングリソースについてIT部門と交渉した後、それらのリソースがプロビジョニングされるのを待たなければならない。データモデルの構築とテストに必要な一連のツールをインストールするために、さらにIT部門の手を借りることは避けられない。
マルチクラウド管理ツールベンダーのMorpheus Dataでビジネス開発部門のバイスプレジデントを務めるブラッド・パークス氏は次のように話す。「DataOpsのコンテキストでは、データの収集、モデリング、キュレーション用の環境を素早く構築/解体するのに自動化は欠かせない。また、開発者と同じくデータサイエンティストはインフラ管理者ではないことを認めなければならない」
コンサルティング企業Altran Technologiesでテクノロジー担当バイスプレジデント補佐を務めるジテンドラ・テト氏は、データサイエンティストとデータマネジャーはデータ管理、データ採集、データ分析を行う際のアプローチをモデル駆動型に変えることで、DevOpsから多くのことを学べると指摘する。
自動化とオーケストレーションの適切なプラットフォームがあれば、DataOpsのセルフサービスが実現する。そうしたプラットフォームは、データサイエンティストがデータセットを要求し、そのデータセットを利用する環境を立ち上げて、その後IT運用部門と一切やりとりすることなくその環境を破棄できる。
テト氏によると、これによりデータサイエンティストは自動化されたデータベースシステムによって適用されるデータとデータモデルをバージョン管理システムで管理できるようになる。
コンテナは、開発中のデータモデルのテスト実行に必要なソフトウェアライブラリやデータセット全てと共に、データサイエンティストが求める運用環境を巧みにカプセル化できるようにする。
コンテナ化された形式
EDAツールベンダーSynopsysのシニアテクニカルエバンジェリスト、ティム・マッケイ氏は次のように述べる。
続きはComputer Weekly日本語版 6月19日号にて
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 6月5日号 GPUだけじゃないAI用プロセッサ
Computer Weekly日本語版 5月22日号 5Gの最初の5年に起こること
Computer Weekly日本語版 5月8日号 セキュリティ演習でレベルアップ
Copyright © ITmedia, Inc. All Rights Reserved.

