データ活用の文脈から、DataOpsが浮上してきた。DataOpsを実践することにより、全てのベースとなるデータの運用体制が確立される。複数の識者が語るDataOpsの考え方とは?
DevOpsのバリエーションの一つに「DataOps」がある。DataOpsは、新しいデータモデルの提供とデータのテストを素早く実行する方法だ。DataOpsにより、データ主導の戦略を構築する速度が向上する。
DataOpsはDevOpsと似た方法で使われ、データモデルの構築、テスト、導入の速度を向上させる。その結果、組織は収集した顧客データから価値を引き出す時間を短縮できる。
ビッグデータツールベンダーのTalendで技術製品マネジャーを務めるティボー・グルデル氏は次のように話す。「DataOpsは機械学習の登場をきっかけとする新しいアプローチだ。データの複雑さが増し、データのガバナンスや所有権に対するニーズの高まりが、DataOps誕生の大きなきっかけになっている。組織は、どのデータに誰がアクセスでき、そのデータを誰が所有しているかを把握する必要がある」
DataOpsが効果を発揮するのが、中央のデータハブ、リポジトリ、管理ゾーンの作成とキュレーションだ。これらはアプリケーションデータとデータモデルの収集、照合後に分散するよう設計される。DataOpsの考え方の基盤となるのは、データ分析の大半は、メタデータレベルの分析を組織のITスタック全体に広く伝搬できるという考え方だ。これにより、より洗練された分析層を生み出すことが可能になる。
データ統合ツールベンダーのTamrでデータベース部門のリーダーを務めるアンディ・パルマー氏は次のように語る。「DataOpsでは、データエンジニアリング、データ統合、データ品質、データセキュリティ/プライバシーそれぞれが本質的に結び付いていることを認める。分析速度が上がるデータを素早く提供できるようにして、今までは不可能だった分析を可能にするのがDataOpsだ」
DataOpsは製品ではない。どちらかといえば方法論で、一つのアプローチだ。そのためDataOpsには理論家もいれば、反対論者も盲信者もいる。DataOpsはバージョン管理を使って継続的にテストを実施するために、データとデータモデルを提供できるようにするものだという意見もある。
DataOpsの重要な要件は、人間がデータを操作しやすくすることにある。構成自動化ツールベンダーのPuppetでエコシステムエンジニアリング担当バイスプレジデントを務めるナイジェル・ケルステン氏は次のように話す。「DataOpsという動きは、プロセスやツールだけでなく、人間にも注目する。データの収集と分析を自動的かつ極めて大規模に行うには、人間がかつてないほど重要になる」
DataOpsの実践者、つまりDataOpsエンジニア(DOE)は通常、データ管理フレームワークの構築に注力する。優れたデータガバナンスフレームワークがあれば、データモデルを迅速に進化させることができる。優れたデータガバナンスフレームワークとは、具体的にはITスタック全体から生み出されるデータの重複を正確に排除して、定期的に供給するフレームワークだ。これにより、エンジニアは一貫したテスト環境を使って再現可能なテストを実行できる。このテスト環境には、データとプライバシーの法制度に準拠した方法で顧客データが取り込まれる。
これが最終的にはデータモデルの開発、テスト、導入に継続的な好循環を生み出す。そう語るのはソフトウェア開発ツールベンダーRogue Wave Softwareでチーフアーキテクトを務めるジャスティン・レオック氏だ。「最新ビジネスは、全てその中核においてドメインデータを転送、分析、配置するコードが必要になる。これがエンタープライズフェデレーション、API間通信、ビッグデータ分析、ストリーム処理、機械学習、データサイエンスなど、全く新しいソフトウェア分野を生み出している。高度な環境ではよくあることだが、こうしたアプリケーションが複雑化、巨大化するとこれを収束させる必要性が生まれる。データのセキュリティ、整合性、アクセシビリティー、編成を調整して一つの考え方にまとめなければならない。その考え方がDataOpsになる」
重要なのは、データにはライフサイクルがあるのを意識することだ。入念なDataOpsプロセスから生まれるデータモデルはデータライフサイクル全体を認識する。
新しく、未加工で、構造化されておらず重要性が非常に低いと思われるデータもあれば、現在進行形で使用されていて恐らくミッションクリティカルなデータもある。冗長なデータや廃棄する必要があるデータも必ず存在する。アクセス管理ポリシーやシステムの非互換性により単純にアクセスできないデータもあるだろう。
ビッグデータ関連ツールベンダーMapR Technologiesのシニアテクノロジストを務めるマイトシュ・シャー氏は次のように語る。「データ管理に包括的でオープンなアプローチを取ればDataOps優先の方法論が実現する。こうすると、データサイエンティスト、開発者、その他データを重視するスタッフのチームが、機械学習でトレーニングしたモデルを運用環境に導入することが可能になる。DataOps開発環境は、職務の能力の枠を超えたアジャイルなコラボレーションや、価値実現の高速化を促す」
後編(Computer Weekly日本語版 6月19日号掲載予定)では、DataOpsを実践する上での課題、DataOpsに有効な技術を解説する。
Copyright © ITmedia, Inc. All Rights Reserved.
データ活用におけるさまざまな課題を解決するBIツール。近年は、その枠を超え、さらなるデータ活用を促進するデータ分析プラットフォームへの注目度が高まっている。3社の事例を基に、同製品の魅力と実力に迫る。
データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。
データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。
「人の動き」で見えない価値を見つけ出す 人流データが切り開く都市開発の未来 (2025/5/2)
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
データ活用やAIで不良原因も発見 全員参加の現場伴走型で挑むトヨタ車体のDX (2025/2/21)
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...