検索
特集/連載

操作性/管理性重視のクレンジングツール「SAS Data Management」データクレンジング製品紹介: SAS Institute Japan編

設定や運用を簡単にして、現場の従業員が難なく使えるデータクレンジングツールを目指す。こうした思想を具現化したのが、SAS Institute Japanの「SAS Data Management」だ。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 統計解析ビジネスインテリジェンス(BI)といったデータ分析製品を数多く手掛けるSAS Institute Japan(以下、SAS)。同社は、データ分析をいかにしやすくするか、現業部門にとっていかに使いやすくするかといった視点で、データクレンジングツールの機能を磨き続けている。SASのデータクレンジングツールの特徴について、同社ビジネス開発本部 Information Management & Analyticsグループ マネージャーの小林 泉氏に話を聞いた。

連載:データクレンジング製品紹介


製品の概要

 SASは、データ分析に不可欠なデータマネジメント関連の方法論と製品群を組み合わせたサービス「SAS Data Management」の1コンポーネントとして、データクレンジングツールを提供する(画面1)。「名寄せのためのデータクレンジングではなく、分析のためのデータクレンジングを包括的に提供する」という意向が、こうした提供形式を取る背景にあるという。

画面
画面1:SAS Data Managementのデータクレンジングツールを起動した直後。機能を選択するダイアログが表示される《クリックで拡大》

 SAS Data Managementは、サーバ版に加えてスタンドアロン版を用意。「分析をするときに自分たちでデータをきれいにしたいという、現業部門のニーズに応えた」。クレンジングエンジンやユーザーインタフェースはスタンドアロン版とサーバ版ともに同一であり、まずスタンドアロン版を導入し、クレンジング対象のデータが増加したらサーバ版へ移行する、といったことも容易にできる。

他社製品に対する特徴

 SASのデータクレンジングツールの特徴は、「ルールベースのクレンジング」「設定の容易さ」「プロファイリング機能の充実」の3点だ。それぞれについて詳しく見ていこう。

辞書更新不要の「ルールベース」クレンジング

 一般的なデータクレンジング製品は、人名や地名、企業名を網羅した「辞書」を利用し、データの先頭から辞書と照合するといった手順でクレンジングを実施する。対してSASのデータクレンジングツールは、ルールベースのクレンジング手法を用いる点が異なる。日本の場合、住所は「都道府県」「市区町村」「番地」「ビル/マンション名」の順番に並ぶといったルールがある。こうしたルールに基づいてデータを修正するのが、ルールベースのクレンジングの基本的な考え方だ。

 例えば、都道府県名が入るべきところに「千葉市」と入っていたら「千葉県」に修正する、といった処理をする。その他、「東京都」「トウキョウト」といった表記を「東京都」に統一するといった、データの標準化も実施する。

 辞書ベースのデータクレンジング製品の場合、辞書自体が高価なのに加え、地名や企業名の変化に追従するために頻繁な更新が必要になる。ルールベースであれば、辞書の購入や更新といった負担をなくすことができる。

GUIで設定を容易に

 現業部門が利用することを想定して開発されたSASのデータクレンジングツール。「最低でも、現場担当者が利用できるシステムでないといけない」という考えから、操作性の向上に工夫を凝らす。その具体策の1つが、GUIベースの設定ツールだ。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る