操作性/管理性重視のクレンジングツール「SAS Data Management」データクレンジング製品紹介: SAS Institute Japan編

設定や運用を簡単にして、現場の従業員が難なく使えるデータクレンジングツールを目指す。こうした思想を具現化したのが、SAS Institute Japanの「SAS Data Management」だ。

2012年12月27日 08時00分 公開
[鳥越武史,TechTargetジャパン]

 統計解析ビジネスインテリジェンス(BI)といったデータ分析製品を数多く手掛けるSAS Institute Japan(以下、SAS)。同社は、データ分析をいかにしやすくするか、現業部門にとっていかに使いやすくするかといった視点で、データクレンジングツールの機能を磨き続けている。SASのデータクレンジングツールの特徴について、同社ビジネス開発本部 Information Management & Analyticsグループ マネージャーの小林 泉氏に話を聞いた。

連載:データクレンジング製品紹介


製品の概要

 SASは、データ分析に不可欠なデータマネジメント関連の方法論と製品群を組み合わせたサービス「SAS Data Management」の1コンポーネントとして、データクレンジングツールを提供する(画面1)。「名寄せのためのデータクレンジングではなく、分析のためのデータクレンジングを包括的に提供する」という意向が、こうした提供形式を取る背景にあるという。

画面 画面1:SAS Data Managementのデータクレンジングツールを起動した直後。機能を選択するダイアログが表示される《クリックで拡大》

 SAS Data Managementは、サーバ版に加えてスタンドアロン版を用意。「分析をするときに自分たちでデータをきれいにしたいという、現業部門のニーズに応えた」。クレンジングエンジンやユーザーインタフェースはスタンドアロン版とサーバ版ともに同一であり、まずスタンドアロン版を導入し、クレンジング対象のデータが増加したらサーバ版へ移行する、といったことも容易にできる。

他社製品に対する特徴

 SASのデータクレンジングツールの特徴は、「ルールベースのクレンジング」「設定の容易さ」「プロファイリング機能の充実」の3点だ。それぞれについて詳しく見ていこう。

辞書更新不要の「ルールベース」クレンジング

 一般的なデータクレンジング製品は、人名や地名、企業名を網羅した「辞書」を利用し、データの先頭から辞書と照合するといった手順でクレンジングを実施する。対してSASのデータクレンジングツールは、ルールベースのクレンジング手法を用いる点が異なる。日本の場合、住所は「都道府県」「市区町村」「番地」「ビル/マンション名」の順番に並ぶといったルールがある。こうしたルールに基づいてデータを修正するのが、ルールベースのクレンジングの基本的な考え方だ。

 例えば、都道府県名が入るべきところに「千葉市」と入っていたら「千葉県」に修正する、といった処理をする。その他、「東京都」「トウキョウト」といった表記を「東京都」に統一するといった、データの標準化も実施する。

 辞書ベースのデータクレンジング製品の場合、辞書自体が高価なのに加え、地名や企業名の変化に追従するために頻繁な更新が必要になる。ルールベースであれば、辞書の購入や更新といった負担をなくすことができる。

GUIで設定を容易に

 現業部門が利用することを想定して開発されたSASのデータクレンジングツール。「最低でも、現場担当者が利用できるシステムでないといけない」という考えから、操作性の向上に工夫を凝らす。その具体策の1つが、GUIベースの設定ツールだ。

ITmedia マーケティング新着記事

news099.png

有料動画サービス 34歳以下では過半数が利用経験、4割は1日1回以上利用
「ニールセン・ビデオコンテンツ アンド アド レポート 2024」を基に、テレビ画面での動...

news171.png

2024年のGW予算は横ばい 賃上げよりも物価高と円安の影響が勝る?――インテージ調査
インテージが全国の15歳から79歳の男女を対象に実施したゴールデンウイークに関する調査...

news148.jpg

CNN幹部が語る、メディアビジネスにとってのAIのリスクと機会
生成AIがコンテンツを量産し、真偽の明らかでない情報があふれかえる中、メディアの価値...