2012年12月27日 08時00分 UPDATE
特集/連載

データクレンジング製品紹介: SAS Institute Japan編操作性/管理性重視のクレンジングツール「SAS Data Management」

設定や運用を簡単にして、現場の従業員が難なく使えるデータクレンジングツールを目指す。こうした思想を具現化したのが、SAS Institute Japanの「SAS Data Management」だ。

[鳥越武史,TechTargetジャパン]

 統計解析ビジネスインテリジェンス(BI)といったデータ分析製品を数多く手掛けるSAS Institute Japan(以下、SAS)。同社は、データ分析をいかにしやすくするか、現業部門にとっていかに使いやすくするかといった視点で、データクレンジングツールの機能を磨き続けている。SASのデータクレンジングツールの特徴について、同社ビジネス開発本部 Information Management & Analyticsグループ マネージャーの小林 泉氏に話を聞いた。

連載:データクレンジング製品紹介


製品の概要

 SASは、データ分析に不可欠なデータマネジメント関連の方法論と製品群を組み合わせたサービス「SAS Data Management」の1コンポーネントとして、データクレンジングツールを提供する(画面1)。「名寄せのためのデータクレンジングではなく、分析のためのデータクレンジングを包括的に提供する」という意向が、こうした提供形式を取る背景にあるという。

画面 画面1:SAS Data Managementのデータクレンジングツールを起動した直後。機能を選択するダイアログが表示される《クリックで拡大》

 SAS Data Managementは、サーバ版に加えてスタンドアロン版を用意。「分析をするときに自分たちでデータをきれいにしたいという、現業部門のニーズに応えた」。クレンジングエンジンやユーザーインタフェースはスタンドアロン版とサーバ版ともに同一であり、まずスタンドアロン版を導入し、クレンジング対象のデータが増加したらサーバ版へ移行する、といったことも容易にできる。

他社製品に対する特徴

 SASのデータクレンジングツールの特徴は、「ルールベースのクレンジング」「設定の容易さ」「プロファイリング機能の充実」の3点だ。それぞれについて詳しく見ていこう。

辞書更新不要の「ルールベース」クレンジング

 一般的なデータクレンジング製品は、人名や地名、企業名を網羅した「辞書」を利用し、データの先頭から辞書と照合するといった手順でクレンジングを実施する。対してSASのデータクレンジングツールは、ルールベースのクレンジング手法を用いる点が異なる。日本の場合、住所は「都道府県」「市区町村」「番地」「ビル/マンション名」の順番に並ぶといったルールがある。こうしたルールに基づいてデータを修正するのが、ルールベースのクレンジングの基本的な考え方だ。

 例えば、都道府県名が入るべきところに「千葉市」と入っていたら「千葉県」に修正する、といった処理をする。その他、「東京都」「トウキョウト」といった表記を「東京都」に統一するといった、データの標準化も実施する。

 辞書ベースのデータクレンジング製品の場合、辞書自体が高価なのに加え、地名や企業名の変化に追従するために頻繁な更新が必要になる。ルールベースであれば、辞書の購入や更新といった負担をなくすことができる。

GUIで設定を容易に

 現業部門が利用することを想定して開発されたSASのデータクレンジングツール。「最低でも、現場担当者が利用できるシステムでないといけない」という考えから、操作性の向上に工夫を凝らす。その具体策の1つが、GUIベースの設定ツールだ。

この記事を読んだ人にお薦めの関連記事

この記事を読んだ人にお薦めのホワイトペーパー

Loading

注目テーマ

ITmedia マーケティング新着記事

news077.jpg

電通が学生と企業の共創プロジェクト「βutterfly」を開発、企業向けにスポンサードプランを提供
電通は、顧客企業と学生の協働型プロジェクト「βutterfly」を開始すると発表した。β版...

news040.jpg

「インバウンド」で注目される浅草、訪日外国人観光客で賑わう理由とは?
口コミ時代のWebとソーシャルメディアは最大の武器。最小限の手間で最大の効果を発揮する...

news103.png

オムニバス、「セゾンDMP」を活用したターゲティング広告を提供
クレディセゾンの100%子会社オムニバスは、クレディセゾンが保有するクレジットカードの...