設定や運用を簡単にして、現場の従業員が難なく使えるデータクレンジングツールを目指す。こうした思想を具現化したのが、SAS Institute Japanの「SAS Data Management」だ。
統計解析やビジネスインテリジェンス(BI)といったデータ分析製品を数多く手掛けるSAS Institute Japan(以下、SAS)。同社は、データ分析をいかにしやすくするか、現業部門にとっていかに使いやすくするかといった視点で、データクレンジングツールの機能を磨き続けている。SASのデータクレンジングツールの特徴について、同社ビジネス開発本部 Information Management & Analyticsグループ マネージャーの小林 泉氏に話を聞いた。
SASは、データ分析に不可欠なデータマネジメント関連の方法論と製品群を組み合わせたサービス「SAS Data Management」の1コンポーネントとして、データクレンジングツールを提供する(画面1)。「名寄せのためのデータクレンジングではなく、分析のためのデータクレンジングを包括的に提供する」という意向が、こうした提供形式を取る背景にあるという。
SAS Data Managementは、サーバ版に加えてスタンドアロン版を用意。「分析をするときに自分たちでデータをきれいにしたいという、現業部門のニーズに応えた」。クレンジングエンジンやユーザーインタフェースはスタンドアロン版とサーバ版ともに同一であり、まずスタンドアロン版を導入し、クレンジング対象のデータが増加したらサーバ版へ移行する、といったことも容易にできる。
SASのデータクレンジングツールの特徴は、「ルールベースのクレンジング」「設定の容易さ」「プロファイリング機能の充実」の3点だ。それぞれについて詳しく見ていこう。
一般的なデータクレンジング製品は、人名や地名、企業名を網羅した「辞書」を利用し、データの先頭から辞書と照合するといった手順でクレンジングを実施する。対してSASのデータクレンジングツールは、ルールベースのクレンジング手法を用いる点が異なる。日本の場合、住所は「都道府県」「市区町村」「番地」「ビル/マンション名」の順番に並ぶといったルールがある。こうしたルールに基づいてデータを修正するのが、ルールベースのクレンジングの基本的な考え方だ。
例えば、都道府県名が入るべきところに「千葉市」と入っていたら「千葉県」に修正する、といった処理をする。その他、「東京都」「トウキョウト」といった表記を「東京都」に統一するといった、データの標準化も実施する。
辞書ベースのデータクレンジング製品の場合、辞書自体が高価なのに加え、地名や企業名の変化に追従するために頻繁な更新が必要になる。ルールベースであれば、辞書の購入や更新といった負担をなくすことができる。
現業部門が利用することを想定して開発されたSASのデータクレンジングツール。「最低でも、現場担当者が利用できるシステムでないといけない」という考えから、操作性の向上に工夫を凝らす。その具体策の1つが、GUIベースの設定ツールだ。
Copyright © ITmedia, Inc. All Rights Reserved.
トランプ氏当選でイーロン・マスク氏に追い風 過去最高の投稿数達成でXは生き延びるか?
2024年の米大統領選の当日、Xの利用者数が過去最高を記録した。Threadsに流れていたユー...
トランプ氏圧勝で気になる「TikTok禁止法」の行方
米大統領選で共和党のトランプ前大統領が勝利した。これにより、TikTokの米国での将来は...
インバウンド消費を左右する在日中国人の影響力
アライドアーキテクツは、独自に構築した在日中国人コミュニティーを対象に、在日中国人...