“間違った日本語”も解析可能、辞書更新不要の「VextMiner」:テキストマイニング製品紹介【第1回】クオリカ編
話し言葉など文法無視の日本語であっても解析したい。形態素解析に利用する辞書更新の手間を省きたい。こうした課題を解決するテキストマイニング製品が「VextMiner」だ。
1998年からテキストマイニング製品を販売している、老舗ベンダーのクオリカ。一般的なテキストマイニング製品とは異なる解析手法を取り入れたり、ユーザー企業からの生の声を操作性向上に生かすといった工夫を凝らす。クオリカのテキストマイニング製品について、同社テキストマイニング室エグゼクティブコンサルタントの石井 哲氏に話を聞いた。
関連記事
- 【製品動向】ソーシャルやビッグデータで変わる「テキストマイニング」
- NASAが研究、旅客の命を守る「テキスト・音声分析」
- SNSをテキストマイニングして株価予測へ、カブドットコム証券のビッグデータ活用(ホワイトペーパー)
製品の概要
クオリカの中心的なテキストマイニング製品が「VextMiner」だ。アンケートの自由回答やコールセンターに寄せられた顧客の声などのテキスト群を登録すると、テキストに含まれる単語や文の関連性を自動的に解析する「文書登録」、登録されたテキスト群を意味別に自動分類する「クラスタリング」、クラスタリングの結果を基に、同様の意味を持つテキスト群をまとめた分類カテゴリの定義ルールを設定する「カテゴライズ」といった機能を持つ。外国語の解析用に、英語版と中国語版も用意する。
VextMinerの他、VextMinerのSoftware as a Service(SaaS)版である「VextCloud」、既存のFAQや問い合わせログからFAQを構築する「VextContact」、音声認識技術で会話内容をテキスト化し、自動要約する「VextResume」をそろえる。いずれの製品も、VextMinerと同じテキストマイニングエンジンを搭載する。
他社製品に対する特徴
VextMinerの最大の特徴は、文単位のテキスト解析手法にある。一般的なテキストマイニング製品は、まずテキストを単語単位に分割して品詞を特定する「形態素解析」を実行し、次に係り受け関係を調べて単語間の関係性を解析する「構文解析」をするという、単語単位のテキスト解析が中心となる。
石井氏は、こうした単語単位の解析手法には「課題が多い」と指摘する。係り受けの組み合わせは無数にある上、どの係り受けが重要なのかは自明ではないため利用者が判断する必要があり、「意味のある解析結果を得るのが難しい」。また、構文解析の精度が、形態素解析で利用する辞書の充実度に依存するのも課題となるという。「辞書をユーザー企業が定期的にメンテナンスする必要があり、大きな負担となる」
「文脈ベクトル」でテキストの類似度を解析
こうした課題を解決するのが、文単位の解析だと石井氏は指摘。文単位の解析を可能にするためにVextMinerが採用したのが、「Context Vector(文脈ベクトル)」を使ったテキスト解析手法である。
Copyright © ITmedia, Inc. All Rights Reserved.