2012年11月19日 08時00分 UPDATE
特集/連載

テキストマイニング製品紹介【第1回】クオリカ編“間違った日本語”も解析可能、辞書更新不要の「VextMiner」

話し言葉など文法無視の日本語であっても解析したい。形態素解析に利用する辞書更新の手間を省きたい。こうした課題を解決するテキストマイニング製品が「VextMiner」だ。

[鳥越武史,TechTargetジャパン]

 1998年からテキストマイニング製品を販売している、老舗ベンダーのクオリカ。一般的なテキストマイニング製品とは異なる解析手法を取り入れたり、ユーザー企業からの生の声を操作性向上に生かすといった工夫を凝らす。クオリカのテキストマイニング製品について、同社テキストマイニング室エグゼクティブコンサルタントの石井 哲氏に話を聞いた。

連載:テキストマイニング製品紹介


製品の概要

 クオリカの中心的なテキストマイニング製品が「VextMiner」だ。アンケートの自由回答やコールセンターに寄せられた顧客の声などのテキスト群を登録すると、テキストに含まれる単語や文の関連性を自動的に解析する「文書登録」、登録されたテキスト群を意味別に自動分類する「クラスタリング」、クラスタリングの結果を基に、同様の意味を持つテキスト群をまとめた分類カテゴリの定義ルールを設定する「カテゴライズ」といった機能を持つ。外国語の解析用に、英語版と中国語版も用意する。

 VextMinerの他、VextMinerのSoftware as a Service(SaaS)版である「VextCloud」、既存のFAQや問い合わせログからFAQを構築する「VextContact」、音声認識技術で会話内容をテキスト化し、自動要約する「VextResume」をそろえる。いずれの製品も、VextMinerと同じテキストマイニングエンジンを搭載する。

他社製品に対する特徴

 VextMinerの最大の特徴は、文単位のテキスト解析手法にある。一般的なテキストマイニング製品は、まずテキストを単語単位に分割して品詞を特定する「形態素解析」を実行し、次に係り受け関係を調べて単語間の関係性を解析する「構文解析」をするという、単語単位のテキスト解析が中心となる。

 石井氏は、こうした単語単位の解析手法には「課題が多い」と指摘する。係り受けの組み合わせは無数にある上、どの係り受けが重要なのかは自明ではないため利用者が判断する必要があり、「意味のある解析結果を得るのが難しい」。また、構文解析の精度が、形態素解析で利用する辞書の充実度に依存するのも課題となるという。「辞書をユーザー企業が定期的にメンテナンスする必要があり、大きな負担となる」

「文脈ベクトル」でテキストの類似度を解析

 こうした課題を解決するのが、文単位の解析だと石井氏は指摘。文単位の解析を可能にするためにVextMinerが採用したのが、「Context Vector(文脈ベクトル)」を使ったテキスト解析手法である。

この記事を読んだ人にお薦めのホワイトペーパー

この記事を読んだ人にお薦めの関連記事

Loading

注目テーマ

ITmedia マーケティング新着記事

news015.jpg

「ポケモンGO」で日本人のライフスタイルは(いきなり)変わったか?
梅雨が明け、土用丑の日に甲子園と、いよいよ夏本番。そして今、熱い夏をもっとホットに...

news094.jpg

GMO TECH、スマーフォン用動画広告作成プラットフォームを提供開始
GMO TECHはShakr Mediaと提携し、スマートフォンアプリのPR動画広告の作成に特化したPR動...

news110.jpg

野村総合研究所、デジタル領域に特化した新会社「NRIデジタル」を設立
野村総合研究所は、デジタルビジネスを専門とする「NRIデジタル」をを2016年8月1日付で設...