“間違った日本語”も解析可能、辞書更新不要の「VextMiner」テキストマイニング製品紹介【第1回】クオリカ編

話し言葉など文法無視の日本語であっても解析したい。形態素解析に利用する辞書更新の手間を省きたい。こうした課題を解決するテキストマイニング製品が「VextMiner」だ。

2012年11月19日 08時00分 公開
[鳥越武史,TechTargetジャパン]

 1998年からテキストマイニング製品を販売している、老舗ベンダーのクオリカ。一般的なテキストマイニング製品とは異なる解析手法を取り入れたり、ユーザー企業からの生の声を操作性向上に生かすといった工夫を凝らす。クオリカのテキストマイニング製品について、同社テキストマイニング室エグゼクティブコンサルタントの石井 哲氏に話を聞いた。

連載:テキストマイニング製品紹介


製品の概要

 クオリカの中心的なテキストマイニング製品が「VextMiner」だ。アンケートの自由回答やコールセンターに寄せられた顧客の声などのテキスト群を登録すると、テキストに含まれる単語や文の関連性を自動的に解析する「文書登録」、登録されたテキスト群を意味別に自動分類する「クラスタリング」、クラスタリングの結果を基に、同様の意味を持つテキスト群をまとめた分類カテゴリの定義ルールを設定する「カテゴライズ」といった機能を持つ。外国語の解析用に、英語版と中国語版も用意する。

 VextMinerの他、VextMinerのSoftware as a Service(SaaS)版である「VextCloud」、既存のFAQや問い合わせログからFAQを構築する「VextContact」、音声認識技術で会話内容をテキスト化し、自動要約する「VextResume」をそろえる。いずれの製品も、VextMinerと同じテキストマイニングエンジンを搭載する。

他社製品に対する特徴

 VextMinerの最大の特徴は、文単位のテキスト解析手法にある。一般的なテキストマイニング製品は、まずテキストを単語単位に分割して品詞を特定する「形態素解析」を実行し、次に係り受け関係を調べて単語間の関係性を解析する「構文解析」をするという、単語単位のテキスト解析が中心となる。

 石井氏は、こうした単語単位の解析手法には「課題が多い」と指摘する。係り受けの組み合わせは無数にある上、どの係り受けが重要なのかは自明ではないため利用者が判断する必要があり、「意味のある解析結果を得るのが難しい」。また、構文解析の精度が、形態素解析で利用する辞書の充実度に依存するのも課題となるという。「辞書をユーザー企業が定期的にメンテナンスする必要があり、大きな負担となる」

「文脈ベクトル」でテキストの類似度を解析

 こうした課題を解決するのが、文単位の解析だと石井氏は指摘。文単位の解析を可能にするためにVextMinerが採用したのが、「Context Vector(文脈ベクトル)」を使ったテキスト解析手法である。

会員登録(無料)が必要です

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

事例 アルテリックス・ジャパン合同会社

データ処理の効率化に成功、ゼンリンマーケティングソリューションズの取り組み

ゼンリンマーケティングソリューションズでは、地図情報によるデータ分析作業を効率化するため、プログラミング不要のデータ分析ツールを導入した。同社はどのような製品を採用し、課題解決につなげていったのだろう。

事例 株式会社サムライズ

3社の事例に学ぶ、BIツールの枠を超えたデータ分析プラットフォームの実力とは

データ活用におけるさまざまな課題を解決するBIツール。近年は、その枠を超え、さらなるデータ活用を促進するデータ分析プラットフォームへの注目度が高まっている。3社の事例を基に、同製品の魅力と実力に迫る。

製品資料 株式会社ライトウェル

チャットBIの登場でさらに便利に 新時代のBIツールでデータ活用はどう変わる?

データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。

事例 プリサイスリー・ソフトウェア株式会社

SAPデータの処理時間を4分の1に短縮、ロクシタンはどうやって実現した?

SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?

製品資料 テンスピン・マネジメント・コンサルタンツ合同会社

クラウドとBIツールで「情報の分断」を解消、2社に学ぶ分析基盤構築事例

多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。

アイティメディアからのお知らせ

From Informa TechTarget

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...