検索
特集/連載

悪質なWebスクレイパーからWebサイトを守る方法何が問題なのか?

アイルランド企業のDatalexは、悪質なWebスクレイパーに悩まされていた。どのような問題が生じていたのか、そしてどうやってWebスクレイパーを排除したのかを紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 今、何かの販売を始めるなら、その新商品の情報を広範囲かつ迅速に拡散し、それに注目する人をなるべく多く獲得しようとするのが合理的だ。eコマースサイトは、自サイトがWeb検索の結果リストの上位に表示されるように、また商品の価格比較サイトにも自サイトの情報が含まれるようにしたいと考える。そこで、自動化したソフトウェアのロボット(bot)をWebサイトにアクセスさせてそのための操作を実現することは、(eコマース業者の間では一般的に)受け入れられている。検索エンジンのWebクローラーや価格比較サイトのWebスクレイパーはbotの実例で、これらはいわゆる「善良なbot」だ。

 ただし、botは全て善良なものとは限らない。アイルランドに本社を置くデジタルコマースプロバイダー企業、Datalexによると、非常に悪質なbotも一部に存在するという。同社は、旅行商品の価格設定、販売、注文管理と旅行の手配に関する分析を組み合わせた、旅行業者向けの統合eコマースプラットフォームを提供している。このプラットフォームは、旅行客が利用を望みそうな、ありとあらゆる多様なチャネルをカバーしている。欧州地域の顧客として、英国のVirgin Atlantic、ベルギーのBrussels Airlines、スイスのSwiss International Air Lines、アイルランドのAer Lingusなどが名を連ねている。これ以外にも、全世界に顧客を多数抱えている。

 Datalexの顧客は主に旅行業者だ。各旅行業者は同社のプラットフォームを利用して、自社の顧客である旅行者のために、個人旅行の複雑な旅程の手配と管理を行う。旅行の手配とは、その旅程で実際に使用する各種チケットの手配だけでなく、(航空機利用の場合の)重量超過手荷物の申請、座席のアップグレード、ラウンジの利用、機内食の指定、レンタカーの予約、航空便のチャーター、ホテルの予約、旅行保険の申し込み、地上交通機関の予約など(のオプション)も含む場合がある。

 ここで問題になるのは、そうした情報に関心を持っているのが、旅行を計画している個人と、「善良なbot」だけではないことだ。無節操な旅行業者は、Webスクレイパーを使って競合旅行サイトのコンテンツを盗み出して自社サイトに送信したり、他社の商品価格をモニタリングしてそれ以上の値引きを仕掛けたりしている。

 Webスクレイピングのアクティビティーは永続性があるので、(システムの)パフォーマンスに悪影響を及ぼす。旅行業者のシステム運用費が跳ね上がり、旅行代金の値上げにつながる。正当なユーザーである旅行業者と悪質なbotの両方がシステム外のサービスの呼び出しを要求することになるのでその回数が必要以上に増え、システムの負荷を増大させた結果だ。Datalexプラットフォーム全体で集計した結果、この問題は結局、旅行業者がホストしている顧客全員、つまり(Datalexを導入して構築されている)旅行業者用予約システムの直接のユーザーとはいえない旅行客個人にまで影響が及ぶことが分かったという。

 Webスクレイパーの活動を抑制するのは難しい。有益なbotまでブロックするのは避けたいからだ。

 ロボット排除規格またはロボット排除規格プロトコル(REP、または単純にrobots.txtとされる場合もある)と呼ばれるプロトコルは既に存在する。ただし、このプロトコルの利用は良識に任されているので、悪質なbotは単純に無視するだろう。悪質なbotをホストしているIPアドレスを手作業でブロックするのはうんざりする作業だ。悪事をたくらむ者たちはWebスクレイパーのホストを簡単に移せるので、きりがない。悪質なbotの大半は正当なユーザーを装って悪事を実行するので、異常と脆弱(ぜいじゃく)性を重視しているWebアプリケーションのファイアウォールでは、botの検出は難しい。かといってログインの強化、すなわち認証の強化のために「私はロボットではありません」のようなチェック項目を設けるのは、正当なユーザーと善良なbotに余計なストレスを増やすだけだ。




*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***






Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る