2017年03月02日 08時00分 UPDATE
特集/連載

何が問題なのか?悪質なWebスクレイパーからWebサイトを守る方法

アイルランド企業のDatalexは、悪質なWebスクレイパーに悩まされていた。どのような問題が生じていたのか、そしてどうやってWebスクレイパーを排除したのかを紹介する。

[Bob Tarzey,Computer Weekly]
Computer Weekly

 今、何かの販売を始めるなら、その新商品の情報を広範囲かつ迅速に拡散し、それに注目する人をなるべく多く獲得しようとするのが合理的だ。eコマースサイトは、自サイトがWeb検索の結果リストの上位に表示されるように、また商品の価格比較サイトにも自サイトの情報が含まれるようにしたいと考える。そこで、自動化したソフトウェアのロボット(bot)をWebサイトにアクセスさせてそのための操作を実現することは、(eコマース業者の間では一般的に)受け入れられている。検索エンジンのWebクローラーや価格比較サイトのWebスクレイパーはbotの実例で、これらはいわゆる「善良なbot」だ。

Computer Weekly日本語版 2月22日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 2月22日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 ただし、botは全て善良なものとは限らない。アイルランドに本社を置くデジタルコマースプロバイダー企業、Datalexによると、非常に悪質なbotも一部に存在するという。同社は、旅行商品の価格設定、販売、注文管理と旅行の手配に関する分析を組み合わせた、旅行業者向けの統合eコマースプラットフォームを提供している。このプラットフォームは、旅行客が利用を望みそうな、ありとあらゆる多様なチャネルをカバーしている。欧州地域の顧客として、英国のVirgin Atlantic、ベルギーのBrussels Airlines、スイスのSwiss International Air Lines、アイルランドのAer Lingusなどが名を連ねている。これ以外にも、全世界に顧客を多数抱えている。

 Datalexの顧客は主に旅行業者だ。各旅行業者は同社のプラットフォームを利用して、自社の顧客である旅行者のために、個人旅行の複雑な旅程の手配と管理を行う。旅行の手配とは、その旅程で実際に使用する各種チケットの手配だけでなく、(航空機利用の場合の)重量超過手荷物の申請、座席のアップグレード、ラウンジの利用、機内食の指定、レンタカーの予約、航空便のチャーター、ホテルの予約、旅行保険の申し込み、地上交通機関の予約など(のオプション)も含む場合がある。

 ここで問題になるのは、そうした情報に関心を持っているのが、旅行を計画している個人と、「善良なbot」だけではないことだ。無節操な旅行業者は、Webスクレイパーを使って競合旅行サイトのコンテンツを盗み出して自社サイトに送信したり、他社の商品価格をモニタリングしてそれ以上の値引きを仕掛けたりしている。

 Webスクレイピングのアクティビティーは永続性があるので、(システムの)パフォーマンスに悪影響を及ぼす。旅行業者のシステム運用費が跳ね上がり、旅行代金の値上げにつながる。正当なユーザーである旅行業者と悪質なbotの両方がシステム外のサービスの呼び出しを要求することになるのでその回数が必要以上に増え、システムの負荷を増大させた結果だ。Datalexプラットフォーム全体で集計した結果、この問題は結局、旅行業者がホストしている顧客全員、つまり(Datalexを導入して構築されている)旅行業者用予約システムの直接のユーザーとはいえない旅行客個人にまで影響が及ぶことが分かったという。

 Webスクレイパーの活動を抑制するのは難しい。有益なbotまでブロックするのは避けたいからだ。

 ロボット排除規格またはロボット排除規格プロトコル(REP、または単純にrobots.txtとされる場合もある)と呼ばれるプロトコルは既に存在する。ただし、このプロトコルの利用は良識に任されているので、悪質なbotは単純に無視するだろう。悪質なbotをホストしているIPアドレスを手作業でブロックするのはうんざりする作業だ。悪事をたくらむ者たちはWebスクレイパーのホストを簡単に移せるので、きりがない。悪質なbotの大半は正当なユーザーを装って悪事を実行するので、異常と脆弱(ぜいじゃく)性を重視しているWebアプリケーションのファイアウォールでは、botの検出は難しい。かといってログインの強化、すなわち認証の強化のために「私はロボットではありません」のようなチェック項目を設けるのは、正当なユーザーと善良なbotに余計なストレスを増やすだけだ。

続きはComputer Weekly日本語版 2月22日号にて

本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。


Computer Weekly日本語版 最近のバックナンバー

Computer Weekly日本語版 2月8日号 NVMe over Fabricsに高まる期待

Computer Weekly日本語版 1月25日号 ARMが進めるIoT戦略

Computer Weekly日本語版 1月11日号 家庭内のIoTデバイスを守れ!


この記事が気に入ったらTechTargetジャパンに「いいね!」しよう

この記事を読んだ人にお薦めのホワイトペーパー

この記事を読んだ人にお薦めの関連記事

Loading

注目テーマ

ITmedia マーケティング新着記事

news019.jpg

情報格差の時代をサバイブするのは誰か?
子育てを終えた女性が思うこと、シニア世代の買い物事情、新入社員の不安な胸の内に改正...

news133.jpg

Meituとシーエー・モバイルがメディア販売代理契約締結
シーエー・モバイルはMeituとメディア販売代理契約を締結。「BeautyPlus」や「MakeupPlus...

news093.jpg

パーソナライズド動画「personalize me」がレコメンドエンジン搭載プライベートDMP「Rtoaster」と連携
インテリジェンス ビジネスソリューションズは、同社のパーソナライズド動画サービス「pe...