悪質なWebスクレイパーからWebサイトを守る方法何が問題なのか?

アイルランド企業のDatalexは、悪質なWebスクレイパーに悩まされていた。どのような問題が生じていたのか、そしてどうやってWebスクレイパーを排除したのかを紹介する。

2017年03月02日 08時00分 公開
[Bob TarzeyComputer Weekly]

 今、何かの販売を始めるなら、その新商品の情報を広範囲かつ迅速に拡散し、それに注目する人をなるべく多く獲得しようとするのが合理的だ。eコマースサイトは、自サイトがWeb検索の結果リストの上位に表示されるように、また商品の価格比較サイトにも自サイトの情報が含まれるようにしたいと考える。そこで、自動化したソフトウェアのロボット(bot)をWebサイトにアクセスさせてそのための操作を実現することは、(eコマース業者の間では一般的に)受け入れられている。検索エンジンのWebクローラーや価格比較サイトのWebスクレイパーはbotの実例で、これらはいわゆる「善良なbot」だ。

 ただし、botは全て善良なものとは限らない。アイルランドに本社を置くデジタルコマースプロバイダー企業、Datalexによると、非常に悪質なbotも一部に存在するという。同社は、旅行商品の価格設定、販売、注文管理と旅行の手配に関する分析を組み合わせた、旅行業者向けの統合eコマースプラットフォームを提供している。このプラットフォームは、旅行客が利用を望みそうな、ありとあらゆる多様なチャネルをカバーしている。欧州地域の顧客として、英国のVirgin Atlantic、ベルギーのBrussels Airlines、スイスのSwiss International Air Lines、アイルランドのAer Lingusなどが名を連ねている。これ以外にも、全世界に顧客を多数抱えている。

 Datalexの顧客は主に旅行業者だ。各旅行業者は同社のプラットフォームを利用して、自社の顧客である旅行者のために、個人旅行の複雑な旅程の手配と管理を行う。旅行の手配とは、その旅程で実際に使用する各種チケットの手配だけでなく、(航空機利用の場合の)重量超過手荷物の申請、座席のアップグレード、ラウンジの利用、機内食の指定、レンタカーの予約、航空便のチャーター、ホテルの予約、旅行保険の申し込み、地上交通機関の予約など(のオプション)も含む場合がある。

 ここで問題になるのは、そうした情報に関心を持っているのが、旅行を計画している個人と、「善良なbot」だけではないことだ。無節操な旅行業者は、Webスクレイパーを使って競合旅行サイトのコンテンツを盗み出して自社サイトに送信したり、他社の商品価格をモニタリングしてそれ以上の値引きを仕掛けたりしている。

 Webスクレイピングのアクティビティーは永続性があるので、(システムの)パフォーマンスに悪影響を及ぼす。旅行業者のシステム運用費が跳ね上がり、旅行代金の値上げにつながる。正当なユーザーである旅行業者と悪質なbotの両方がシステム外のサービスの呼び出しを要求することになるのでその回数が必要以上に増え、システムの負荷を増大させた結果だ。Datalexプラットフォーム全体で集計した結果、この問題は結局、旅行業者がホストしている顧客全員、つまり(Datalexを導入して構築されている)旅行業者用予約システムの直接のユーザーとはいえない旅行客個人にまで影響が及ぶことが分かったという。

 Webスクレイパーの活動を抑制するのは難しい。有益なbotまでブロックするのは避けたいからだ。

 ロボット排除規格またはロボット排除規格プロトコル(REP、または単純にrobots.txtとされる場合もある)と呼ばれるプロトコルは既に存在する。ただし、このプロトコルの利用は良識に任されているので、悪質なbotは単純に無視するだろう。悪質なbotをホストしているIPアドレスを手作業でブロックするのはうんざりする作業だ。悪事をたくらむ者たちはWebスクレイパーのホストを簡単に移せるので、きりがない。悪質なbotの大半は正当なユーザーを装って悪事を実行するので、異常と脆弱(ぜいじゃく)性を重視しているWebアプリケーションのファイアウォールでは、botの検出は難しい。かといってログインの強化、すなわち認証の強化のために「私はロボットではありません」のようなチェック項目を設けるのは、正当なユーザーと善良なbotに余計なストレスを増やすだけだ。




続きを読むには、[続きを読む]ボタンを押して
会員登録あるいはログインしてください。






Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

市場調査・トレンド ゼットスケーラー株式会社

AIの悪用でフィッシング攻撃が巧妙化、今後の予測と防御方法を解説

今や誰もが入手可能となったフィッシングツール。そこにAIの悪用が加わり、フィッシング攻撃はますます巧妙化している。本資料では、20億件以上のフィッシングトランザクションから、フィッシング攻撃の動向や防御方法を解説する。

技術文書・技術解説 ServiceNow Japan合同会社

限られた人材でインシデントや脆弱性への対応を迅速化、その鍵となるのは?

セキュリティ対策チームの57%が人材不足の影響を受けているといわれる昨今、インシデントや脆弱性への対応の遅れが、多くの企業で問題視されている。その対策として有効なのが「自動化」だが、どのように採り入れればよいのだろうか。

製品資料 LRM株式会社

開封率から報告率重視へ、重要な指標をカバーする標的型攻撃メール訓練とは

年々増加する標的型攻撃メール。この対策として標的型攻撃メール訓練を実施している企業は多い。こうした訓練では一般に開封率で効果を測るが、実は開封率だけでは訓練の効果を十分に評価できない。評価となるポイントは報告率だ。

製品資料 LRM株式会社

新入社員の情報セキュリティ教育、伝えるべき内容と伝え方のポイントは?

従業員の情報セキュリティ教育は、サイバー攻撃や人的ミスによる情報漏えいから自社を守るためにも必要不可欠な取り組みだ。新入社員の教育を想定し、伝えるべき内容や伝える際のポイントを解説する。

製品資料 LRM株式会社

2024年発生のインシデントを解説、組織全体でのセキュリティ意識向上が不可欠に

2024年の情報漏えい事故の傾向では、攻撃者による大規模攻撃の他、社員や業務委託先のミス・内部犯行によるケースも多く見られた。インシデント別の要因と対策とともに、今後特に重要になるセキュリティ意識向上のポイントを解説する。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。