このブログもアクセス解析に Google Analytics を活用しておるのですが、更新を怠っていたらすっかりアクセスが減っております…。
そんな中、リファラスパムが猛威を振るっておりまして、この前はたった 1時間で、スパムだけで約 500PV も計上しておりました。ふざけてる。ページタイトルが (not set)、500ページもアクセスして平均ページ滞在時間「00:00:07」っておかしいでしょ。忍者かよ!
1日 5、6PVぐらいなら、対策する方が面倒なので放置していたのですが。さすがに 1時間で 500PV とか狂わされると、見過ごせなくなり重い腰を上げた次第です。
てか。他にもやること沢山あるのに、マジ迷惑。
リファラスパムとは
リファラというのは参照元のことを言うのですが、このブログにどこからアクセスしてきたのかといった情報のことです。
これはブログなどのサイト運営者の悲しいさがなのですが、他のサイトにこのブログへのリンクが貼られ、そこからアクセスがあると嬉しいのです。誰かの役に立てたという自己満足が満たされるのです。
すると、どこのサイトにリンクが貼られたのか、どんな感じで言及されているのか見てみたくなるのが人情というもの。
リファラスパムは、この悲しいさがに漬け込んで Google Analytics にリファラを残し、自サイトやそのスパム業者の顧客のサイトなどにアクセスさせようとする悪質な行為です。
もっとまともな方法で金稼げよ!
このブログの場合、圧倒的に Google 検索からの流入が多いのです。どこかのサイトにリンクが貼られ、そこからの流入というのはとても少ないです。よって本来 Google などの検索サイト以外のリファラがあると、とっても嬉しいのです。
そのささやかな喜びに水をさす行為でもあるわけです。
絶対に許すまじ。
Google Analytics の仕組みを悪用したリファラスパム
お恥ずかしながら、リファラスパムというのは本当にアクセスしてきていると思っていました…。こんなに大量に計上されるまでは。
本当にアクセスしてくるリファラスパムもありますが、最近のトレンドは Google Analytics の仕組みを悪用したものが多いみたいです。このブログに大量にリファラを送り込んできているスパムもこのタイプでした。
初めは他のスパムと同様に、アクセスをブロックしていたんですけど、全く改善されず。ググってみたところ以下のサイトでこの仕組みを知りました。
急増するGAのリファラースパムを撃退! スパム業者の手口とは? | <特集>ユニバーサルアナリティクスの新しい仕組み「Measurement Protocol」とは? | Web担当者Forum
Google Analytics の仕組みを悪用したリファラスパムを炙り出す方法
このタイプのスパムは、計上元となったホストが自分のサイトではありません。怪しげな見知らぬサイトだったり、(not set ) となっていたりします。
そんなわけで、その情報を炙り出せば良いのです。
Google Analytics で「ホスト名」を確認する方法
Google Analytics で計上対象となったホスト名 (ドメイン) を確認するには、「ユーザー > ユーザーの環境 > ネットワーク」を開き、さらにプライマリ ディメンションでホスト名」を選択します。 さらに万全を期すために、セカンダリ ディメンションで「集客 > 参照元」を選択します。
怪しいのいました!
ホスト名がともに「inst.webinstantservice.com」で、参照元が「monetizationking.net」「site-auditor.online」というのがありました。
実は以前にハンパなくリファラを送ってくるので、すでに除外フィルタを設定していた「rank-checker.online」という参照元も同じ「inst.webinstantservice.com」というホストでした。
「inst.webinstantservice.com」よ、暇なのか? いや、こやつはこれが仕事か….。
Google Analytics のビューに除外フィルタを設定する
そんなこんなで、ホスト名「inst.webinstantservice.com」を除外してやりました。
先ほど紹介した「Web担当者Forum」さんの記事では、ホスト名を自分のサイトのみに絞り込んでフィルタをかけています。つまりこのブログで言ったら「beadored.com」からのリファラのみ計測するようにしています。
しかしそれだと、わざわざ Google のキャッシュを表示された場合とか、Google 翻訳などを使ってまで読んでくれた場合のリファラも無くなってしまいます (このブログでは微々たるものですが)。そこで今回は怪しいホストを除外するフィルタにしてみました。
(たまに音楽系のメモに、エゲレスからアクセスがあるのです。ジョニー・マーの関係者かもしれない? ないか…。)
今回は、右側のビューという項目の下にある「フィルタ」から設定しました。左側にあるフィルタはアカウントレベルでのフィルタになりますが、設定するときにビューを選択することになるので、同じことができます。複数サイトを運営している場合などには便利かと思います。
「フィルタ」をクリックして開いたら、「+ フィルタを追加」というボタンをクリックして新規に作成します。
するとこんな、フィルタの作成ページが開きます。
ここで以下の設定をしました。
- フィルタ名 : 任意の名称
- フィルタの種類 : 「カスタム」を選択
- フィルタ フィールド : 「除外」を選択した上で、「ホスト名」を選択
- フィルタパターン : 憎っくき「inst.webinstantservice.com」
こんな仕上がり。
ここで、「このフィルタを確認する」というリンクをクリックすると、直近の 7日間のデータからこのフィルタに引っかかるものを確認することができます。
見ず知らずの怪しげなホストから、7日間で 564PV。てか、このほとんどが、とある日の特定の 1時間に集中していました。
アホか! 普通に警戒するは! 絶対にアクセスしない! 本末転倒だぞ! 何がしたんだ!
マジで、こちらにとって迷惑以外の意味が見出せない…。
ちなみに、ホスト名が (not set) もあり得ないので、フィルタをかけてやりました。その場合はフィルタパターンに「(not set)」ではなく、「not set」(カッコなし) と設定すれば良いようです。「(not set)」だとエラーになって保存できませんでした。
「Web担当者Forum」さんの記事によると。
こういった歯抜けのデータを見ると、スパム業者のやることはやはりまだ雑で、とにかく簡単に大量生産、大量リクエスト送信できる方法をとっているという実態がわかる。これらから総合的に判断すると、スパム業者はMeasurement Protocolの各種パラメータを網羅的に付与するのではなく、必要最低限なパラメータに加えて自分たちのリファラー(参照元)を仕込んでリクエストを送信しているのだと想像できる。
それで絶対にあるハズの値が (not set) だったりするのですね。
これで無意味な水増しPV 及び、見かけだけの嘘被リンクによるにわか歓喜がなくなると思われます。
それにしても、仕組みからして Google がカウントしないようにしてくれればありがたいのですが。
まとめ
世の中にはいろんな仕事があるものだ。
個人的には、誰かに喜んでもらって稼げた方が嬉しいと思うのですが。
今回は実際にアクセスしてくるタイプではなく、Google Analytics の仕組みを悪用したリファラスパムの対策を紹介しました。しかし実際にアクセスしてくるタイプのスパムの場合は、サーバ側でアクセスを拒否した方が良いと思います。あまりに多い場合は、当然サーバに無意味な負荷がかかりますし、こちらの場合はアクセスそのものを拒否すれば Google Analytics にも計上されなくなりますからね。