いまさっき思ったこと

あとで読み返したときになにかが生まれるかもしれないし、生まれないかもしれないけど、それはそれでいい

正確なユーザー数を知る方法はもうないのか(ユーザー数の水増され問題)

メディアの媒体資料などで出てくる訪問者数(ユニークユーザー数)は、Googleアナリティクスなどのアクセス解析ツールのデータを引用する事が多いと思いますが、前々から指摘されているように、昨今はアプリ内ブラウザ(WebView)で閲覧するケースが増えているため、このあたりの数字がいろいろおかしくなっています。
 
具体的には
  • アプリ内ブラウザは独立したアクセスとなるため、訪問者数がじっさいより多く出てしまう
  • その反面、ユーザーあたりのPV数などは小さくなってしまう(セッション単位では正しい)
といったことが起きています。
 
悪意があって水増しするのではなく、いうなれば「水増され問題」が起きているわけです。
新聞業界における押し紙の問題と同じで、あるいは雑誌等における出版部数と実売部数のギャップと同様、もはやウェブにおいても正しい数字が見えなくなってしまっているということは認識しておいたほうがいいですね。
 

前からべつに正確ではなかった

もっともウェブの数字は以前から正確ではなかったという指摘もあるでしょう。
じっさい、自宅のパソコンと会社のパソコンで開けば2ユーザーになりますし、ケータイやスマホで閲覧すればさらに重複するわけで、訪問者の実数とアクセス解析ツールの数字にはこれまでもギャップはありました。
 
いま起きているのはそれがよりひどくなっていること、もうどのくらいずれているのか推測すら困難な状況にあるということです。
 
たとえば
  1. 朝起きて、ブックマークからサイトを表示(スマホ × safari
  2. 通勤中にFacebookを見ていて、フィードに流れたリンクを踏んでサイトを表示(スマホ × Facebookアプリ)
  3. 昼休みに届いたメルマガのURLをクリックしてサイトを表示(スマホ × Gmailアプリ)
  4. 帰りの電車でリツイートされてきたURLをクリックしてサイトを表示(スマホ × Twitterアプリ)
  5. 自宅に帰ってノートパソコンでサイトを表示(PC × chrome
  6. 寝る前にベッドでぐうたらしながらタブレットでサイトを表示(タブレット × safari
というような行動をとった場合、これはすべて別ユーザーとなります。
(ま、いま家に帰ってパソコン開く人も少ないと思うけど)
 
極端な仮説として、もし全員が上記のような行動をとっていた場合、レポート上は60万ユーザーと表示されていても、実質10万ユーザーということになります。
 
ちなみにアプリを再起動した場合、PHPのセッション変数(Cookieベース)はちがうものが発行されたんですけど、Googleアナリティクスの場合も別セッション、別ユーザーということになるんですかね(その場合、さらに水増しが大きくなります)。
詳しい方、教えてください。
 

メディア運営者も事実が知りたいはず

上記の例のように、自分たちのメディアの訪問者数が60万人なのか、10万人なのかというのはまったく規模感の異なる話で、今後の戦略を考える材料としてサイト運営者も正確な数字は知りたいはずです。
(それを正直に開示するかはサイトによりけりでしょうけど)
 
仮に物販や課金コンテンツを提供する場合、想定客の母数としてサイトの訪問者数を仮に置くことが多いですけど、その数字が5倍以上にずれちゃうと話にならないですし。
 
Googleアナリティクスでは「サイトにログインすれば」という条件付きで名寄せする機能もありますが、コンテンツ系のサイトではログインしないで閲覧するユーザーが大半なので(というかそもそもログイン機能がないサイトも多い)、残念ながらあまり役に立ちそうにありません。
 
UserAgentやIPアドレスを組み合わせてセッションを結合することとかできないかなあと思ったんですけど、オフィスのように複数人が利用する環境下では軽率に同じ人のアクセスだと判定すると問題ですしね。
そもそもそれを防ぐためにCookieベースで人ごと(じっさいにはブラウザごと)にわけるようにしたのであって、今度は同一人物複数ブラウザな世界が来るなんて、なんとも皮肉な状況です。
 
DMPがなんとかしてくれないかなあと思ったりもしたんですけど(ぜんぜん正しい使い方じゃないけど)、けっきょく名寄せするキーが必要なのでなかなかむずかしそうです。
 

とりあえずおさえておくべき事実

Googleアナリティクスに代表されるアクセス解析ツールの訪問者数(ユニークユーザー数)は残念だけどもうほとんど信用できない、というのが結論なんですけど、現象としておさえておくのはこのあたりでしょうか。
  • 世の中のウェブ閲覧者の一般的な傾向として、スマホの普及とソーシャルメディア経由の訪問数増加によって、細切れのアクセスが増え、その状況下においてはセッション数は増加し、反対にセッションあたりのPV数は少なくなる
  • 昨日はFacebookアプリで、今日はsafariでアクセスした人は連日訪問しているにもかかわらず、データ上では「1日だけ訪問した、ふたりのユーザー」ということになってしまうように、リピーターを正確に計測できていないケースが増えている(もしかするとリピーター数はもっと多いかもしれません)
お金をかけるとか、複数事業者で合同調査すれば見えてくるならまだしも、ツイッターFacebookGoogleを巻き込まないかぎり、正確な数字がとれないとしたらもう絶望的ですよね。
 
訪問者数は信用できないし、セッション数もセッションあたりPV数が1に近づいている状況では意味のない数字になってしまうので、もうPV数だけ見とくかというのもあながちまちがった話ではないんですけど、キュレーションアプリのようにページを「先読み」しちゃう場合は、じっさいに見てないのにカウントされてしまうという問題があります。
 
また、最近Facebookがはじめた「Instant Articles」のように、コンテンツを外部配信して自サイト以外での閲覧を許可している場合、カウントされないけど読まれている幻のPVが生まれるので、PV数もいまいち使い勝手の悪いデータです。
(これはRSSリーダーで全文配信しているときから起きてる話ですけど、規模がちがってきてるのが現在の問題)
 
だからこそ滞在時間や読了率といった「量」より「質」の議論が昨年あたりから活発になっているわけですけど、そもそも「量」が正確に測れなくなって信用できなくなっちゃったという背景は理解しておいたほうがいいのかもしれませんね。
 
[追記]
事実認識がまちがってたらぜひ教えてください。

おもしろき こともなき世を おもしろく すみなしものは 心なりけり