Googleアナリティクス360と無償版のサンプリングについて
2016年04月13日

有償版であるGoogleアナリティクス360(旧Googleアナリティクスプレミアム)と、無償版のGoogleアナリティクスは、サンプリングされてしまうデータの上限値が大きく異なります

今回は有償版であるGoogleアナリティクス360では、どのくらいのデータ規模をサンプリングされないで使用できるか、また使うレポートによってサンプリング条件が変わってしまうか、といった注意点をご紹介します。

  1. そもそもサンプリングとは
  2. 無償版と有償版の違い
  3. 非サンプリングレポートについて

そもそもサンプリングとは

サンプリングとは?

Googleアナリティクスにおけるサンプリングとは、データ集計されたトラフィックのデータを一部分だけ抜き出し、その抜き出したデータの傾向から分析処理を行いレポートとして生成します。

サンプリングという考え方は統計解析で広く知られている概念であり、抜き出したデータからすべてのデータを使用した際と同様の結果が得られるとされています。

Googleアナリティクスでサンプリングされた際のレポートを非常にざっくりと例えるのであれば下記のようになります。

下記の4つのセッションがあり、それぞれセッションでサイトの目標であるコンバージョン(CV)に差異があります。

  • セッションA:CVあり
  • セッションB:CVなし
  • セッションC:CVあり
  • セッションD:CVなし

50%のサンプリングデータに基づきレポートを生成していた場合で、セッションAとセッションBがサンプリングとして使用するデータとして選ばれたとすると、セッションAとセッションBのデータを使用してセッションCとセッションDのデータを補完してレポート生成します。
セッションAとセッションBの2つのセッションのうち、CVは1つのセッションのみとなるのでCV率は50%とになります。、サンプリングとして使用するデータにセッションAとセッションCが選ばれた際はCV率が100%、セッションBとセッションDが選ばれた際はCV率が0%になります。

Googleアナリティクスでは無償版でも50万セッションを超えるデータを加工するとサンプリングレポートを使用しはじめるため、上記の例のように大げさな数値誤差は発生しづらいことは確かです。

ただし、50万セッションを大きく超えるデータでレポートを生成すると、上記のようなサンプリングデータによって補完されたレポートが生成され、データ全体におけるサンプリングデータが占める割合やサンプリングされたデータの傾向によって、実際の数値とは差異が発生するレポートが生成されます

Googleアナリティクスで数値を分析するうえでは、担当者はこうした仕組みがあることを知っておくべきと言えます。

無償版と有償版の違い

Google アナリティクスには標準レポートとアドホックレポートというレポート生成方法が異なる2種類のレポートが存在します。

標準レポートとはGoogleアナリティクスのレポートUIで用意されているディメンションと指標を組み合わせた加工することなく標準メニューとして利用できるレポートです。
アドホックレポートとは標準レポートにセグメントやセカンダリディメンションを使用したレポートや標準レポートでは組み合わされていないディメンションや指標を組み合わせたカスタムレポートやAPIを使用したレポートになります。

Googleアナリティクスではレポートの集計対象で、規定されたセッションを超えるデータで、アドホックレポートを使用するとサンプリングが発生します。

無償版のGoogleアナリティクスでは50万セッション、Googleアナリティクス360では1億セッション以内のデータであればアドホックレポートを使用してもサンプリングは発生しません。

有償版であるGoogleアナリティクス360のデータ上限の規定セッション値はヘルプには2,500万セッションと記載されていますが、本記事を執筆している時点で調べてみると1億セッション以内のデータであればアドホックレポートでもサンプリングされずにレポートを使用できています。

ただし、当日のデータを含んだレポートや期間比較したレポートは上記のセッション制限値ではなく、過去1年以上前のレポート(もしくは2015年4月より以前のレポート)を使用する場合も、サンプリングが発生します。

後者に関しては現在では1年分のデータまで制限値が緩和されているのか、2015年4月から1億セッションに制限値が緩和されているのか不明となりますが、今後の運用でもう少し詳細があきらかになってくるのではないかと思われます。

なお、ビジュアルフローレポートでは無償版、有償版ともに10万セッションを超えた場合にサンプリングが発生するなど、レポートによっては制限が異なるレポートが存在します。

また、サンプリングが発生した際のデータ対象も無償版と有償版では異なります。
無償版でサンプリングが発生した際はプロパティ単位でサンプルとして使用するデータが決定し、そのデータにビュー単位でフィルタが適用されます。そのためフィルタが適用されたビューではセッション数が少なる可能性が考えられます。

一方、有償版であるGoogleアナリティクス360では、サンプルとして使用するデータはビュー単位で決定されるため、無償版と比較するとより精度が高まりやすいサンプリング方法となります。

非サンプリングレポートについて

Googleアナリティクス360を導入されている企業様が多く使用されている機能の1つに、非サンプリングレポートがあげられます。

非サンプリングレポートとはその名の通り、Googleアナリティクスからサンプリングされていないデータを閲覧、抽出することができるレポートです。

1億セッションを超えたデータでアドホッククエリを使用したレポートを生成すると、レポートUI上ではサンプリングされてしまうデータも、非サンプリングレポートを使用することでサンプリングされないレポートを生成できます。

サンプリングされないとはいえデータにも上限があり、レポートに表示することができる固有のディメンション値の上限は300万行となります。レポートに300万行を超えたデータを生成しようとした際は、上限を超えた対象のデータは(other)としてまとめられてしまいます

また、非サンプリングレポート使用においても制限があり、プロパティごとに1日あたりに使用できるトークン数が設定されています。

1日あたりに使用できるトークン数から非サンプリングレポートに使用するデータのトークン数が差し引かれ、1日に利用可能なトークン数を超過した際は、翌日の処理に繰り越されます。

トークン数に上限があるとはいえ、よほどの膨大なデータを数回実行しないかぎりは1日の利用上限にひっかからないため、使用制限は無視できるともいえるでしょう。

このように有償版のGoogleアナリティクス360では大規模サイトに対応できるデータ量を処理できる仕組みが用意されています

データからアクションすることを考えると、施策実行可否の判断ができないサンプリングレポートは、極力避けなければなりません。

今一度、サンプリングについて考えてみてはいかがでしょうか。