Comprendre l’échantillonnage des données de Google Analytics et les modifications de la ligne (Other).
Lors d’une mise à jour importante le 28 novembre 2023, Google Analytics a annoncé d’importantes améliorations en matière d’échantillonnage des données et de traitement de ce que l’on appelle la ligne (Other) dans les rapports de données. Alors que nous surfons sur cette vague de changement, décortiquons l’annonce et ses implications dans une exploration détaillée de 2500 mots.
Google Analytics fonctionne avec des tables conçues pour offrir des performances élevées ou une flexibilité, chacune répondant à différents aspects de l’analyse des données. La récente mise à jour inaugure un mécanisme intelligent où Google Analytics adopte une approche plus judicieuse dans la sélection des tables pour fournir les résultats les plus précis pour chaque requête utilisateur. Une requête correspond au chargement d’un rapport filtré. Cette stratégie avancée vise à minimiser les rencontres avec la redoutable ligne (Other) et l’impact de l’échantillonnage des données sur vos rapports et explorations.
- Comprendre l'échantillonnage des données de Google Analytics et les modifications de la ligne (Other).
- Comprendre les tables d'agrégation des données de Google Analytics.
- Qu'est-ce que la ligne (Other) dans les rapports GA4 ?
- Qu'est-ce que l'échantillonnage des données ?
- Comment contourner l'échantillonnage dans les rapports de Google Analytics ?
Comprendre les tables d’agrégation des données de Google Analytics.
Dans Google Analytics, les données sont gérées via deux groupes distincts de tables. Le premier groupe agrège vos données pour offrir des résultats rapides et non échantillonnés aux requêtes les plus fréquentes. Ces tables sont idéales pour les demandes courantes, assurant une réponse efficace et rapide. Le second groupe de tables, quant à lui, se concentre sur le stockage de données plus détaillées au niveau des événements et des utilisateurs. Cette approche permet une plus grande flexibilité pour les investigations ponctuelles et avancées, offrant la possibilité d’analyses personnalisées et approfondies.
Pour chaque requête effectuée dans Analytics, que ce soit pour des rapports, des explorations ou via l’API de données, Google sélectionne la table la plus adaptée pour fournir des résultats précis. Ce choix dépend des paramètres d’échantillonnage par défaut, fixés à 10 millions d’événements pour les propriétés standards et à 100 millions pour les propriétés Analytics 360. Les propriétés Analytics 360 bénéficient également de limites d’échantillonnage supérieures dans leur fonctionnalité « Explore », permettant ainsi une analyse encore plus détaillée.
Chaque groupe de tables dans Google Analytics a ses propres limites de données. Bien que la plupart des propriétés ne les atteignent pas, les propriétés plus importantes, avec de plus grands volumes de données, peuvent y être confrontées. Dans de tels cas, les résultats peuvent être regroupés sous une ligne intitulée « (other) » ou être échantillonnés. Ces approximations sont signalées par l’icône de qualité des données, permettant aux utilisateurs de reconnaître facilement lorsque les données ont été condensées ou échantillonnées.
- Choisir la bonne table : La sélection entre les deux tables dépend maintenant des caractéristiques de la requête. Si une requête est susceptible de résulter en la ligne (other), Google Analytics peut opter pour la table flexible, qui, bien que plus lente, donne une ventilation plus détaillée des points de données.
- Moins d’échantillonnage des données : Lorsque le niveau de détail de la requête augmente, Google Analytics privilégiera la précision à la vitesse, plongeant ainsi dans la table flexible. Cela diminue la nécessité de l’échantillonnage des données, donnant aux analystes une vue plus granulaire.
Qu’est-ce que la ligne (Other) dans les rapports GA4 ?
Historiquement, lorsqu’il s’agissait de traiter de grands ensembles de dimensions à haute cardinalité – dimensions présentant un large éventail de valeurs uniques – Google Analytics regroupait parfois des données moins significatives dans une catégorie (Other) peu utile. Cela pouvait obscurcir les informations, et bien que nécessaire pour maintenir les performances, c’était une imperfection notée au sein du système.
La ligne « (autre) » apparaît dans un rapport, une exploration ou une réponse de l’API de données lorsque le nombre de lignes dépasse la limite fixée pour une table donnée. Lorsque cela se produit, Google Analytics met en avant les valeurs de dimension les plus courantes et regroupe les valeurs moins fréquentes sous la ligne « (autre) ». Cette méthode aide à maintenir la clarté et la pertinence des rapports en condensant les données moins communes.
Qu’est-ce que l’échantillonnage des données ?
L’échantillonnage de données est une pratique courante dans l’analyse de données. Elle consiste à analyser un sous-ensemble de données pour en extraire des informations significatives à partir d’un ensemble de données plus vaste. Cette pratique permet une récupération plus rapide des données tout en ayant un impact minimal sur la qualité des données. L’échantillonnage est particulièrement utile dans les situations où analyser l’ensemble complet des données serait trop long ou coûteux en ressources.
L’échantillonnage des données est donc une méthodologie où un sous-ensemble de données est analysé pour estimer les informations qui seraient recueillies à partir d’une analyse complète des données. C’est une technique utilisée par Google Analytics pour fournir rapidement des insights lorsqu’il s’agit de traiter des ensembles de données étendus.
Dans le cadre de Google Analytics 4, les rapports standards et les données de l’API n’étaient pas sujets à l’échantillonnage, seuls les explorations pouvaient être échantillonnés au-delà des 10M d’événements requêtés. Dorénavant, cela appartient au passé. Depuis la mise à jour du 28 novembre 2023, Google Analytics utilisera les deux types de table pour optimiser sa réponse. Cela se traduit pas la possible ligne (other) dans les explorations et l’échantillonnage dans les raports standards et l’API.
Comment contourner l’échantillonnage dans les rapports de Google Analytics ?
Dorénavant dans Google Analytics, la gestion des données se fait au travers de deux types de tables : les tables d’aggrégation et les tables de données granulaires. Les premières fournissent des réponses rapides et non échantillonnées pour les requêtes fréquentes, tandis que les secondes stockent des données détaillées pour des analyses avancées. Selon la requête, Google Analytics choisit la table la plus appropriée, avec des paramètres d’échantillonnage par défaut de 10 millions d’événements pour les propriétés standards et 100 millions pour les propriétés Analytics 360.
Ces tables ont des limites de données. Lorsqu’elles sont atteintes, les résultats peuvent être regroupés sous une ligne « (autre) » ou échantillonnés, avec des indications fournies par l’icône de qualité des données. L’échantillonnage de données permet d’analyser un sous-ensemble représentatif pour une récupération plus rapide des informations.
Pour les utilisateurs d’Analytics 360 confrontés à des résultats regroupés ou échantillonnés, des fonctionnalités premium permettent d’accéder à des données non échantillonnées. Ces options incluent l’expansion des données regroupées sous la ligne « (autre) », la création de rapports d’exploration avec des limites d’échantillonnage plus élevées, et l’activation de requêtes non échantillonnées pour des analyses encore plus détaillées.
Les utilisateurs Analytics standard peuvent exporter leurs données vers BigQuery ou ajuster la plage de dates pour des résultats plus précis. Ces outils et fonctionnalités offrent une flexibilité et une précision accrues dans l’analyse des données, essentielles pour les entreprises et les analystes qui s’appuient sur des insights data-driven pour leurs décisions stratégiques.
Pour en savoir plus sur la façon dont les données sont stockées et affichées : https://support.google.com/analytics/answer/13888627?hl=fr&sjid=16778506217139309416-EU