Prévoir le présent : quand les données Google permettent d’évaluer des conditions économiques en temps réel

Connaissez-vous le “nowcasting” ? L’évaluation des performances économiques en temps réel est un outil crucial pour les économistes. L’exploitation méthodique des données Google Search permet, notamment, de prévoir immédiatement le PIB de la zone Euro. En l’absence d’informations officielles, ces données améliorent significativement la précision des prévisions.

Et si nous pouvions prévoir le présent ? Si vous n’êtes pas économiste, cette question peut vous paraître stupide. Par exemple, pour savoir le temps qu’il fait, il suffit d’ouvrir sa fenêtre et de regarder le ciel. Mais si vous avez besoin de connaître la situation économique d’un pays en temps réel, la question prend tout son sens.

Un économiste, en effet, a chaque jour accès à un nombre extrêmement important d’informations, parfois contradictoires, provenant de sources diverses, comme les instituts statistiques, les marchés financiers, les médias… Sans compter qu’il y a des délais importants entre la publication des chiffres économiques officiels et la période qu’ils concernent, ce qui ajoute de l’incertitude à la situation. À cet égard, dans le sillage des travaux fondateurs de Giannone, Reichlin et Small (2018), le concept de « nowcasting » a été popularisé en macroéconomie ces dernières années par de nombreux chercheurs et prévisionnistes impliqués dans l’analyse du cycle économique. Ce concept se distingue des prévisions macroéconomiques standards en ce qu’il consiste à évaluer les performances économiques en temps réel d’un pays donné. Être capable d’établir un diagnostic précis de l’état actuel de l’économie est souvent considéré comme une première étape vers la construction d’une perspective à plus long terme.

L’idée est de fournir aux décideurs politiques une évaluation en temps réel de l’état de l’économie, afin de pouvoir réagir rapidement aux changements soudains des conditions économiques et de prendre de meilleures décisions.

Big Data is watching you

Toutefois, la tâche est particulièrement difficile car la plupart des pays publient leurs comptes nationaux trimestriels officiels – en particulier l’indicateur macroéconomique de référence, le Produit Intérieur Brut (PIB) – après la clôture de la période, et souvent avec un décalage important. Dans la zone euro, par exemple, Eurostat publie son estimation rapide préliminaire de la croissance du PIB environ 30 jours après la fin du trimestre. Cela signifie que les économistes qui tentent d’évaluer l’activité économique du premier trimestre n’ont accès à aucune estimation officielle du PIB du 1er janvier au 30 avril. Dans l’intervalle, ils peuvent toutefois collecter un très grand nombre de variables économiques, de différents types, publiées à une fréquence plus élevée, c’est-à-dire sur une base mensuelle, hebdomadaire ou quotidienne.

Aujourd’hui, il s’avère que de grands ensembles de données alternatives sont également largement utilisés par les économistes pour l’analyse macroéconomique, les prévisions ou les décisions de politique monétaire. Les données alternatives sont définies par opposition aux informations macroéconomiques officielles standards provenant, notamment, des instituts nationaux de statistiques, des banques centrales, des organisations internationales…

A écouter : Les ex-colonies françaises d’Afrique sub-saharienne ont de meilleurs résultats économiques que les britanniques

Diverses sources de données alternatives ont été utilisées dans la littérature scientifique récente : les données des réseaux sociaux, les données extraites du Web, les données d’achat par carte bancaire ou encore les données satellitaires. En général, ces ensembles de données sont extrêmement volumineux et peuvent être définis comme des « Big Data ». L’une des principales sources de données alternatives est constituée par les données obtenues via le moteur de recherche Google et les articles fondateurs sur l’utilisation de ces données pour la prévision sont ceux de Hal Varian et de ses co-auteurs (voir par exemple ici). Dans le domaine de l’évaluation en temps réel de l’activité économique, la littérature scientifique tend à démontrer un certain pouvoir de prévision des données Google, du moins pour certaines variables macroéconomiques spécifiques telles que la consommation (Choi et Varian, 2012), le taux de chômage (D’amuri et Marcucci, 2017), les permis de construire (Coble et Pincheira, 2017) ou les ventes de voitures (Nymand et Pantelidis, 2018). Cependant, lorsqu’elles sont correctement comparées à d’autres sources d’informations, le gain que les économistes peuvent tirer de l’utilisation des données Google n’apparaît pas clairement.

Hey Google, peux-tu m’aider à prévoir le présent ?

Dans un article récent (Ferrara et Simoni, 2023, paru dans le Journal of Business and Economic Statistics), nous posons donc la question de savoir si les données Google sont toujours utiles pour la prévision immédiate du PIB de la zone euro lorsqu’on contrôle par les variables officielles, telles que les enquêtes d’opinion ou la production, généralement utilisées par les prévisionnistes. Et si c’est le cas, à quel moment exactement ces données alternatives apportent-elles un gain en précision pour l’évaluation en temps réel de la croissance du PIB en zone euro.

Les données de recherche Google disponibles sont extrêmement nombreuses, en particulier le nombre de variables est beaucoup plus grand que la taille de l’échantillon temporel. Il y a donc un prix à payer pour les utiliser : il faut déjà réduire leur dimension (de extrêmement nombreuses à nombreuses) en utilisant une procédure de pré-sélection, et, ensuite, utiliser un estimateur régularisé pour traiter les variables présélectionnées. Ainsi, , nous proposons dans cet article une nouvelle approche qui combine la présélection de variables et l’estimation des paramètres du modèle via une régularisation dite Ridge permettant de tenir compte d’une grande base de données. Cette approche est appelée la méthode « Ridge after Model Selection », et comprend deux étapes : (i) premièrement, les variables de Google Search sont présélectionnées, en fonction de l’intensité de leur relation avec le PIB, et (ii) deuxièmement, un estimation des paramètres du modèle à l’aide d’une régularisation de Ridge sur variables présélectionnées. D’une manière générale, la régularisation de Ridge peut être considérée comme une estimation d’une régression linéaire mais avec une pénalité.

Nous avons ensuite mené une étude empirique pour évaluer le rôle des données de Google Search pour l’évaluation en temps réel de la croissance du PIB, en comparant trois pays/zones : la zone euro, les États-Unis et l’Allemagne. En général, deux sources de données officielles sont prises en compte : (i) les données réelles (production, ventes, emploi, etc.) et (ii) les enquêtes d’opinion (les ménages ou les entreprises sont interrogés sur leur opinion concernant les conditions économiques actuelles et futures). Parfois, des informations sur les marchés financiers, généralement disponibles à haute fréquence, sont également intégrées dans l’ensemble des informations. Dans notre étude, nous incluons les données officielles (i) et (ii) ainsi que les données alternatives de Google Search dans notre ensemble d’information. Nous avons par ailleurs intégré les informations des marchés financiers pour un contrôle de robustesse.

Trois périodes d’étude

Nous avons analysé trois périodes différentes : une période de stabilité cyclique (T1 2014-T2 2016), une période qui présente une forte baisse du taux de croissance du PIB (T1 2017 – T4 2018) et une période de récession (la période de la Grande Récession de T1 2008 au T2 2009). Dans l’ensemble, les résultats empiriques montrent que les variables de Google Search apportent de l’information lorsqu’on essaie d’évaluer en temps réel la croissance du PIB. Au début du trimestre, lorsqu’il n’y a pas d’informations officielles disponibles sur l’état actuel de l’économie, nous avons montré que l’utilisation des seules données Google conduit à une précision très raisonnable, parfois à peine plus élevée que celle obtenue à la fin du trimestre lorsque l’ensemble des informations est disponible. Dès que nous intégrons les informations macroéconomiques officielles, c’est-à-dire à partir de la cinquième semaine du trimestre, la précision augmente nettement, reflétant l’importance de ce type de données pour l’évaluation en temps réel. Dans l’ensemble, la combinaison des variables macroéconomiques et des variables de Google dans le même modèle semble être fructueuse.

Un résultat frappant ressort de cette analyse empirique. D’une part, l’étape de présélection des données est cruciale dans les deux premières périodes considérées (c’est-à-dire T1 2014 – T1 2016 et T1 2017 – T4 2018) car elle génère de meilleurs résultats que les procédures de nowcasting sans aucune présélection. Ce résultat confirme les conclusions précédentes de la littérature scientifique, en particulier sur les modèles à facteurs dynamiques. D’autre part, nous mettons en évidence qu’une période de récession possède des caractéristiques particulières, au sens où un modèle qui ne contient que des variables Google, sans aucune étape de présélection, tend à être préféré en termes de précision de la prévision immédiate. Ce résultat est assez robuste sur les trois pays/zones que nous considérons dans l’étude. Cela reflète probablement le fait que l’incertitude augmente pendant une récession, ce qui nécessite la prise en compte d’un ensemble d’information plus large.

Dans l’ensemble, les nouvelles données alternatives, telles que les données Google, sont réellement utiles pour améliorer le diagnostic économique en temps réel, en complément des sources d’information plus classiques. Ces données semblent extrêmement utiles lorsque les informations économiques officielles font défaut ou sont fragmentées, pour les pays émergents et à faible revenu par exemple. Cependant, des outils économétriques plus efficaces doivent être développés afin de traiter les caractéristiques particulières de ces données alternatives, tels que le volume, la variété, la vélocité, la variabilité et la véracité, également connues sous le nom des 5V.