Blog del BCRA

Búsquedas en internet: googleando datos

En la actualidad, el uso de internet como mecanismo instantáneo de búsqueda de información es una actividad cotidiana: la proliferación de smart phones y la ampliación del porcentaje de hogares que disponen de una conexión han permitido una reducción significativa en el costo de acceso a la información.1  Resulta muy conveniente explorar la web en busca de información relevante previo a la toma de alguna decisión que involucre compra, venta, inversión o endeudamiento, por citar algunas.2 

Desde la perspectiva de las estadísticas económicas, el uso de internet como fuente de datos ocupa aún un lugar secundario. Más allá del rezago de publicación que poseen los datos mensuales (o trimestrales) provenientes de las oficinas estadísticas nacionales, estos continúan siendo la principal fuente de información para la economía aplicada. Sin embargo, en los últimos años ha crecido exponencialmente el interés por técnicas que permitan hacer uso de la creciente disponibilidad de datos de muy alta frecuencia provenientes de fuentes muy diversas y poco tradicionales para la economía. La combinación de datos digitales provenientes de transferencias comerciales, redes sociales y fuentes on-line forma parte de lo que comúnmente se conoce como Big Data.3 4 

La llamada “revolución” de Big Data ha dado lugar a pensar que en un futuro cercano las fuentes tradicionales serán reemplazadas. Lejos de adscribir a esta hipótesis, la visión de quien escribe esta nota (que no es necesariamente novedosa ya que es compartida por gran parte de la profesión) es que existe un alto grado de complementariedad entre las estadísticas tradicionales y la nueva corriente de Big Data.5  Adicionalmente, vale aclarar que trabajar con estos nuevos sets de datos de gran volumen no nos inmuniza de los mismos inconvenientes que tienen las muestras pequeñas: no elimina per se los potenciales problemas de endogeneidad ni de sesgo de selección.

El objetivo de este post entonces es dar cuenta de Google Trends6  como una herramienta adicional —tanto de los hacedores de política como de los economistas que siguen el día a día de una economía— a través de un ejercicio aplicado al mercado inmobiliario.7 

La herramienta: Google Trends

Desde 2008, Google Trends (antes Google Insights) permite monitorear el interés social por diversos temas. Para un ámbito espacial y temporal definido, permite obtener una serie de tiempo semanal o mensual de la intensidad de búsqueda relativa de algún término específico, es posible refinar la búsqueda condicionando a categorías preestablecidas.

En particular, la información disponible es un índice del número de búsquedas de una palabra clave o query index. Este índice de intensidad relativa de una búsqueda se construye de la siguiente manera:

De esta manera, si uno observa una tendencia decreciente no significa que el número total de búsquedas para ese término está disminuyendo, sino que su popularidad está disminuyendo en comparación con otras búsquedas. Adicionalmente, para garantizar la confidencialidad y la representatividad al mismo tiempo, Google Trends calcula intensidades de búsqueda mediante técnicas de muestreo que cambian día a día.8 

Nuestro ejercicio

Nos proponemos analizar la evolución en la intensidad de búsqueda de departamentos en venta en comparación con departamentos en alquiler.

La elección de estos términos no es azarosa sino que responde a que en un futuro queremos usar este indicador para pronosticar escrituras en algún ámbito espacial más acotado, donde el tipo de vivienda departamento es el más común.9

Condicionamos la búsqueda al capítulo específico que tiene Google de mercado inmobiliario para limpiar la búsqueda de resultados no vinculados a dicho mercado.10 Presentamos estos números en el Gráfico 1 a continuación.

Una aclaración previa a observar los resultados: el ejercicio planteado es relativamente simple dado que sólo se trata de mirar la evolución del índice de búsquedas para las palabras claves seleccionadas sin ningún tipo de procesamiento o transformación de los datos (por ejemplo controlar por estacionalidad o suavizar la serie mirando promedios mensuales).

¿Qué podemos afirmar?

Un hecho que llama la atención en el Gráfico 1 es persistentemente la intensidad de búsqueda del término “departamentos en alquiler” está por encima de la búsqueda de “departamentos en venta”. No obstante, en las últimas semanas ambas búsquedas comienzan a ser más similares y a partir de mediados de marzo “departamentos en venta” supera a “departamentos en alquiler” (si bien vale aclarar que es un período relativamente corto). Esto puede notarse más claramente en el Gráfico 2 en donde se presenta el cociente entre ambos índices. Desde 2016 en adelante, el ratio presenta una tendencia creciente y en los últimos meses supera el valor unitario.

Por supuesto es muy difícil establecer alguna relación de causalidad. En notas posteriores intentaremos complementar este análisis con potenciales causales. En particular exploraremos la capacidad que tienen las tendencias de google para anticipar escrituras e hipotecas. Es probable que la mejora en facilidades y en el acceso al crédito hipotecario hayan tenido algún efecto sobre la decisión de alquilar o comprar y que esto propicie a que los individuos busquen información al respecto. Pero nuevamente, este tipo de afirmación escapa a esta primera observación.

Para complementar lo observado, presentamos en el gráfico 3 dos mapas de la ciudad de Buenos Aires. En uno se muestra el precio por metro cuadrado por barrios (Dirección de Estadísticas y Censos de la ciudad de Buenos Aires), en el otro, el índice de búsquedas promedio de cada barrio dentro de la categoría mercado inmobiliario. En ambos el color más obscuro indica un mayor valor de la serie representada.

A simple vista parecería que hay una correspondencia entre ambos, la zona norte de la ciudad presenta valores más altos tantos de intensidad de búsquedas como de precios. Al armar un scatter plot a nivel de comunas, observamos que si bien es débil esta relación positiva se mantiene.

Si bien este es un artículo preliminar con la intención de presentar una breve aplicación de una herramienta, no hay dudas que las búsquedas en internet (en particular google trends) pueden complementar el conjunto de datos tradicionales que monitorean los bancos centrales.

Emilio Blanco


Referencias

Askitas, N. (2015). “Trend-Spotting in the Housing Market – a significant correlation with the US national S&P/Case Shiller Home Price Index”.

Askitas, N. y Zimmermann, K. (2011). “Detecting Mortgage Delinquencies”. IZA Discussion Paper No. 58

Bholat, D. (2015). “Big data and central banks”. BOE Quarterly Bulletin 2015 Q1. Bank of England.

Blanco, Emilio (2014). “Herramientas de Big Data: ¿podemos aprovechar Google Trends para pronosticar variables macro relevantes?”. MIMEO, disponible aquí.

Coble, D. y  Pincheira, P. (2017. “Now-Casting Building Permits with Google Trends”. DOI: 10.13140/RG.2.2.36321.10082.

Choi, H. y H. Varian (2011). “Predicting the Present with Google Trends”. Google Technical Report.

Choi, H. y H. Varian (2009). “Predicting initial claims for unemployment insurance using Google Trends”. Google Technical Report.

Sander van Veldhuizen, Benedikt Vogt, Bart Voogt (2016) – Internet searches and transactions on the Dutch housing market.

1 Por ejemplo para Argentina, según datos de la Encuesta Nacional sobre Acceso y Uso de Tecnologías de la Información 2015, más del 60% de los hogares cuenta con una conexión a internet.
2 De hecho, el barómetro de consumo de google presenta cierta evidencia de que internet es un recurso importante para los consumidores durante todo el proceso de compra, desde la inspiración inicial hasta la compra final, pasando por la comparación entre productos y precios o la recomendación de otros compradores.
3 Para una definición más precisa se recomienda la lectura de Bholat (2015).
4 Choi y Varian (2009 y 2011) incorporan este índice como un regresor para pronosticar: ventas minoristas, ventas de automóviles, mercado inmobiliario, turismo y condiciones del mercado laboral. Al igual que estos trabajos pioneros, la gran parte de la literatura que utiliza como base de datos búsquedas en la web, se orientan a estudiar cómo la inclusión de este tipo de variable tiende a mejorar la capacidad predictiva de diversos modelos de pronósticos univariados. A su vez y aprovechando la disponibilidad prácticamente inmediata de estos datos, su utilidad para ejercicios de Nowcast[4] es cada vez más destacada.
5 Hace algunas semanas INDEC organizó el Encuentro sobre big data y estadísticas oficiales donde se discutieron parte de estas cuestiones.
6 Según datos de 2016 Google cuenta con 72.48% de la cuota de mercado mundial de búsquedas en internet.
7 Precisamente, una de las decisiones en las que se utiliza más intensamente la información es aquella  que enfrentan los agentes económicos que se proponen comprar o alquilar una vivienda.
8 Si bien esto puede ser a priori un incoveniente para la comparabilidad dado que la serie no es del todo estable a lo largo del tiempo, Coble y Pincheira (2017) reportan que usando 5 muestras distintas la correlación entre los índices obtenidos oscila entre 0.95 y 0.99. Por 4 semanas consecutivas realizamos el ejercicio y la correlación entre las diversas muestras fue 0.96 para venta y 0.94 para alquiler.
9 De hecho, en un ejercicio preliminar encontramos que incorporar este tipo de indicador (rezagado) a un modelo univariado de cantidad de escrituras en el ámbito de la ciudad de buenos aires, mejora la capacidad predictiva del mismo en un 10%.
10 Ver Askitas (2015).