¿Qué son las series temporales y qué interesa analizar a partir de estas?
En nuestra vida cotidiana es común encontrar series temporales. El número de contagios de COVID a lo largo de las distintas semanas de la pandemia, la inflación a lo largo de distintos meses durante 20 años, el número de ventas semanales de un producto, o la cantidad de un contaminante a lo largo de cada día del año, son tan solo algunos ejemplos.
Habiendo definido, al menos intuitivamente, los objetos que nos interesa explorar ¿qué preguntas podemos plantearnos con ellos? Y ¿con qué modelos podemos resolverlas?
Al analizar series temporales usualmente el interés radica en hacer predicciones a futuro; sin embargo, también existen modelos explicativos donde quisiéramos ver el grado de asociación que algunas series de tipo input pueden tener sobre la serie de interés de tipo output. Por ejemplo, determinar en qué medida las ventas de un producto A pueden incrementar las ventas de un producto B.
Concentremos en el caso predictivo y supongamos que tenemos una serie temporal como la de la Figura 1, la cual muestra la venta de boletos mensuales en una aerolínea. La empresa puede estar interesada en obtener predicciones a futuro de las ventas para así planificar promociones o para tener la infraestructura cubra las necesidades de los clientes.

Figura 1. Ventas mensuales de boletos de avión en una aerolínea a lo largo de varios años.
Algunos modelos se basan en la idea de que en las series temporales puede haber: 1) Tendencia, cambios con respecto a la media, 2) Estacionalidad, patrones que se repiten, por ejemplo, temporadas de más o menos ventas en los datos mensuales las cuales se repiten a lo largo de los años y 3) Aspectos no controlables caracterizan un cierto ruido.
Como en cualquier modelación, podemos partir desde lo más simple, por ejemplo, predecir a través de promedios, o en su forma sofisticada, a través de promedios ponderados, de tal forma que se proporcione más relevancia a la información actual que a la antigua. Los modelos llamados de tipo Holt-Winters se basan en este principio. En estos, los promedios pueden aplicarse sobre las distintas partes, tendencia y estacionalidad, y son un caso particular de los llamados modelos de espacio de estados, los cuales también han sido implementados desde una perspectiva bayesiana (bayesian structural time series).
Posteriormente, se tienen los modelos ARMA, los cuales se basan en la idea de que una serie de tiempo es un proceso estocástico, en particular un proceso estacionario. Esto básicamente significa que la media y la varianza no se modifican al cambiar el tiempo como en la Figura 2. Los modelos ARMA permiten por un lado relacionar los valores de una serie a través de una combinación lineal de los valores de la serie en tiempos previos (parte autoregresiva), y por otro lado, el valor de todo aquello no considerado condensado en una misma variable (una especie de error o ruido) se relaciona linealmente consigo mismo en tiempos previos (parte de tipo promedios móviles).
Sin embargo, para poder utilizar estas técnicas tenemos que hacer primero estacionaria a nuestra serie temporal. Para ello tratamos de eliminar la tendencia y estacionalidad en nuestra serie, usamos el modelo ARMA sobre las series estacionaria resultante, y una vez terminando de modelar reintegramos las tendencia y estacionalidad para predecir sobre la escala original de los datos. El proceso requiere seleccionar el número de términos adecuados de las partes autoregresivas y de promedios móviles, estimar los pesos de las combinaciones lineales y revisar que se cumplen los supuestos del modelo, siendo un proceso minucioso.

Figura 2. Ejemplo de un proceso estocástico estacionario en el cual las observaciones oscilan alrededor de su media y no presentan variabilidad diferenciada en distintos tiempos. Elaboración propia.
Ahora bien, en algunos casos puede que no solo tengamos la serie temporal que queremos predecir, sino también algunas series temporales auxiliares que nos permitan mejorar las predicciones. En este caso, utilizamos un modelo que relaciona las series tipo input con la serie tipo output, en un enfoque similar al de los modelos de regresión, salvo que considerando que al error del modelo puede asignársele un proceso ARMA. Estos son los llamados modelos dinámicos o modelos de regresión con errores ARMA. En este caso pudiera interesarnos ese enfoque explicativo introducido arriba.
En este último modelo consideramos que hay un conjunto de series tipo input; sin embargo, puede ocurrir que en un conjunto de series temporales no exista una asociación direccional para definir inputs y output, sabiendo solo que las series se asocian. De esta forma, podemos aprovechar la información que nos dan las distintas series para lograr una mejor predicción simultánea en todas. En este caso, caemos en el estudio de series multivariadas, para las cuales se generalizan los modelos ARMA en una mayor dimensión. En este caso, uno de los modelos más conocidos es el llamado VAR, con el cual se modela solo la parte autoregresiva. Existen también los llamados modelos VARMA, los cuales incluyen también una parte de promedios móviles, aunque estos no son tan usados porque pudiera haber problemas de identificabilidad (dos modelos escritos de forma distinta pueden significar lo mismo), por lo cual hay que ser más cuidadosos en su definición. En la Figura 3 se presenta una serie bivariada de venta de dos productos junto con el diagrama de autocorrelación cruzada que nos permiten entender mejor cómo se asocian las series.


Figura 3: Serie temporal bivariada correspondiente a la venta de dos productos y donde vemos que el comportamiento de ambas tiene cierta similitud o hay asociación. A partir de correlaciones cruzadas nos damos cuenta de que la serie 1 se asocia significativamente (valor afuera de las bandas) con el valor que la serie 2 tiene en una unidad de tiempo posterior (retraso de 1).
Otro problema que puede surgir al predecir series temporales es la presencia de volatilidad. En palabras simples, datos en los cuales la variabilidad de la serie cambia a lo largo del tiempo como en la Figura 4. Podemos tener entonces cúmulos de observaciones con poca variabilidad (los picos disminuyen) y otros con mayor variabilidad, algo común al analizar datos financieros. En este caso, podemos modelar la variabilidad de la serie condicional al pasado de forma autoregresiva (usando los valores de la serie al cuadrado o innovaciones) a través del llamado proceso de tipo ARCH (modelo autoregresivo de heteroscedaticidad condicional). Incluso, puede agregarse la relación lineal que la variabilidad condicional tiene con variabilidades condicionales de tiempos previos, similar a un proceso ARMA, pero en modelos que quedan en función de las variabilidades e innovaciones. Estos son los llamados modelos GARCH.

Figura 4: Serie temporal de cambios porcentuales en un activo financiero en la cual vemos que la variabilidad cambia a lo largo del tiempo, teniendo cúmulos de tiempos de alta o baja variabilidad.
Incluso es posible integrar todos los modelos mencionados: podemos tener un modelo para una serie temporal (univariada o multivariada) cuyos errores corresponden a procesos ARMA o VARMA, para los cuales la varianza del error (ruido blanco) asociado no es constante así que se modela a través de procesos GARCH, univariados o multivariados. Con todo este concatenamiento de modelos nuestras predicciones pueden ser cada vez más precisas.
Podemos también ir a un enfoque a un más moderno y generar modelos predictivos basados en redes neuronales profundas. El tipo de redes que tienen más sentido en series temporales son las redes neuronales recurrentes, RNN (Figura 5). En una RNN permitimos que se realimente la información de una neurona. Pueden así usarse RNN con una o más capas ocultas, en las cuales pueden incluirse series tipo input adicionales o simplemente utilizar la información de la misma serie, la cual se usa con retrasos como input, y en donde en la o las capas ocultas se van aprendiendo los pesos que permiten mejores predicciones. Dado que una RNN pura puede generar problemas, principalmente el llamado vanishing gradients, un problema que dificulta el proceso de entrenamiento de la red, es común utilizar neuronas tipo LSTM (long-short tem memory). En una neurona LSTM se va usando solo cierta información del pasado y del tiempo actual, lo cual puede ayudar a obtener mejores predicciones y facilita su ajuste.


Figura 5: Red neuronal recurrente con un solo input y output. Vemos como la información de la neurona en la capa oculta regresa a sí misma y como puede desdoblarse, truco que permite ver a este tipo de redes como una red neuronal típica. A su lado tenemos una neurona LSTM, básicamente funciona a través de estructuras (gates) que controlan cuánta información del pasado se elimina, cuánta información del tiempo actual se utiliza y cuál información se usa para la salida y cuál pasa a formar parte de la memoria para usarse en el siguiente tiempo.
Otro posible análisis es la obtención de clusters o conglomerados de series temporales (Figura 6). Podemos así determinar si existen grupos de series temporales que tengan un comportamiento similar, por ejemplo, si las defunciones a lo largo del tiempo tienen un comportamiento similar en distintas provincias de un país, identificando las provincias y el tipo de comportamiento.

Figura 6: Clustering de series temporales a partir de una distancia de tipo DTW apropiada para estos datos (Dynamic time warping) con la cual podemos identificar los elementos en cada cluster que pueden corresponder a comportamientos similares dentro de un grupo a través del tiempo. La línea punteada es el centroide, una serie representante de cada cluster.
Además, existen modelos basados en transformadas de Fourier que pueden ser útiles en mediciones de series propias del área de la Física, donde la periodicidad y la longitud de ondas son comunes, o en el análisis de señales. Así mismo, existen análisis que permiten identificar dónde y cuántos cambios de nivel tiene una serie temporal, por ejemplo, durante una crisis económica es común observar cambios en el comportamiento de valor de los productos. Puede así obtenerse predicciones que consideren estos cambios de nivel, los cuales incluso puede darse gradualmente a través de una cierta estructura matemática, y en este caso los modelos de función de transferencia son muy útiles. Así mismo, existen encuestas o estudios que siguen a individuos a lo largo del tiempo, en cuyo caso puede ser de utilidad incluir modelos tipo panel. Estos consideran cada individuo y como sus inputs y outputs cambian a lo largo del tiempo, y pueden incluir estructuras de correlación propias de análisis de series temporales lo cual puede ayudar a obtener una mejor inferencia.
Como vemos las aplicaciones de series temporales y modelos son muy amplios, y en realidad hemos más tocado apenas superficialmente algunos de los temas posibles a estudiar. Su estudio puede hacernos más capaces de analizar de información que se sigue a lo largo del tiempo sin importar el área a la cual nos dediquemos.
