Blog

¿Qué son las series temporales y qué interesa analizar a partir de estas?

¿Qué son las series temporales y qué interesa analizar a partir de estas? En nuestra vida cotidiana es común encontrar series temporales. El número de contagios de COVID a lo largo de las distintas semanas de la pandemia, la inflación a lo largo de distintos meses durante 20 años, el número de ventas semanales de un producto, o la cantidad de un contaminante a lo largo de cada día del año, son tan solo algunos ejemplos. Habiendo definido, al menos intuitivamente, los objetos que nos interesa explorar ¿qué preguntas podemos plantearnos con ellos? Y ¿con qué modelos podemos resolverlas? Al analizar series temporales usualmente el interés radica en hacer predicciones a futuro; sin embargo, también existen modelos explicativos donde quisiéramos ver el grado de asociación que algunas series de tipo input pueden tener sobre la serie de interés de tipo output. Por ejemplo, determinar en qué medida las ventas de un producto A pueden incrementar las ventas de un producto B. Concentremos en el caso predictivo y supongamos que tenemos una serie temporal como la de la Figura 1, la cual muestra la venta de boletos mensuales en una aerolínea. La empresa puede estar interesada en obtener predicciones a futuro de las ventas para así planificar promociones o para tener la infraestructura cubra las necesidades de los clientes. Figura 1. Ventas mensuales de boletos de avión en una aerolínea a lo largo de varios años. Algunos modelos se basan en la idea de que en las series temporales puede haber: 1) Tendencia, cambios con respecto a la media, 2) Estacionalidad, patrones que se repiten, por ejemplo, temporadas de más o menos ventas en los datos mensuales las cuales se repiten a lo largo de los años y 3) Aspectos no controlables caracterizan un cierto ruido. Como en cualquier modelación, podemos partir desde lo más simple, por ejemplo, predecir a través de promedios, o en su forma sofisticada, a través de promedios ponderados, de tal forma que se proporcione más relevancia a la información actual que a la antigua. Los modelos llamados de tipo Holt-Winters se basan en este principio. En estos, los promedios pueden aplicarse sobre las distintas partes, tendencia y estacionalidad, y son un caso particular de los llamados modelos de espacio de estados, los cuales también han sido implementados desde una perspectiva bayesiana (bayesian structural time series). Posteriormente, se tienen los modelos ARMA, los cuales se basan en la idea de que una serie de tiempo es un proceso estocástico, en particular un proceso estacionario. Esto básicamente significa que la media y la varianza no se modifican al cambiar el tiempo como en la Figura 2. Los modelos ARMA permiten por un lado relacionar los valores de una serie a través de una combinación lineal de los valores de la serie en tiempos previos (parte autoregresiva), y por otro lado, el valor de todo aquello no considerado condensado en una misma variable (una especie de error o ruido) se relaciona linealmente consigo mismo en tiempos previos (parte de tipo promedios móviles). Sin embargo, para poder utilizar estas técnicas tenemos que hacer primero estacionaria a nuestra serie temporal. Para ello tratamos de eliminar la tendencia y estacionalidad en nuestra serie, usamos el modelo ARMA sobre las series estacionaria resultante, y una vez terminando de modelar reintegramos las tendencia y estacionalidad para predecir sobre la escala original de los datos. El proceso requiere seleccionar el número de términos adecuados de las partes autoregresivas y de promedios móviles, estimar los pesos de las combinaciones lineales y revisar que se cumplen los supuestos del modelo, siendo un proceso minucioso. Figura 2. Ejemplo de un proceso estocástico estacionario en el cual las observaciones oscilan alrededor de su media y no presentan variabilidad diferenciada en distintos tiempos. Elaboración propia. Ahora bien, en algunos casos puede que no solo tengamos la serie temporal que queremos predecir, sino también algunas series temporales auxiliares que nos permitan mejorar las predicciones. En este caso, utilizamos un modelo que relaciona las series tipo input con la serie tipo output, en un enfoque similar al de los modelos de regresión, salvo que considerando que al error del modelo puede asignársele un proceso ARMA. Estos son los llamados modelos dinámicos o modelos de regresión con errores ARMA. En este caso pudiera interesarnos ese enfoque explicativo introducido arriba. En este último modelo consideramos que hay un conjunto de series tipo input; sin embargo, puede ocurrir que en un conjunto de series temporales no exista una asociación direccional para definir inputs y output, sabiendo solo que las series se asocian. De esta forma, podemos aprovechar la información que nos dan las distintas series para lograr una mejor predicción simultánea en todas. En este caso, caemos en el estudio de series multivariadas, para las cuales se generalizan los modelos ARMA en una mayor dimensión. En este caso, uno de los modelos más conocidos es el llamado VAR, con el cual se modela solo la parte autoregresiva. Existen también los llamados modelos VARMA, los cuales incluyen también una parte de promedios móviles, aunque estos no son tan usados porque pudiera haber problemas de identificabilidad (dos modelos escritos de forma distinta pueden significar lo mismo), por lo cual hay que ser más cuidadosos en su definición. En la Figura 3 se presenta una serie bivariada de venta de dos productos junto con el diagrama de autocorrelación cruzada que nos permiten entender mejor cómo se asocian las series. Figura 3: Serie temporal bivariada correspondiente a la venta de dos productos y donde vemos que el comportamiento de ambas tiene cierta similitud o hay asociación. A partir de correlaciones cruzadas nos damos cuenta de que la serie 1 se asocia significativamente (valor afuera de las bandas) con el valor que la serie 2 tiene en una unidad de tiempo posterior (retraso de 1). Otro problema que puede surgir al predecir series temporales es la presencia de volatilidad. En palabras simples, datos en los cuales la variabilidad de la serie cambia a lo largo del tiempo como en

¿Qué son las series temporales y qué interesa analizar a partir de estas? Leer más »

¿Qué es y para qué sirven los modelos gráficos probabilísticos y cuál es su relación con las redes bayesianas?

¿Qué es y para qué sirven los modelos gráficos probabilísticos y cuál es su relación con las redes bayesianas? Los modelos gráficos probabilísticos, incluidas las redes bayesianas, son modelos multidimensionales en los cuales, de acuerdo con un gráfico, la probabilidad conjunta, esto es aquella asociada con todas las variables es factorizada, representando un conjunto de independencias marginales y condicionales, también conocidas como propiedades de Markov. Por ejemplo, en una red no dirigida, la ausencia de un enlace entre dos variables indica que tales variables son condicionalmente independientes, dadas las variables restantes. En otras palabras, las variables se relacionan entre sí solo a través de las demás variables. Los enlaces asociados con el gráfico pueden ser no dirigidos o dirigidos, en ambos casos se representa la independencia, pero en el último (redes bayesianas), la dependencia entre variables se representa a través de probabilidades condicionales correspondientes a una variable condicionada a los valores de las variables cuyas flechas apuntan a esta. Por ejemplo, considerando que dos nodos u y v apuntan a un nodo w, se dice que u y v son los nodos padres de w, y tenemos la densidad de probabilidad asociada con w dados valores específicos para u y v. En la Tabla 1, se presenta cada tipo de modelo gráfico probabilístico y su nombre, los objetivos o la utilidad de cada modelo, y las limitaciones o problemas que se podría encontrar al usarlos. Aquí vemos que el nombre del modelo cambia de acuerdo con si se unen las variables de forma dirigida o no y del tipo de variable (cuantitativa o cualitativa) involucrada. De este gráfico vemos que en realidad una red bayesiana corresponde solo al caso en que se tienen variables cualitativas con enlaces dirigidos, aunque hay veces que ese nombre también se usa (quizás erróneamente) para cuando las variables son todas cuantitativas. Data learning Data Type Models Goals Disadvantages PGM From data through structural learning (using algorithms, e.g. hc and pc) or using experts knowledge to build the network, associated probabilities, or both Cualitativas Loglinear graphical (undirected) Understand marginal and conditional independences between variables Computational time directly proportional to number of nodes, particularly for structural learning, thus, other techniques and/or graph restrictions (e.g. use of trees) can be necessary. Arcs direction or forbidding of certain direction must be validated by experts. Not all types of graphical models (particularly the mixed type) are as well developed, particularly in a same software. Gaussian distribution assumed in the continuous and mixed network types. Discrete bayesian networks (directed) Understand marginal and conditional independences between variables, understand causality between all variables (not just one), and evidence propagation (prediction and classification) Discrete chain models (both) Cuantitativas Undirected Gaussian graphical models Understand marginal and conditional independences between variables Directed Gaussian graphical models Understand marginal and conditional independences between variables, understand causality between all variables, and evidence propagation (prediction and classification) Gaussian chain graph models (directed and undirected) Mezcla Mixed interaction models (undirected) Understand marginal and conditional independences between variables Mixed chain graph models (directed and/or unidrected) Understand marginal and conditional independences between variables, understand causality betwen variables, and evidence propagation (prediction and classification) Tabla 1: Modelos gráficos probabilísticos, tipo de datos proporcionados por el usuario, tipo de variables admitidas y modelos asociados con cada tipo, así como objetivos y desventajas para cada modelo. Elaboración propia. Para una mejor comprensión, en la Figura 1, mostramos un ejemplo práctico de una red bayesiana (red dirigida para datos cualitativos) relacionada con el daño arterial, en la cual se estudian distintas variables relacionadas con este problema. Incluimos las probabilidades condicionales asociadas (dependiendo de los nodos padres) y marginales (cuando no hay nodos padres). Por ejemplo, el padre de la variable hipertensión es sobrepeso y entonces tenemos la probabilidad de tener o no hipertensión condicionada tener sobrepeso, las cuales son en nuestro ejemplo 0.6 y 0.4, respectivamente. Cuando se involucran variables continuas, se aplican distribuciones gaussianas condicionales. Figura 1. Red que representa un modelo relacionado con daño arterial. El sobrepeso puede considerarse como una causa tanto de la diabetes como de la hipertensión. Fumar y la diabetes están vinculados en un nodo (either) que indica si un sujeto fuma o tiene diabetes. La presencia de cualquiera de estos dos problemas, representados en el nodo llamado “either”, junto con la posible presencia de hipertensión, son posibles causas de daño arterial. Utilizando datos, o según el conocimiento de expertos, se pueden obtener las probabilidades condicionales y marginales asociadas con cada nodo, los valores posibles se muestran junto a la red. Elaboración propia. Expertos pueden proporcionar la estructura de la red y los parámetros, e.g. las probabilidades condicionales en redes bayesianas como la de la Figura 1, asociados con los modelos según su conocimiento. También pueden aprenderse a partir de los datos mediante algoritmos y métodos estadísticos, o una combinación de ambos procesos. Debemos identificar relaciones coherentes, prohibiendo aquellas ilógicas o forzadas, utilizando diferentes algoritmos, comparando las redes obtenidas o simulando aleatoriamente varias redes para identificar las relaciones más repetidas. Por ejemplo, en el primer caso un algoritmo hc o hill-climbing puede partir de una red sin aristas o red trivial e ir agregando aristas comparando qué tanto un puntaje del buen ajuste de la red se modifica al agregar aristas, cambiarlas de dirección o quitarlas. En el segundo caso, se puede aplicar remuestreo (generar muchas muestras con remplazo de los datos) e ir aprendiendo en cada muestra una red diferente, las cuales pueden al final combinarse para generar una única red. Además, cuando se utilizan redes dirigidas, se deben validar las direcciones apropiadas. En las redes bayesianas o modelos gráficos probabilísticos, también podemos asignar valores a un conjunto de nodos A (evidencia) y ver cómo estos valores afectan a otro conjunto de variables B, obteniendo la probabilidad condicional de esas variables en B dados valores específicos a los nodos en A. En consecuencia, estas redes pueden usarse para entender la dependencia, la causalidad o incluso para establecer una clasificación. Por ejemplo, en nuestra Figura 1, podemos generar un clasificador

¿Qué es y para qué sirven los modelos gráficos probabilísticos y cuál es su relación con las redes bayesianas? Leer más »

Mapa Digital con graficas de estadística espacial generada por IA

¿Qué es y para qué sirve la estadística espacial?

¿Qué es y para qué sirve la estadística espacial? La disponibilidad de cada vez más información y fuentes requiere el uso de los análisis más sofisticados. Hay muchos datos georreferenciados, un término comúnmente utilizado en el marco de los Sistemas de Información Geográfica (SIG), que significa la asociación de mapas o imágenes con ubicaciones espaciales, es decir, posiciones en la superficie terrestre. Los SIG corresponden a la tecnología que une herramientas de manejo de información e informática para el análisis de datos espaciales, organizando y visualizándolos, produciendo mapas y permitiendo consultas y análisis espaciales. La disponibilidad de datos espaciales suele ser de dos tipos: ráster (o archivos de imagen) o vectorial. Este último corresponde a puntos, líneas y polígonos, por ejemplo, representando ubicaciones de árboles en un área, ríos y provincias, respectivamente. Quizás el formato vectorial más conocido sea el shapefile, pero hay otros formatos. Considerando que ya tenemos software para analizar información espacial, la pregunta es: ¿Qué tipo de análisis son posibles? La respuesta es que esto depende del tipo de datos y del objetivo de nuestro estudio. Por ejemplo, en un estudio más descriptivo, se puede estar interesado en representar zonas específicas y el transporte disponible entre ellas, identificando además a través de imágenes las características orográficas de las zonas. Esto se hace al ir uniendo distintas capas de información geográfica. Para los análisis usando estadística espacial, el tema que nos interesa, generalmente tenemos datos vectoriales, frecuentemente solo puntos o polígonos, y las preguntas están más relacionadas con aquellos comunes en estadística y ciencia de datos, por ejemplo: el mapeo de información, agrupamiento espacial, la predicción o explicación de una variable a través de otras considerando el aspecto espacial, etc. Análisis descriptivo espacial: Como en la estadística clásica, el primer tipo de análisis que podríamos realizar es descriptivo. Esto consiste principalmente en mapear o, más específicamente, representar nuestros datos. Esto puede parecer fácil al principio, pero el proceso puede variar según los datos. Por ejemplo, dado que la tierra tiene forma esférica, necesitamos un sistema de coordenadas esféricas, generalmente latitud y longitud; sin embargo, es difícil obtener medidas en ese sistema, y por lo tanto se utilizan sistemas de coordenadas planas proyectando los datos de la esfera a un plano. También puede ser necesario unir capas de información; e.g. una capa de montañas y otra de centros de cultivo. Suponiendo que la información está organizada adecuadamente podemos iniciar el análisis descriptivo. Por ejemplo, considerando el desempleo por estados en un país, podríamos estar interesados en identificar los lugares en los que es mayor. Por supuesto, podríamos representar todos los valores posibles con un color diferente o incluso colorearlos según un gradiente de color; sin embargo, generalmente tratamos de agrupar la información, por ejemplo, calculando cuantiles y grupos asociados, representando cada uno con un color diferente, por ejemplo, de más oscuro a más claro. También podríamos identificar los estados que posiblemente sean valores atípicos, entre otras posibilidades. Figura 1: Cuartiles asociados a proporción de migración interna en México por estado. Elaboración propia. Autocorrelación Espacial Global y Local: Dos aspectos que nos interesan al estudiar datos espaciales son si una variable está asociada espacialmente; es decir, si esperamos que lugares cercanos tengan valores similares y si hay agrupamiento espacial. Para poder analizar estos aspectos, necesitamos definir cuándo las unidades espaciales son vecinas y, a partir de ahí, definir una matriz de pesos espaciales W. Esta matriz se utiliza para calcular medidas de autocorrelación espacial, así como en algunos modelos lineales espaciales. La I de Moran corresponde a un tipo de correlación, ponderada espacialmente según la matriz de pesos W. Tiene valores entre -1 y 1, con valores cercanos a cero indicando que no hay autocorrelación espacial, y valores positivos indicando autocorrelación positiva, es decir, valores grandes (pequeños) de la variable en una unidad espacial están asociados con valores grandes (pequeños) en sus vecinas, mientras que los valores negativos indican dispersión. Podemos calcular la contribución de cada unidad sobre el I de Moran y se conoce como el indicador local de asociación espacial o LISA. Los mapas LISA se pueden obtener y usar para generar mapas de calor relacionados con la formación de agrupamientos espaciales significativos, lo que nos permite ver si una unidad espacial está rodeada de unidades espaciales con valores similares. Así podríamos por ejemplo obtener regiones en las que significativamente tenemos mayor pobreza en un país. a) b) Figura 2. a) Distintos valores de la I de Moran, indicando que al acercarse a 1 genera conglomerados espaciales, mientras que al acercarse a -1 tiende a una dispersión (valores chicos y grandes de la variable intercalados) y b) Conglomerados espaciales de admisión por asma en Asturias, España, vemos como hay conglomerados de altas admisiones (unidades espaciales con valores altos rodeadas de valores con valores altos) en el norte. Fuentes: https://www.50northspatial.org.ua/global-morans-i-spatial-autocorrelation/ González-Iglesias, V., Martínez-Pérez, I., Rodríguez Suárez, V. et al. Spatial distribution of hospital admissions for asthma in the central area of Asturias, Northern Spain. BMC Public Health 23, 787 (2023). https://doi.org/10.1186/s12889-023-15731-7 Interpolación y Geoestadística: Otra tarea importante en la estadística espacial consiste en interpolar información espacial, parte de la rama de la estadística llamada geoestadística, la cual analiza variables aleatorias asociadas con información espacial. En otras palabras, dada la información sobre una variable correspondiente a un conjunto de puntos, o centroides en el caso de polígonos, queremos predecir qué valores tomarán otro conjunto de puntos basándonos en esta información. Para poder realizar esto, primero necesitamos encontrar una regla de cómo una variable está asociada según la ubicación de los puntos, al menos en términos de la distancia entre ellos. El concepto de variograma, es útil en este proceso. Variograma: Matemáticamente, tenemos un proceso aleatorio espacial Z(s), donde s corresponde a una unidad espacial en coordenadas geográficas, generalmente proyectadas, o en otras palabras, una variable aleatoria asociada con diferentes ubicaciones. Además, asumimos que este proceso es estacionario, lo que significa que la asociación entre los valores que una variable toma en dos ubicaciones solo depende de la distancia o el desfase espacial entre

¿Qué es y para qué sirve la estadística espacial? Leer más »

Scroll al inicio