Sociedad Andaluza de Enfermedades Infecciosas
Logo de la Sociedad Andaluza de Enfermedades Infecciosas

Modelos de regresión logística incondicional (II)

Parte I
Parte III

 

Indice

  1. Problemas de linealidad entre el logit y una covariable
  2. Ajuste del modelo de regresión logística
  3. Selección automatizada de variables
  4. Anexos

Problemas de linealidad entre el logit y una covariable

A diferencia con el modelo lineal, el modelo de regresión logística no asume linealidad en la relación entre una covariable y la variable dependiente, pero sí respecto al logit de la odds de la variable dependiente (tal como veíamos en la Figura 3 de la Parte I). Si no se cumpliera esta asunción la relación entre covariable y variable dependiente estaría infraestimada, pudiendo llegar a concluirse que no existe dicha relación cuando realmente sí la hay. Los diferentes tipos de relación que pueden detectarse entre variable dependiente y covariable los vemos en la siguiente figura (Figura 4):

Diferentes modelos de relación entre el logit y la covariable
Figura 4

Existen técnicas para comprobar si alguna de las covariables cuantitativas viola esta asunción de linealidad respecto al logit. Utilizaremos el siguiente modelo para seguir las explicaciones:

Modelo de ejemplo para las explicaciones
Figura 5

  1. Gráficos exploratorios de dispersión: A la hora de analizar el ajuste de nuestro modelo, podemos guardar dentro de nuestra base de datos la probabilidad predicha P(Y=1|X) y calcular el logaritmo natural de su odds LN[P(Y=1|X)/(1-P(Y=1|X))] (es decir, el logit). Si enfrentamos esta nueva variable a cada covariable cuantitativa del modelo en sendos diagramas de dispersión podremos comprobar gráficamente si se mantiene la linealidad.
    Análisis de linealidad: logit vs edad
    Figura 6
    Análisis de linealidad: logit vs número de fármacos
    Figura 7
    También podemos guardar en la base de datos los resíduos del modelo para cada sujeto (yobservada - Pestimada(y=1|X)), y representar en un diagrama de dispersión los resíduos (en eje y) frente a la covariable (en eje x).
    Análisis de linealidad: residuos frente a edad
    Figura 8
    Análisis de linealidad: residuos frente a número de fármacos
    Figura 9
  2. Diseño de variables ficticias:
    1. Primeramente calculamos los cuartiles de la covariable cuantitativa para luego transformarla en una variable cualitativa con cuatro categorías usando como puntos de corte los 3 cuartiles (en nuestro ejemplo se llamará DRUGS).
    2. A continuación ajustamos el modelo, pero en vez de la covariable en cuestión se incluye la variable cualitativa creada (esto implica que tendremos que diseñar a partir de ésta 3 variables ficticias que son las que realmente se incluyen en el modelo).
      Transformación de la variable con problemas de linealidad en otra cualitativa
      Figura 10
    3. Seguidamente pasamos a una gráfica los coeficientes obtenidos frente a los puntos medios de cada uno de los cuatro grupos, usando como coeficiente 0 el correspondiente al punto medio del primer cuartil. En el eje x colocamos los valores de la covariable inicial, no la transformada de 4 categorías.
      Representación de coeficientes de regresión frente a NDRGSTX
      Figura 11
    4. Conectamos los cuatro puntos e inspeccionamos la forma de la línea para ver si es lineal o describe otro modelo.
      Representación de coeficientes de regresión frente a NDRGSTX
      Figura 12
    5. Si se comprueba la ausencia de linealidad, hacemos la transformación de la covariable que sea necesaria para crear una nueva covariable que la sustituya a la original y que, manteniendo su interpretabilidad clínica, respete la asunción de linealidad (transformación logarítmica u otra que se estime oportuna, como los métodos de Box-Tidwell y de los polinomios fraccionales que veremos a continuación).
    6. Reajustamos el modelo con la nueva covariable creada.
  3. Prueba de transformación de Box-Tidwell: Consiste en añadir al modelo diseñado términos de interacción de una o más de las covariables cuantitativas. Así, el término de interacción para la covariable xi sería una covariable calculada consistente en el producto de la covariable original elevada a una potencia (xiα) por su logaritmo natural (ln[xiα]). Si encontráramos significación para alguna de esas covariables calculadas querría decir que no existe linealidad. Para determinar el mejor valor para α, la potencia de xi, se utiliza un método iterativo con el siguiente algoritmo:

    Algoritmo de la transformación de Box-Tidwell
    Figura 13: MLE indica la estimación por máxima verosimilitud de los coeficientes β
    para nuestro modelo. Las iteraciones terminan cuando se logra la convergencia de α

    El inconveniente de este método es que puede no detectar pequeñas desviaciones respecto de la linealidad. Este método no viene implementado por SPSS®.
  4. Método de los polinomios fraccionales: De difícil desarrollo sin la ayuda del software apropiado. Se trata del contraste seriado de modelos que responden a diferentes transformaciones frente al diseño lineal (logit = a + b · x). Los distintos modelos surgen de la siguiente expresión

    Transformación por polinomios fraccionales
    Ecuación 9


    A modo de ejemplos, para J = 2, p1 = 2 y p2 = 2,

    Ejemplo de polinomios fraccionales

    Normalmente es suficiente que J sea 1 ó 2, probándose las distintas posibilidades de p (ello implica 8 modelos si J = 1 y 36 modelos si J = 2).
    Este método no viene implementado por SPSS®.

 

Ajuste del modelo

Una vez que logramos nuestro modelo final pasamos a analizar cómo de bueno es su ajuste a los datos de los que disponemos (bondad de ajuste del modelo). Se entiende que dicho modelo tiene, por el método que hayamos elegido (la selección de variables fue introducida en la Parte I y continuará explicándose más adelante en este documento), todas las covariables e interacciones que creemos que deben estar presentes en el modelo, que se han resuelto problemas por estimaciones poco creíbles (si las había), y se ha comprobado la ausencia de multicolinealidad.

Para entender este apartado hay que considerar nuestros datos de n sujetos como una tabla con los valores de Y, y los valores de X (x1, … , xp) correspondientes a p covariables. Es posible imaginarse que los sujetos de la muestra puedan agruparse según unos mismos valores para las p covariables, formando m patrones de covariables. Y para cada uno de estos patrones de covariables (Xj), los sujetos integrantes tendrían su correspondiente valor de Y, y una P(Y=1|X) media. Cuando las covariables sean todas cualitativas será fácil que se pueda formar un número reducido de patrones de covariables, siendo m mucho menor que n, y diciéndose así que la distribución de los patrones de covariables sigue una distribución m-asintótica; por el contrario, la presencia de al menos una covariable cuantitativa continua hará que haya tantos posibles patrones de covariables como sujetos (m tiende a ser igual a n), diciéndose entonces que dichos patrones de covariables siguen una distribución n-asintótica. Pues bien, en general el ajuste del modelo va a depender de la probabilidad predicha para los m patrones de covariables, y no para los n sujetos de nuestra muestra.

Los pasos a seguir para analizar la bondad de ajuste del modelo deben ser:

  1. Calcular medidas de ajuste global y analizar los componentes individuales de los estadísticos de resumen
  2. Analizar otras medidas que informen sobre la distancia entre los valores de la Y muestral y la Y predicha por nuestro modelo.

Medidas globales de la bondad de ajuste

Estas medidas nos permiten tener una idea global sobre el ajuste del modelo, pero no nos permiten comprobar la presencia de valores extremos y de su influencia en el modelo desarrollado.

  1. Devianza del modelo. Es una medida del grado de diferencia entre las frecuencias observadas y predichas por el modelo de la variable dependiente, de forma que a mayor devianza, peor es el modelo. Su cálculo es -2 veces el logaritmo neperiano de la verosimilitud del modelo. La devianza nos puede orientar durante la etapa de selección del modelo final. Idealmente el modelo final, el mejor modelo, debería tener la menor devianza de los modelos analizados.

  2. Razón de verosimilitud. El estadístico que se usa es G, que es -2 veces el logaritmo neperiano del cociente entre la verosimilitud del modelo con el conjunto de p covariables introducidas en el mismo y la del modelo sólo con la constante (o más fácil la diferencia entre las devianzas del modelo saturado y el modelo sólo con la constante). Este estadístico sigue una distribución χ2 con p grados de libertad. Si este estadístico alcanza significación estadística indica un buen ajuste, quiere decir que uno o más de los coeficientes de las covariables introducidas en el modelo es distinto de 0. SPSS® ofrece este estadístico con el término "χ2 del modelo" (frente a "χ2 de mejora " que en SPSS® indica la razón de verosimilitud por la introducción de una covariable).

  3. χ2 residual de Pearson y devianza de residuos: Se trata de dos pruebas basadas en los residuos de nuestro modelo (se verá más adelante el concepto de residuo), que siguen una distribución χ2 con m-(p+1) grados de libertad. La ausencia de significación indica que el ajuste del modelo es bueno. No son aportadas por SPSS®.
    Ambos estadísticos asumen que las celdas de las tablas de contingencia formadas por todas las covariables cualitativas no tienen frecuencias 0 y en no más del 20% de ellas las frecuencias esperadas son menores de 5. Esta asunción debe haberse asegurado en el análisis univariado previo.

  4. Prueba de Hosmer-Lemeshow: Cuando los patrones de covariables siguen una distribución n-asintótica, la χ2 residual de Pearson y la devianza de resíduos no se ajustan bien a una distribución χ2. Por ello en general será más apropiada la prueba de Hosmer-Lemeshow, que agrupa los n sujetos en m patrones según criterios estadísticos. En concreto los sujetos se agrupan según los 9 deciles de las probabilidades esperadas; a partir de aquí puede construirse una tabla de contingencia de 10 x 2 de la que puede construirse un estadístico que seguirá una distribución χ2 con 8 grados de libertad. La ausencia de significación indica un buen ajuste del modelo.
    Es conveniente comprobar la tabla de contingencia de la que deriva el estadístico; la presencia de celdas con frecuencias esperadas menores de 5 aconseja colapsar filas para eliminar estas celdas de baja frecuencia esperada; esto implicaría además reducir proporcionalmente los grados de libertad de la χ2 empleada (1 por fila eliminada) y recalcular el estadístico.

  5. Tablas de clasificación: La ecuación del modelo ya diseñado nos proporciona una probabilidad P(Y=1|X), lo que nos permite predecir a partir de ella para cada sujeto un valor de y (Ypred), tal que si P(Y=1|X)≤0.5 entonces Ypred=0, y si P(Y=1|X)>0.5 entonces Ypred=1. Estos valores predichos de Y pueden enfrentarse a los valores reales de Y (Yobs) de la muestra, obteniendo una tabla de 2x2 de la que es posible determinar la tasa global de clasificaciones correctas, la sensibilidad, la especificidad, el valor predictivo positivo, el valor predictivo negativo y el llamado índice de Youden (sensibilidad + especificidad - 1); mayores valores del índice de Youden denotarán una mejor capacidad predictiva.
    Sin embargo, las tablas de clasificación y sus correspondientes índices son malos parámetros para comparar distintos modelos, pues sensibilidad y especificidad dependen, no del ajuste del modelo, sino de la distribución de probabilidades de la muestra sobre la que se calculan.
    Otra forma de medir la asociación entre Ypred e Yobs es mediante índices de correlación por rangos (Tau-a de Kendall, D de Sommers y gamma de Goodman-Kruskal).

  6. Área bajo la curva ROC: Una curva ROC enfrenta en un sistema de ejes la sensibilidad (en el eje y), al complementario de la especificidad (en el eje x). El procedimiento consiste en determinar las correspondientes tablas de clasificación de puntos de corte de P(Y=1|X) crecientes (0.1, 0.2, … , 0.8, 0.9, 1), y determinar a partir de ellas las correspondientes sensibilidades y especificidades.
    Si estuviésemos interesados en el punto de corte óptimo para predecir Y, es decir, el punto de corte que ofreciera mayor sensibilidad y especificidad, recurriríamos al análisis gráfico de la curva, seleccionando como punto de corte aquél que correspondiera con el punto de inflexión de la curva ROC. Otra forma sería analizar una gráfica en la que se representaran para cada punto de corte (en el eje x) su sensibilidad y especificidad (en el eje y); el punto de corte óptimo coincidiría con aquél en el que se cruzaran las dos curvas.
    Diferentes modelos nos ofrecerán diferentes curvas ROC. La comparación entre modelos respecto a la capacidad predictiva de los mismos puede hacerse comparando la forma de las curvas y el área bajo las mismas; las mejores curvas serán aquellas con área más próxima a la unidad. Como regla general, un área de 0.5 implica ausencia de discriminación; entre 0.7 y 0.79 es una discriminación aceptable; entre 0.8 y 0.89 es excelente; 0.9 ó superior es una discriminación excepcional.
    El área bajo la curva suele estar implementada en los paquetes estadísticos más usados, pero es fácil de calcular de la siguiente forma:
    Fórmula para el cálculo del área bajo la curva ROC
    Ecuación 10


    donde UMW es el estadístico U de Mann-Whitney y n0 y n1 son el número de sujetos con y=0 e y=1.
    Es interesante resaltar que un modelo puede tener una mala bondad de ajuste dada por los estadísticos vistos anteriormente, pero tener una buena capacidad de discriminación. Y viceversa, modelos con una buena bondad de ajuste pueden ser malos predictores.

  7. Diversas R2 y pseudo-R2: Son estadísticos que pretenden simular la función que tiene R2 en la regresión lineal múltiple, por lo que su valor pretende expresar la cantidad de variabilidad (esto es, de varianza) que es explicada por el modelo; a mayor valor de R2 mejor sería el modelo. No obstante no se recomienda en general su uso para analizar la bondad de ajuste del modelo. Pero sí podrían ser de utilidad para la comparación de modelos durante la etapa de selección del mejor modelo y para el análisis de multicolinealidad. La de interpretación más directa sería la R2 de Nagelkerke, que puede tomar valores entre 0 y 1, y por tanto vendría a valorar el porcentaje de variabilidad explicado por nuestro modelo.

Diagnósticos de la regresión

Se trata de detectar observaciones que potencialmente puedan ocasionar un impacto importante en el modelo por ser atípicos o demasiado influyentes (outliers), de forma que las estimaciones del modelo se encuentren desviadas. El interés por detectar estas observaciones consiste en el impacto en sí en el modelo y también en que pueden corresponder a errores de introducción de datos o a casos extremos que puedan ser de interés para su estudio individualizado. Cuando detectemos valores/sujetos extremos debríamos eliminarlos temporalmente y recalcular el modelo final sin ellos, con lo que obtendríamos un ajuste más adecuado y estimaciones más correctas de los coeficientes de regresión.

Medida de influencia (o leverage, estadístico h): Es una medida de cómo valores individuales pueden potencialmente afectar los resultados del modelo. Representa, para cada sujeto de la muestra, la distancia del valor conjunto de las covariables para dicho sujeto respecto al valor medio de dichas covariables en el conjunto de todos los sujetos de la muestra. Valores elevados de h pueden significar un distanciamiento respecto de la media esperada de P(Y=1) para un determinado patrón de covariables. El valor de h para cada sujeto debe ser comparado con el h medio. No todos los paquetes estadísticos realizan igual el cálculo de h, de forma que mientras unos tienen en cuenta el agrupamiento en patrones de covariables (Stata®), otros no lo hacen (SAS®, SPSS®), lo que tendremos que tener en cuenta a la hora de interpretar los resultados (el valor dado será h/m, siendo m el número de sujetos en el patrón de covariables). En cualquier caso, un valor mayor de 2 x p/n en SPSS (siendo p el número de covariables y n el tamaño muestral), se considera de elevada influencia.
Sin embargo, una representación de la influencia respecto a la probabilidad estimada nos permite ver que se trata siempre de una curva con forma de M, tal que valores de probabilidad estimada por debajo de 0.1 o por encima de 0.9 es esperable que tengan siempre valores de influencia tendentes a 0. Esto quiere decir que, en la práctica, sólo los valores de influencia correspondientes a probabilidades estimadas entre 0.1 y 0.9 pueden darnos una idea de distanciamiento o influencia. SPSS nos permite guardar los valores de h.

Medida del efecto de eliminar determinados patrones de covariables (o sujetos de la muestra): Se valora por el incremento (positivo o negativo), de determinados estadísticos o estimaciones (χ2 residual de Pearson, la devianza residual, coeficientes de regresión estandarizados), como consecuencia de la eliminación de un patrón de covariables (o de un sujeto de la muestra). Nos permiten detectar patrones de covariables (o sujetos) pobremente ajustados por el modelo (valores grandes de Δχ2 y/o ΔD), o con gran influencia sobre las estimaciones de los coeficientes (Δβ).
SPSS ofrece una distancia de Cook (normalmente aplicada a la regresión lineal múltiple), adaptada a la regresión logística (conceptualmente similar a Δβ). Sin embargo no ofrece ni la devianza residual ni la χ2 residual de Pearson. Si que queremos sus valores tendremos que calcularlos a partir de los residuos correspondientes; pero tenemos que tener en cuenta que SPSS también aquí nos ofrece unos residuos en los que no se tienen en cuanta patrones de covarianza, lo que implica que, por ejemplo en el caso de los residuos de Pearson (en SPSS residuo normalizado), si y=0 el valor ofrecido será inversamente proporcional a m, el número de sujetos que pertenecen a dicho patrón (el valor real saldría de multiplicarlo por -sqrt(m)), y si y=1 nos ofrecerá un valor directamente proporcional al número de sujetos que pertenecen a dicho patrón (el valor real saldría de multiplicarlo por el resultado del cociente (1 - m · Pest )/((1 - Pest) · sqrt(m))). Este problema sólo será realmente serio y nos obligará a realizar manualmente los correspondientes residuales cuando el número de patrones de coavariables es muy inferior al tamaño muestral.
Δβ o distancias de Cook superiores a 1, así como Δχ2 o ΔD superiores a 3.84 (p<0.05 para una χ2 con 1 grado de libertad), indican importante influencia.
Δχ2 suele proporcional valores mayores que ΔD, permitiendo visualizar mejor los sujetos con gran influencia. Por otra parte, al igual que ocurre con h, los valores de Δχ2, ΔD e Δβ es esperable a priori que tomen valores diferentes según la Pest(y=1|X) para cada sujeto, de la siguiente forma:

Comportamiento esperable de los estadísticos de diagnóstico
Figura 14

Δβ y h presentan distribuciones con forma de M, con la zona central más o menos marcada, mientras que, según las circunstancias, la distribución de Δχ2 puede tener forma de U, de M o de U invertida. Por este motivo es importante considerar tanto el dato analítico (el valor del estadístico que empleemos), como el patrón gráfico, y comparar varios gráficos entre sí. Hosmer y Lemeshow recomiendan examinar, siempre que se pueda, los siguientes gráficos:

Una tabla similar a la siguiente podría ser de ayuda:

Ejemplo de tabla para analizar la eliminación de un patrón de covariables
Variable Todos Patrón de covariables eliminado
- P1 - P2 - Ptodos
Constante β0 dato Δβ0 dato Δβ0 Δβ0
... ... ... ... ... ... ...
Edad βj dato Δβj dato Δβj Δβj
yobs dato dato
Pest(y=1|X) estimación estimación
yest estimación estimación
Δβ estimación estimación
Δχ2 estimación estimación
ΔD estimación estimación
h estimación estimación
Modelo D estimación estimación estimación estimación
χ2 estimación estimación estimación estimación


Podemos valorar de esta forma qué ocurre al eliminar unos patrones de variables concretos (-P1 y -P2), en comparación con la no eliminación de ningún patrón ("Todos"), y la eliminación de ambos patrones a la vez (-Ptodos). Podemos comprobar por qué pueden ser considerados sujetos atípicos (vemos el dato tabulado), como repercute porcentualmente la eliminación en cada uno de los coeficiente de regresión, observar si es igual o contraria la clasificación del sujeto (yobs frente a yest según el valor de Pest).

Análisis de residuos: Se denominan residuos brutos a las diferencias entre el dato observado de la variable dependiente y su valor predicho para cada sujeto. A partir de este valor, podemos obtener diferentes valores según determinadas transformaciones que ayudan mejor o peor a localizar valores extremos. Así tenemos:

  1. Residuos estandarizados, normalizados o de Pearson: Es el cociente entre el residuo bruto y la raíz cuadrada del producto Pest x (1 - Pest). Valores mayores de 1.96 (p<0.05) ó 2.35 (p<0.01) se corresponden con sujetos extremos
  2. Residuos studentizados: Valores mayores de 1.96 (p<0.05) ó 2.58 (p<0.01) indican sujetos extremos
  3. Residuos logit: Se trata del cociente entre el residuo bruto y el producto Pest x (1 - Pest).

También contamos con los residuos de la devianza.
Para analizar los residuos estandarizados debemos conocer su media, mediana, desviación típica, asimetría curtosis, etc, lo que nos permitirá conocer la distribución de los mismos. Al igual que en el apartado anterior, interesa realizar tanto una valoración analítica como gráfica. Gráficamente podemos hacer:

  1. Diagramas de cajas de Yobs (0 y 1) frente a residuos

    Diagrama de cajas de Y frente a residuos
    Figura 15

  2. Gráficos de dispersión de residuos frente al logit: pueden detectarse valores extremos.

    Residuos frente a logit
    Figura 16: Se observa un patrón de covariables con rediuo mayor de 4

    Residuos frente a logit
    Figura 17: Al observar los residuos de la devianza el valor atípico de la Figura 6 no es tan visible
  3. Gráficos de dispersión de residuos frente a covariables del modelo: pueden detectarse valores aislados de la covariable con posible elevada influencia
    Residuos frente a covariable cuantitativa
    Figura 18: Residuales de Pearson frente a edad. Se observa un patrón atípico con sujetos de unos 25 años.

    Residuos frente a covariable cualitativa
    Figura 19: Residuales de Pearson frente a una covariable cualitativa con 3 categorías. En la categoría 2 se observa un patrón atípico.

 

Selección automatizada de variables

Sugiero al lector que refresque todo lo referente a la introducción sobre la selección de variables del modelo. Fundamentalmente quiero recordar que no hay modelos perfectos, ya que cada modelo diseñado es una descripción particular de la realidad, y al menos en teoría, podríamos tener más de un modelo con verosimilitudes, ajuste y capacidad predictiva adecuadas. Siempre debe guiarnos el sentido común, siendo el mejor modelo el que, a juicio del investigador, mejor describe o explica el problema que se investiga. Dicho esto, y teniendo presentes los problemas que pudiera causarnos no controlar personalmente la selección del mejor modelo, sino dejarlo en manos de un algoritmo, hay que decir que la selección automatizada del modelo puede ahorrarnos gran cantidad de tiempo si lo usamos con carácter exploratorio.

Podemos utilizar cuatro algoritmos de selección de variables:

Matemáticamente, la verosimilitud aumenta conforme aumenta el número de covariables del modelo, cosa factible si el tamaño muestral se incrementa a la par. Sin embargo los modelos mejor interpretables son los más simples. Por ello hay estadísticos que nos permiten comparar modelos penalizando aquéllos con un mayor número de covariables:

Según estos estadísticos, son mejores los modelos con menores AIC y BIC.

El método de selección y estadístico usados por cada paquete estadístico es diferente, y convendría que estuviéramos familiarizados con el método de selección y el estadístico empleado para ello usados por el paquete estadístico que usemos.

Anexos:

Indices de correlación por rangos:

 

Fco. Javier Caballero Granado
Servicio de Medicina Interna
Hospital Punta de Europa
Algeciras, Cádiz 


 
 Usted es el visitante 
 Usuarios activos 
Archivo RSS 2.0
 

Accesibilidad
Certificados
 
 Requerimientos
 
Avisos legales: Uso, privacidad y seguridad
Última actualización: 30/01/10