Sociedad Andaluza de Enfermedades Infecciosas
Logo de la Sociedad Andaluza de Enfermedades Infecciosas

Modelos de regresión logística incondicional (III)

Parte II

 

Indice

  1. Interpretación del modelo de regresión
  2. Interacción y confusión

Interpretación del modelo

Una vez hemos conseguido el modelo final y hemos analizado su ajuste, la posible multicolinealidad, etc, finalmente dicho modelo debe podernos expresar algo en relación con la pregunta que motivó el estudio acerca de la variable dependiente. Normalmente son de interés los coeficientes de las covariables, siendo la constante de poco interés. Los coeficientes de las covariables representan la tasa de cambio del logit de la variable dependiente por unidad de las respectivas covariables. Por lo que la odds de la variable dependiente será eβ por cada unidad de la covariable. Es decir, eβ es una odds ratio de la variable dependiente.

Cuando la covariable es cualitativa dicotómica eβ representa la odds ratio de la presencia de la covariable frente a su ausencia. Si la variable dependiente es enfermar con EPOC y la covariable el tabaquismo, eβ indicará cuántas veces es más probable que enfermen los fumadores respecto a los no fumadores.

Logit frente a variable cualitativa
Figura 1

Si la covariable es cualitativa con más de dos categorías sabemos que debemos diseñar varias variables ficticias dicotómicas. Como de una covariable de este tipo con k categorías resultarán k-1 variables de diseño, tras el ajuste del modelo dispondremos de k-1 odds ratios respecto a la categoría de referencia, siendo 1 la odds ratio de la categoría de referencia.

Por último, si la covariable es cuantitativa, eβ representa en cuánto se incrementa la odds de la variable dependiente por unidad de cambio de la covariable.

Logit frente a variable cuantitativa
Figura 2

Dicho todo lo anterior, hay que entender que el modelo diseñado normalmente contendrá más de una covariable, por lo que eβ hay que entenderlo en el contexto del conjunto de todas esas covariables. Dicho de otro modo, eβ nos informa de cómo influye una covariable determinada sobre la variable dependiente teniendo en cuenta que se está valorando esta relación conjuntamente con la influencia de las restantes covariables. Y la fuerza de dicha influencia no será la misma dependiendo del conjunto de las otras covariables que la acompañen en el modelo.

En la Figura 3 vemos un ejemplo de lo dicho: En el primer modelo se valora la influencia de la edad sobre la aparición de una determinada enfermedad, siendo su coeficiente de regresión 0.018, lo que supone una odds ratio asociada de 1.02 (cada año aumenta la odds de enfermar un 2%); en el segundo modelo se valoran la edad y otras covariables, y se observa que no sólo es que se ha modificado el coeficiente de regresión para la edad (ahora la odds ratio es 1.04), sino que ha alcanzado significación en este nuevo contexto.

Ejemplo de modificación del efecto de una covariable por la presencia de otras covariables
Figura 3

Al igual que puede calcularse el intervalo de confianza para la odds ratio correspondiente a cada covariable, también podemos calcular dicho intervalo de confianza para la variable dependiente. En el siguiente ejemplo se enfrentan el logit de la odds de enfermar frente a la edad (línea azul). Como se ve, la edad mantiene una relación lineal con el logit de enfermar (logit de la odds predicha). En rojo y rosa vemos las líneas correspondientes a los límites superior e inferior del intervalo de confianza al 95% del logit para cada sujeto.

Logit con su intervalo de confianza para una variable determinada

Figura 4

Este cálculo es fácil de entender si bien nos exige calcular la varianza del logit, que viene dada por

Cálculo del intervalo de confianza para el logit

Figura 5

En ocasiones podemos querer facilitar además de la OR, qué incremento de P(y=1|x) implica una unidad de cambio de la covariable. Conocida la probabilidad media de que y=1, por ejemplo 20%, podemos convertirla en su correspondiente odds de la forma 0.20/0.80 = 0.25. Si la odds ratio estimada en nuestro modelo para la variable x es eβ=1.2, entonces

Pestimada(y=1|x=1)/(1-Pestimada(y=1|x=1))=1.2 · 0.25 = 0.3

luego Pestimada(y=1|x=1) = 0.3/1.3 = 0.23. Es decir, el incremento de una unidad en x hace elevar la P(y=1|x=1) desde el 20% (la media) al 23%, o lo que es lo mismo, produce un incremento del 15%.

Interacción y confusión

Dijimos al inicio del documento que los modelos de regresión logística podían tener dos objetivos: (i) prediccion de una variable dependiente dadas unas covariables; (ii) análisis de la relación entre una variable dependiente y varias covariables. Cuando el objetivo primordial del estudio es el segundo, cobra interés el análisis de la existencia o no de interacción y confusión para "ajustar" más adecuandamente dicha relación, es decir, el valor de las odds ratios; tiene en ese caso menos importancia el ajuste del modelo a la muestra o que éste sea el más reducido que explique el comportamiento de la variable dependiente.

Se denomina factor de confusión a una variable que se encuentra relacionada tanto con la variable dependiente como con otra covariable que es considerada factor de riesgo, y que además no se encuentre en la cadena causal entre este factor de riesgo y la variable dependiente. Y se le llama así pues a la hora de valorar la relación entre variable dependiente y factor de riesgo puede generar desconcierto (confusión) sobre el valor real del factor de riesgo como tal.

Por el contrario cuando existe interacción, el factor de riesgo y la covariable son independientes, pero el efecto del factor de riesgo sobre la variable dependiente es diferente según el valor de dicha covariable (en este caso llamada modificador del efecto). En ocasiones esta diferenciación no es nítida, pudiendo existir confusión e interacción al mismo tiempo.

La Figura 6 nos muestra un claro ejemplo sobre la existencia o no de interacción pura: Tenemos una variable dependiente y, y dos covariables, x1 y x2; la imagen de la izquierda muestra que la relación entre x1 e y no varía según los valores de x2 (la pendiente se mantiene constante, o lo que es igual, para cada valor de x1 existe equidistancia entre las dos rectas). En este caso se dice que no hay interacción. En cambio en la imagen de la derecha sí que hay interacción, ya que la relación entre x1 e y sí que se ve modificada según qué valor tome x2.

Ejemplo de ausencia de interacciónEjemplo de interacción
Figura 6

El modelo correspondiente a la segunda imagen (la de la derecha), debería contener no sólo x1 y x2, sino un tercer término (de interacción), que expresase la interacción entre las dos covariables, es decir, x1 · x2, de la forma:

logit(y) = β1 · x1 + β2 · x2 + β3 · x1 · x2

De esta forma, cuando existe interacción, la odds ratio de la covariable x1 no es constante (eβ1), sino que depende del valor que tome x2 (e(β1+β3·x2)). Si x2 es 0, la odds ratio será eβ1, pero si x2 es 1, la odds ratio será e(β1+β3·x2).

Una vez estudiada la posible existencia de interacción pasaremos a intentar descartar la presencia de confusión. Para ello se recomienda que en el modelo se incluyan todos aquellos factores que, en base a los conocimientos que se tengan sobre lo estudiado, puedan tratarse de confusores (independientemente de su significación, y teniendo cuidado de no introducir covariables que expresen pasos intermedios en la cadena entre un factor de riesgo y la variable dependiente). De esta forma se cuantificará más fielmente la odds ratio de los factores de riesgo (las odds ratios quedarán "ajustadas" por la presencia de los confusores), importando menos la contribución de las variables al ajuste del modelo (la significación); por tanto en estos casos los procedimientos automáticos de selección de variables son cuestionables.

Como se ve, la interacción es un fenómeno estadístico, mientras que confusión es un fenómeno epidemiológico. La primera responde a una modelización matemática que "ajuste" bien en nuestros datos, mientras que para reconocer la segunda se requiere el conocimiento previo del problema estudiado.

El control de la confusión debe plantearse ya en el diseño del estudio, mediante tres técnicas:

Una vez eleborado el estudio, puede intentarse el control de confusores en el análisis mediante otras tres técnicas:

Analizaremos un modelo univariante mediante tablas de contingencia para entender los conceptos de interacción y confusión. Esto nos ayudará posteriormente a plantear el diseño del modelo final con los posibles factores de interacción y de confusión.

Detectaremos la existencia de interacción o confusión en el análisis univariado por la existencia de diferencia suficiente (>10-20%), entre la medida de asociación cruda entre el factor de riesgo (R) y la variable dependiente (E), y dicha medida de asociación ajustada por el factor de confusión (C).

En estudios de seguimiento, el riesgo relativo crudo (RRcRE) será sufientemente diferente de los calculados para los diferentes estratos según C (RRaRE|+C y RRaRE|-C).

Veamos primero una situación en la que sólo se produce confusión. Esta circunstancia la encontraremos cuando no encontremos una diferencia suficientemente importante entre RRaRE|+C y RRaRE|-C. En la siguiente tabla se muestran algunos ejemplos:

Tabla 1: Diferentes situaciones que implican confusión y ausencia de interacción
RRcRE RRaRE|+C RRaRE|-C RRcRC RRaEC|-R RRaEC|+R
5 1 1 .02 30 10.2 10.5
1 2 .03 1.99 0.059 8.3
2 0.72 0.7 5 10 10

Pero junto a la condición dada anteriormente, se han incluido otras tres columnas que nos revelan la relación que pueda existir entre R y C por una parte, y E y C en función de R por la otra. Confirmaremos que existe confusión en ausencia de interacción cuando se cumplen las siguientes dos condiciones a la par: RRcRC ≠ 1 y RRaEC|-R ≠ 1. Independientemente, además RRaEC|-R ∼ RRaEC|+R si existe uniformidad y ausencia de interacción. Esta condición nos aclara que C mantiene una relación incondicional con el factor de riesgo R, y con la variable dependiente E demosrada en ausencia del factor de riesgo R.

Supongamos ahora que RRcRE = 4.75, y que los correspondientes RRaRE|+C y RRaRE|-C son respectivamente 1 y 2. En este caso no ajustar por C nos llevaría a un sesgo hacia la derecha, dándole gran importancia a la influencia de R sobre E. Pero además vemos que RRaRE|+C y RRaRE|-C son suficientemente diferentes entre sí, lo que nos demuestra la inexistencia de uniformidad entre los estratos de C para la relación R→E. En este caso por tanto existirá además de confusión, interacción, y esa interacción será tanto más importante cuanta mayor sea la diferencia entre RRaRE|+C y RRaRE|-C. Circunstancias similares pueden verse en la siguiente tabla:

Tabla 2: Diferentes situaciones que implican confusión e interacción
RRc RRaRE|+C RRaRE|-C RRcRC RRaEC|-R RRaEC|+R
4.75 1 2 70 8 4
1 2 3 0.2 6 3
2 0.90 0.45 4.5 10 20

Al igual que en los casos anteriores se cumplen a la vez que RRcRC ≠ 1 y RRaEC|-R ≠ 1. Pero en este caso no encontramos uniformidad entre RRaEC|-R y RRaEC|+R.

En estudios caso-control (no pareados para el tema que nos ocupa de regresión logística incondicional), la condición necesaria para concluir que existe confusión es que se cumpla a vez que ORaRC|-E ≠ 1 y que ORaEC|-R ≠ 1. Además existirá uniformidad si ORaRC|-E = ORaRC|+E y ORaEC|-R = ORaEC|+R.

Volvamos al modelo con múltiples variables. En este caso se trataría de comprobar si un conjunto de factores actúan como confusores (confusión de conjunto). Al igual que en el caso univariado, diremos que existe confusión si encontramos que existe una diferencia suficientemente importante entre la medida cruda de la relación R→E y la medida ajustada por múltiples factores de confusión (ORcRE ≠ ORaRE|C1,...,Cn). Este análisis puede realizarse mediante estratificación (con la prueba de Mantel-Haenszel) o, para el caso que nos ocupa, mediante técnicas de análisis multivariado.

Supongamos que tenemos una covariable R considerada factor de riesgo, y variables C ∈ {C1 ... Cn} que se sabe que podrían actuar como confusores. La modelización puede ser más o menos compleja, de forma que llamaremos V ∈ {V1 ... Vn} a funciones de C (desde el caso más simple, Ci, a otros más complejos como Ci² o Ci·Cj), que entrarán en el modelo como efectos principales (como si se tratara de otros factores de riesgo); y por último llamaremos W ∈ {W1 ... Wn} igualmente a funciones de C que entrarán en el modelo como interacciones con R. La recomendación para controlar factores de confusión es usar

logit = β0 + β1·R + Σ ωi·Vi + R · Σ δi·Wi

siendo ω y δ los coeficientes de regresión para V y W [Kleinbaum]. Es decir, y tal como se dijo anteriormente, que una vez hecho el modelo final y buscadas las interacciones, se incluyan los posibles confusores con o sin interacciones con los efectos principales.

Algunos de estos nuevos términos deberemos mantenerlos en el modelo aún en ausencia de significación ya que su eliminación no mejorará sustancialmente el ajuste pero sí modificará los coeficientes de los efectos principales (y por tanto las odds ratios), siendo difícil valorar su importancia. En este sentido, puede recurrirse a valorar la ganancia en precisión de las estimaciones del β del factor de riesgo; para ello usaremos el recíproco de la amplitud del intervalo de confianza de la OR ajustada del factor de riesgo (recordemos, eβ) derivada de la inclusión en el modelo de cada término V y W. Pongamos un ejemplo (datos no reales):

Tabla 3: Influencia del tabaco (factor de riesgo) sobre el cancer de pulmón (variable dependiente), controlado por la edad y la ingesta de alcohol (posibles confusores)
Modelo Efecto
principal
Vi OR IC95% Precisión
1 Tabaco - 2.9 1.7 - 4.5 0.36
2 " Edad (E) 2.2 1.23 - 3.94 0.37
3 " Alcohol (A) 2.5 1.37 - 4.38 0.33
4 " E, A 1.85 1.03 - 3.59 0.39
5 " E, A, E x A 1.9 1.04 - 3.6 0.39

Se observa que hay una modificación de la odds ratio cruda de tabaco si en el modelo entran los posibles términos de confusión (Vi), ya sea de forma individual (modelos 2 y 3, con modificaciones del 25% y 14% respectivamente de las OR ajustadas) o al tiempo (modelos 4 y 5, con una modificación del 34% de la OR ajustada). El modelo 4 nos ofrece una precisión mayor que los modelos 1 (sin confusores) a 2-3 (con alguno de los confusores, si bien de los dos, la edad es un mejor candidato a controlar pues aporta mayor precisión que la ingesta de alcohol). Por otra parte, de optar por controlar ambos términos, nos quedaríamos con el modelo 4, que aporta igual precisión que el modelo 5 y es más reducido.

Otra aproximación al problema es la creación de un índice resumen de confusores (IRC) [Kleinbaum]. Se trata de generar una nueva variable en la que se almacenará una puntuación de confusión para cada sujeto, derivada de:

Indice resumen de confusores

Figura 7

siendo x el factor de riesgo, Vi los confusores y δi sus correspondientes coeficientes de regresión. Puede asumirse a continuación la nueva variable como el único confusor que debe controlarse, para luego seguir uno de los siguientes métodos:

Ambos métodos no tienen por qué ofrecer resultados idénticos. Se haya realizado uno u otro método, podrán generarse las 5 correspondientes tablas de contingencia con sus χ2 y OR, así como la χ2 de Mantel-Haenszel y ORajustada.

Con sus ventajas e inconvenientes, estos métodos pretenden no tener necesidad de estratificar por múltiples posibles confusores para poder valorar convenientemente la relación entre el factor de riesgo (x) y la variable dependiente (Y).

 

Fco. Javier Caballero Granado
Servicio de Medicina Interna
Hospital Punta de Europa
Algeciras, Cádiz


 
 Usted es el visitante 
 Usuarios activos 
Archivo RSS 2.0
 

Accesibilidad
Certificados
 
 Requerimientos
 
Avisos legales: Uso, privacidad y seguridad
Última actualización: 30/01/10