Incidencia de Cáncer de Pulmón en Dinamarca.

Se nos proporciona una base de datos, con los casos de cáncer de pulmón en personas desde los 40 años a los 74, en cuatro ciudades de Dinamarca de 1968 a 1971. La edad de los pacientes está categorizada en 5 grupos, de 40 a 54, 55 a 59, 60 a 64, 65 a 69 y 70 a 74.

Nuestro objetivo es ver si la probabilidad de presentar cáncer de pulmón aumenta al también aumentar la edad. Antes que nada veamos que no podemos hablar de los casos totales, pues no todas estas ciudades tienen la misma población, por lo que no sería justo comparar los valores absolutos. Por esta razón vamos a hablar de tasas de incidencia, dividiendo los casos entre la población.

Ya que tenemos las tasas de incidencia, veamos la siguiente gráfica:

Podemos ver en general un crecimiento de las tasas de incidencia respecto a la edad. Tanto en Fredericia como en Kolding, podemos notar un crecimiento constante, pero en Vejle y Horsens si vemos un decrecimiento en cierta edad, para después volver a crecer. Esto se puede deber a muchas causas, como cuidados personales y de la salud. Pero en general si vemos menor incidencia para las edades 40 a 54, que de 70 a 74.

Para el análisis de este caso primero veremos un modelo donde incluyamos las covariables Age y City, así como sus interacciones:

modeloP1 <- glm(Cases ~ offset(logPop) + Age*City, family = poisson(link = "log"), data = datos) 

Este modelo tiene muchas interacciones pues las covariables son categóricas, entonces tenemos un modelo muy complejo, por lo que también vamos a ver un modelo mas simple que solamente incluya a la covariable Age:

modeloP2 <-glm(Cases ~ offset(logPop) + Age, family = poisson(link = "log"), data = datos)

Comparamos los dos modelos usando AIC, y el resultado de esta nos indica que podemos usar el modelo más simple, es decir, el modelo que solo contiene a la covariable Age.

Ahora, este modelo que tenemos es usando la distribución Poisson con liga logarítmica, pero ajustemos el modelo usando la distribución binomial negativa con liga logarítmica.

Comparamos ambos modelos usando AIC, y decidimos usar el modelo poisson.

Ya que tenemos un modelo que determinamos que hasta ahorita es el “mejor” para nuestro análisis, verificamos los supuestos, y vemos que si se cumplen, por lo que podemos seguir trabajando con este.

Ahora, usando el modelo escogido, es decir el que tiene distribución Poisson, vamos a calcular los intervalos de confianza simultáneos y vamos a observarlos sobre nuestra primera gráfica:

Al ver nuestros intervalos podemos notar que hay unos significativamente más grandes que otros, en específico nuestro intervalo de confianza de 40 a 54 años es mucho más pequeño que cualquier otro. Esto podría tener varias razones, una de ellas podría ser el tamaño de la muestra, ya que es bastante pequeña, pero también nos podría indicar que en los intervalos más grandes hay menor precisión en la estimación y en los más cortos hay mayor certeza sobre el valor estimado. En general seguimos viendo una tendencia creciente, podemos indicar que comparando el grupo de 40 a 54 contra todos los demás, a mayor edad si hay mayor incidencia de cáncer de pulmón, sin embargo no podemos afirmar lo mismo para los demás grupos de edad, pues nuestros intervalos se traslapan mucho, por lo que las diferencias que observamos podrían no ser tan significativas.

Ya que el usar a Age como categórica podría dificultar nuestra interpretación, lo que haremos será crear una nueva variable llamada Ageprima, usando el punto medio de cada intervalo de edad, y así usarla como una coovariable continua y no categórica. Con esta nueva variable ajustamos dos nuevos modelos, uno poisson y otro binomial negativo, y tenemos el siguiente modelo:

\(log(\mu) = \beta_0 + \beta_1 * ageprima + log(Pop)\)

Consideramos la opción de incluir a Ageprima^2 en nuestro modelo y nuestro nuevo modelo nos quedaría de la siguiente forma:

\(log(\mu) = \beta_0 + \beta_1 * ageprima + \beta_2 * ageprima^2 + log(Pop)\)

Comparamos nuestros 4 modelos, primero el poisson complejo contra el más simple usando anova, luego lo mismo con el binomial negativo, para ambos llegamos a la conclusión de que no hay evidencia suficiente que nos diga que el modelo simple es plausible, por lo que nos quedamos con los que incluyen a ageprima^2. Comparamos estos 2 modelos restantes, el poisson y el binomial negativo, y por AIC nos decidimos por usar el modelo poisson, que se ve de la siguiente manera:

modeloP3cuad <- glm(Cases ~ offset(logPop) + ageprima + I(ageprima**2), family = poisson(link = "log"), data = datos) 

Lo que queremos ver es si la función es creciente, para esto tenemos que ver si la derivada de nuestro modelo es mayor a 0 en nuestra malla de edades. Por lo que hacemos pruebas de hipótesis simultaneas donde comparamos:

\(H_0: Derivada \leq 0 \quad vs. \quad H_a: Derivada > 0\)

es decir

\(H_0: \beta_1+2*\beta_2*ageprima \leq 0 \ vs. \ H_a: \beta_1+2*\beta_2*ageprima > 0\)

Los resultados que nos regresa son algo interesantes, pues nuestra hipótesis se rechaza desde la edad 40 hasta la edad 69, es decir en el intervalo de edades de 40 a 69 años no hay suficiente evidencia para rechazar que la derivada es mayor a 0, por lo que podemos decir que nuestra función es creciente dentro de esas edades, sin embargo de 70 a 74 no podemos decir lo mismo, pues nuestra prueba de hipótesis se rechaza y no hay suficiente evidencia para rechazar que no es creciente en este intervalo.

Por todo esto, con los datos proporcionados, podemos llegar a la conclusión que a mayor edad si hay mayor incidencia de cáncer de pulmón de la edad de 40 años a 69 años. Esto podría ser así por varias circunstancias, por ejemplo, el cáncer de pulmón normalmente se da tras años de exposición a factores que afectan a los pulmones, por lo que entre más tiempo de exposición tengas a estos factores más será la probabilidad de contraer cáncer, o simplemente porque entre alguien tenga mayor edad, su sistema inmunológico se vuelve menos eficiente, y es más fácil que estos factores los afecten.

En la siguiente gráfica podemos observar nuestra conclusión, la cual es que, en efecto, a mayor edad la tasa de incidencia de cáncer de pulmón es mayor en un intervalo de 40 a 69 años: