Con estos valores se puede interpretar que utilizando el modelo , se obtienen los siguientes resultados:
-
Porcentaje de aciertos: 99.026719%
-
Porcentaje de error: 0.973281%
Elección del modelo a utilizar
Basado en los resultados anteriores, puedo concluir que mis predicciones eran ciertas, ya que al tener un porcentaje de aciertos del 99%, los tres modelos son muy exactos y se podría utilizar cualquiera, sin embargo utilizaré el más exacto:
Tabla 2 comparando los modelos lineal, logarítmico y exponencial
Comparando el porcentaje de aciertos entre los tres modelos, podemos observar que el porcentaje de aciertos del lineal es superior al del logarítmico y al del exponencial por un estrecho margen de 0.02 respecto al logarítmico, que a su vez es superior por .42 al exponencial; lo que significa que el modelo lineal es el más certero y por lo tanto será el modelo que utilizaré.
Desarrollo de la función modelo
Ahora compararé la función con la gráfica original resultante de los datos dados por la Tabla 1.
Tabla 3 de datos de Función original, Función y=ax+b y diferencia entre cada punto
Curva de población vs modelo
Como podemos observar en la gráfica “Curva de población vs modelo ”, el modelo se apega bastante a la función original del crecimiento demográfico en China. Se puede notar que la parte en la que más marcada está la diferencia entre ambas funciones es en los puntos 1, 3 y 4, en los que la diferencia es de 28, 24 y 29 respectivamente. Esta parte es la que toma un comportamiento similar a una curva exponencial, y si hubiera graficado en lugar de la lineal una exponencial, ésta se hubiera apegado bastante a la función original, pues ambas tenían un 99% de aciertos.
Considero que la elección del modelo que hice fue pertinente al tener menor probabilidad de error, y es por lo tanto es el modelo que más se ajusta a los puntos de la gráfica original.
Modelo del investigador
Un investigador sugiere que la población, P, correspondiente al tiempo t, se puede modelizar mediante:
, donde K, L y M don parámetros.
Este modelo propuesto por el investigador es muy similar a lo que se le conoce como función logística, que, como las funciones exponenciales, crecen rápidamente al inicio, pero por las restricciones o asíntotas, eventualmente van a crecer más lentamente acercándose pero nunca llegando a la asíntota. En el caso de la población, el límite se puede considerar el espacio que tiene el país, pues seguirá creciendo hasta tener un problema de sobrepoblación, como hoy en día encara China; es por eso que el gobierno tomó medidas y limitó a un hijo por familia, reduciendo así drásticamente el crecimiento de la función.
Las funciones logísticas tienen una característica forma de “S” al ser graficadas, sin embargo en la función original graficada de los datos de la Tabla 1, no se observa este comportamiento plenamente. Se puede observar que el crecimiento comienza a decrecer en los últimos tres periodos pero de una manera no tan marcada. Puedo asumir que si continuamos el estudio durante 15 años más, el ritmo de crecimiento decrecerá drásticamente adoptando la característica forma de “S” de las funciones logísticas, por lo que a futuro el modelo del investigador será el más acertado a utilizar.
La fórmula de la función logística es:
Si comparamos esta función con el modelo del investigador, nos podemos dar cuenta de que es exactamente la misma:
=
Asumiendo que K, L y M son constantes positivas, mientras más crece el término t, el término –Mt que aparece como exponente en el denominador de la fórmula, crece en sentido negativo. Como resultado de esto, el término e-Mt se vuelve cada vez más pequeño ya que al elevar cualquier número mayor a 1, como la constante de Euler, a una potencia negativa siempre da como resultado un pequeño número positivo. Es por lo mismo que el término Le-Mt se vuelve muy pequeño pero siempre positivo, y al sumarle 1, el denominador resultará en un número mayor que 1, pero que tiende a 1 conforme t crece.
Finalmente P(t), que es igual a K dividido entre este denominador, siempre será un número menor que K tendiendo a llegar K; por lo que se puede concluir que K representa el límite superior de la función, después del cual la función no puede crecer más.
Puedo deducir también que el parámetro M, definirá la pendiente, ya que si M es positiva, la función siempre crecerá, mientras que si M es negativa, la función decrecerá.
Por otro lado mientras más se acerca el tiempo t a 0, el término Le-Mt será un valor más cercano a L, por lo que el denominador será un valor cercano a 1+L. Esto da una explicación a la forma de “S” de las funciones logísticas, siendo 0 la otra asíntota.
Despejando K nos queda así:
Interpretando esta expresión, podemos decir que el límite superior K es 1+L veces mayor que el primer valor de la población en función del tiempo. En otras palabras, L es el número de veces que la población inicial debe crecer para alcanzar el límite superior K.
Ahora para darle valores a estos parámetros, utilizaré la función de Regresión logística de mi calculadora gráfica Casio CFX-9850GC Plus:
Tabla 4 de diferencia de valores entre función original y función logística
4. Gráfica comparando función logística con los datos originales
Este modelo se apega bastante a la gráfica de los datos originales, sin embargo se encuentra una diferencia mayor entre cada uno de sus puntos que en el modelo lineal; en la función logística, la máxima diferencia encontrada entre un mismo punto de las dos gráficas es de un valor absoluto aproximado a 33, mientras que en el modelo lineal es de 29.
Con estos datos sin un análisis más profundo, podríamos concluir que es más exacto el lineal, no obstante se está dejando de fuera un factor clave: en la regresión se nos devolvió un valor para K de 4228, determinando el límite superior que a la vez será la asíntota de la gráfica, y en la presente gráfica y debido a los datos con los que se cuentan, sólo se contempla hasta 1250 dentro de la gráfica. Esta es la razón por la cual no podemos apreciar la forma de “S” de la función logística, y a futuro va a ser más conveniente utilizar la función logística debido a que el ritmo de crecimiento va a decrecer rápidamente al acercarse a 4228, puntos en los que el modelo lineal no podrá ajustarse con exactitud a diferencia del modelo logístico.
Si tomamos las implicaciones respecto al crecimiento de la población de China a futuro, la función logística se apegará mucho más a la realidad, pues eventualmente llegará a un límite del cual ya no puede crecer más, por lo que el ritmo de crecimiento de población decrecerá exponencialmente dándonos así la peculiar forma de “S” de las funciones logísticas. En cambio si se aplicara el modelo lineal, al tratar de ajustar a los valores conforme se acercan al límite, provocaría que la función se mueva de lugar al ser una línea recta y así perderá la exactitud con la que se apega a los datos originalmente planteados.
Ajuste del modelo a futuro
Más adelante se nos da un nuevo set de datos que incluyen tendencias hasta 2008, por lo que proseguiré a comprobar cuál de los dos modelos se ajusta más a estos nuevos datos:
Tabla 5 de datos de tendencias demográficas en China desde 1983 hasta 2008
5. Gráfica de datos originales presentados en la segunda parte de la asignación
Modelo Lineal
El modelo lineal se ajustaría de la siguiente manera:
Tabla 6 comparando los nuevos datos con la función lineal
6. Gráfica de segundo set de datos vs función lineal
Como podemos apreciar en la gráfica anterior, el modelo lineal no se ajusta tan exactamente al nuevo set de datos como lo hizo con los primeros. A pesar de que la diferencia mayor en un punto es ligeramente menor a la diferencia encontrada en los primeros datos, se marca mucho más la diferencia con respecto a la curvatura de la función.
Modelo logístico
Para ajustar la función logística a los nuevos datos, es necesario volver a calcular los nuevos valores de K, L y M por medio de una regresión con la calculadora gráfica Casio CFX=9850GCPlus:
Tabla 7 comparando los nuevos datos con la función logística
7. Gráfica de segundo set de datos vs función logística
Análisis del grado de ajuste de los modelos
Para efectos de este set de datos el modelo que más se ajustó fue el modelo lineal, aunque por una diferencia pequeña que consistió en la mayor diferencia siendo del orden de 20 en el modelo lineal y de 52 en el modelo logístico.
Sin embargo me sigo apegando a que el modelo logístico será el más apropiado a futuro. Esto se debe a que como nos es imposible fijar un límite máximo de población para China, ya que esto dependerá y cambiará de acuerdo a diversos factores a futuro, se está tomando un valor de K ficticio o no tan exacto. Este valor fue encontrado por un método matemático que no toma en cuenta los diversos factores que podrían afectar este número, y al ser K del valor 4176.77959 millones no podemos apreciar realmente cómo la función va variando y tendiendo al límite superior. Si se logra definir una K real, esta será la más acertada; sin embargo para este particular set de números sin tomar en cuenta las implicaciones a futuro, es más exacto el modelo lineal
Modelo ajustado desde 1950 hasta 2008
Como explique en la sección anterior, si no podemos definir claramente el límite superior, el cual no va a estar tan cercano al rango de datos seleccionados para esta actividad, será mejor utilizar un modelo lineal si contemplamos únicamente este rango de datos. A futuro, reitero, sería más conveniente utilizar la función logística.
Sin embargo, trataré también de ejemplificar la función logística, calculando los nuevos valores de K, L, y M. Como ahora tenemos un rango mayor de datos, el valor de K va a ser un poco más cercano a la realidad, sin embargo, sin tomar en cuenta los factores no-matemáticos es imposible determinar K exactamente. Es por esta razón que se ejemplificara con el valor obtenido sin tomar esas consideraciones.
Ajuste del modelo lineal
Tabla 8 de función lineal de todos los datos
8. Gráfica de todos los datos originales vs función lineal
Ajuste del modelo logístico
Primero tenemos que calcular los nuevos valores de K, L, y M. Los resultados devueltos de la regresión logística fueron los siguientes:
Tabla 9 de función logística de todos los datos
9. Gráfica de todos los datos originales vs función logística
Conclusión
A pesar de lo que había predicho que se iba a ajustar de mejor manera a este set de datos el modelo lineal, el modelo logístico se ajustó de mejor manera al tener una máxima diferencia de valor absoluto 48 contra 52 del modelo lineal.
Esto sucedió debido al hecho que se contaba con una mayor cantidad de datos lo cual permitió dar un ajuste más exacto a la función logística, y esto lo pudimos observar reflejado en el valor de K. En los primeros dos casos, este valor estaba arriba de los 4000 millones, haciendo que el rango de datos entre 550 y 1300 millones parecieran insignificante para el comportamiento de la función. Sin embargo, en este caso dicho valor fue del orden de 2000, apegándose más al rango de números presentados, y aunque no era el valor exacto real del límite máximo de población, se puede tomar como una aproximación o predicción.
Ya que este valor es imposible de predecir exactamente, se puede afirmar que la función logística basada en una predicción o estimación del límite superior es el modelo que más se apega al comportamiento de las tendencias demográficas en China.
Bibliografía
MATH 120. "The Logistic Function, examples and exercises." 30 Octubre 2010 <http://cerebro.xu.edu/math/math120/01f/logistic.pdf>.
World Lingo. 30 Octubre 2010 <http://www.worldlingo.com/ma/enwiki/es/Logistic_function>.
Gráfica obtenida utilizando Microsoft Excel 2007
Datos de la Tabla 2 obtenidos por medio de la Herramienta Análisis de Datos → Regresión de Microsoft Excel 2007, y gráfica obtenida utilizando el mismo software
Imagen obtenida del archivo .pdf (MATH 120)