El palo de hockey (VI): la implacable máquina de fabricar palos de hockey (1/2)

Habíamos acabado la entrega anterior diciendo que en el PCA del MBH98 podías alimentar el proceso con datos de bolsa elegidos al azar y la PC1 resultante era un palo de hockey. Y no lo decía por decir: Stephen McIntyre había comprobado que era así (fuente).

El pseudo-PCA del MBH98/99

En MBH98 se decía que el PCA utilizado era “convencional”, pero de convencional no tenía nada. En lugar de normalizar los datos empleando la media real del indicador (usando todos los datos), se empleaba la media calculada únicamente en el periodo de calibración:

by examining PC series archived there and, by examining source code for PC calculations, we were able to determine that MBH98 had not carried out a “conventional” PC calculation, but had modified the PC algorithm, by, among other things, subtracting the 1902-1980 mean, rather than the 1400-1980 column mean, prior to PC calculations, so that the columns were no longer centered on a zero mean in the 1400–1980 step. By this procedure, series are more decentered, and their variance more inflated, the larger is the difference between the series mean and the mean of the 20th century subset. The effect of this transformation would have been mitigated if they had carried out a singular value decomposition on the covariance matrix, but they carried it out on the de-centered data matrix. We have shown elsewhere that this method re-allocates variance so that the PC algorithm then strongly over-weights hockey stick-shaped proxies and that it is so efficient in mining a hockey stick shape that it nearly always produces a hockey-stick shaped PC1 even from persistent red noise. McIntyre & McKitrick 2005

Al examinar las series de PC archivadas allí y, al examinar el código fuente para los cálculos de PC, pudimos determinar que MBH98 no había llevado a cabo un cálculo de PC “convencional”, sino que había modificado el algoritmo de PC, entre otras cosas, restando la media de 1902-1980, en lugar de la media de la columna de 1400-1980, antes de los cálculos de PC, de modo que las columnas ya no estaban centradas en una media de cero en el paso 1400-1980. Mediante este procedimiento, las series están más descentradas y su varianza está más inflada cuanto mayor es la diferencia entre la media de la serie y la media del subconjunto del siglo XX. El efecto de esta transformación se habría mitigado si hubieran llevado a cabo una descomposición de valores singulares en la matriz de covarianza, pero siguieron adelante con la matriz de datos descentrada. Hemos demostrado en otra parte que este método recoloca la varianza para que el algoritmo de la PC haga sobresalir con fuerza los indicadores con forma de palo de hockey y que es tan eficiente en la extracción de una forma de palo de hockey que casi siempre produce una PC1 con forma de palo de hockey incluso a partir de ruido rojo persistente.

El efecto de esa extraña forma de hacer el PCA (pseudo-PCA, en adelante) era que aquellas series de datos con forma de palo de hockey recibían un gran peso y marcaban el resultado final, especialmente la componente más importante, la PC1. Los indicadores que marcaban la forma de la PC1 eran lógicamente todos aquellos que tuvieran forma de palo de hockey, y en concreto los pinos longevos (bristlecones):

Por ejemplo, dadas las dos series de datos mostradas en la gráfica bajo estas líneas, en el pseudo-PCA la mostrada en la parte superior tiene un peso 390 veces mayor que la de la parte inferior en el cálculo de la PC1 porque tiene una notable desviación de la media en el siglo XX:

Con pseudo-PCA el resultado será prácticamente siempre (99% de las veces) un palo de hockey, incluso cuando se usa ruido en lugar de los indicadores sacados de árboles como entrada del algoritmo. La única condición que deben cumplir los datos es que alguno de ellos tenga forma de palo de hockey, algo que puede suceder por azar o simplemente asegurándose de que alguna de las series de datos tiene esa forma: el pseudo-PCA se encarga de darle a esos datos un papel principal en el resultado. Por ejemplo, en la parte superior de la figura se muestra la PC1 resultante de aplicar el pseudo-PCA a ruido rojo persistente:

The primary criticism of McIntyre & McKitrick, which has gotten a lot of play on the Internet, is that Mann et al transformed each tree ring prior to calculating PCs by subtracting the 1902-1980 mean, rather than using the length of the full time series (e.g., 1400-1980), as is generally done. M&M claim that when they used that procedure with a red noise spectrum, it always resulted in a “hockey stick”. Is this true? If so, it constitutes a devastating criticism of the approach. If not, it should be refuted. David Rind

La principal crítica de McIntyre & McKitrick, que ha dado mucho juego en Internet, es que Mann et al. transformaron cada anillo de árbol antes de calcular las PC restando la media de 1902-1980, en lugar de usar la longitud temporal completa de la serie (por ejemplo, 1400-1980), como se hace generalmente. M&M afirman que cuando usaron ese procedimiento con un espectro de ruido rojo, siempre resultó en un “palo de hockey”. ¿Es esto cierto? Si es así, constituye una crítica devastadora del enfoque. Si no es así, debe ser refutado.

Sí, el dato es tremendo. Aun teniendo en cuenta que la PC1 no es la reconstrucción final, sino uno más de los indicadores usados, sabemos que el algoritmo MBH potenciará aquellos indicadores que se parezcan a las medidas de termómetro en el periodo de calibración. Es la combinación de los dos factores lo que crea el palo de hockey: la presencia de indicadores con forma de palo de hockey, como por ejemplo la NOAMER PC1 creado por el pseudo-PCA, y el algoritmo que potencia los indicadores con esa forma.

Si el PCA es convencional… la PC1 deja de tener forma de palo de hockey

En la gráfica se muestra la PC1 resultante de usar el pseudo-PCA (parte superior) y el resultado de emplear un PCA convencional (parte inferior). Es evidente que el palo de hockey de la NOAMER PC1 no es un correcto resumen de los datos de los que procede: el palo de hockey de este indicador es creado por el no-convencional procesamiento de esos datos.

imagen_5111

Con un PCA convencional la forma de palo de hockey aparece en la PC4, en lugar de en la PC1 (fuente). En en el MBH98/99 únicamente se empleaban la PC1 y la PC2 pero si existe un indicador, la PC4, con forma de palo de hockey el algoritmo le va a dar un gran peso en el proceso de calibración. Esto quiere decir que usar un PCA convencional no resuelve los problemas causados por el algoritmo MBH, que encontrará y potenciará cualquier señal que se parezca a la medida de termómetro en el periodo de calibración. El algoritmo MBH debe ser cuestionado, pero también es cuestionable si se pueden tratar componentes principales aisladas como indicadores, pues el algoritmo asignaría un gran peso a la PC4, una señal para la que no hay absolutamente ninguna razón para suponer una relación lineal con la temperatura, algo que ya es mucho suponer incluso para la PC1, que viene a ser algo así como la señal promedio de los datos fuente del PCA. A Mann dar más peso a la PC4 que a la PC1 no le parece ningún problema, pero para cualquier persona objetiva esto es equivalente a usar una señal completamente inventada simplemente porque es buena para reconstruir el periodo de calibración. Ese procesado es posible pero no tiene sentido. El uso de PCs como indicadores no ha sido justificado debidamente.

It therefore seems crazy that the MBH hockey stick has been given such prominence and that a group of influential climate scientists have doggedly defended a piece of dubious statistics. Ian Joliffe

Por lo tanto, parece una locura que al palo de hockey MBH se le haya dado tanta relevancia y que un grupo de influyentes científicos climáticos hayan defendido obstinadamente una serie de estadísticos dudosos.

No olvidemos lo importante

Para no perdernos, la idea clave es que los indicadores NOAMER PC (componentes principales calculados mediante PCA) están “mal” calculados. Y lo mismo pasa con otros indicadores PC. Es algo objetivo, pues como acabamos de ver el pseudo-PCA genera él solito un resultado predeterminado (forma de palo de hockey). Y lo otro que habíamos visto es que de forma artificial se había incluido un árbol concreto en el tramo 1400-1450. Si se corrigen ambos “errores” la reconstrucción no es diferente en el siglo XX de lo que lo era en el año 1400:

Por supuesto, en MBH98 podían haber iniciado el análisis en 1404 y no habrían tenido que recurrir a inventarse los datos de los primeros 4 años del cedró de Gaspé, pero en ese caso el resultado sería diferente si el análisis empieza en 1400 o si empieza en 1404. Y si por poner 1 árbol en el análisis o no ponerlo el resultado cambia, eso significa que la presencia de los datos de un único árbol es determinante para concluir si la temperatura hace 600 años estaba por debajo o no de la de finales del siglo XX. Creo que eso es lo que se llama robustez de las conclusiones. Nula robustez quiero decir. Y es que la gráfica del palo de hockey es ruido del que no se puede sacar ninguna conclusión.

Para acabar esta entrega, en la imagen muestro otra PC1, la procedente de hacer el PCA en indicadores de origen australiano. En la parte superior se muestra la PC1 si se usa el pseudo-PCA, mientras que en la parte inferior se muestra la PC1 con PCA convencional.

NOTA: se ha argumentado que en el caso de usar un PCA convencional la regla de Preisendorfer sugiere que hay que usar hasta el NOAMER PC5 (fuente). Es evidente que esa regla no es de aplicación cuando las PCs resultantes se usan como indicadores independientes y con pesos que no respetan la varianza que representan esas PCs, por ejemplo asignando a la PC4 más peso que a la PC1 en la reconstrucción de temperatura.

Otras entregas:

Anuncios

Un comentario en “El palo de hockey (VI): la implacable máquina de fabricar palos de hockey (1/2)”

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s