Sandra Ospina-Garcés,
Marcia Ramírez-Sánchez y
Efraín De Luna
(Editores).
Manual de Morfometría (o algún otro titulo conveniente)
Sección 1 Introducción, Protocolo y Definiciones.
cap 1. Introducción.
Sección 2: Los datos y las variables, Ajustes y Comparación.
Sección 3: Los métodos estadísticos.
Sección 4: Aplicaciones. Estudios de caso. Para los capítulos de esta sección, se invitan colaborador@s. Desea colaborar? Bienvenid@! Registrese para poder publicar aqui.

09 septiembre 2019

Tipos de Preguntas

Definición de la pregunta biológica y selección de la pregunta estadística.

La clase de pregunta biologica determina cual es la tecnica apropiada para responder a la pregunta estadistica subyacente. En este sentido la morfometria es la comparacion de promedios y la variacion relativa dentro y entre niveles.

Antes de escoger una tecnica estadistica, la pregunta basica es cuantos promedios por cada variable se estan comparando. Cuando se trata de una sola variable, su promedio y la varianza son suficientes para describir la variacion. Los casos donde se comparan varios caracteres o variables, el analisis puede hacerse variable por variable, aunque normalmente tambien requiere algun enfoque multivariado mediante la matriz de correlaciones o covarianzas.

Un procedimiento practico que puede guiar la clarificacion de preguntas es dibujar los resultados esperados en una grafica. Este ejercicio ayuda a establecer si se trata de investigar un caso de la relacion entre dos variables (por ejemplo, alometria) o si se pretende examinar la variacion mediante algun metodo de agrupacion u ordenacion. Tambien puede ayudar en la seleccion de las variables numericas relevantes y en el diseño de muestras y la planeacion del nivel apropiado de las replicas.

La clase de preguntas biologicas a examinar con la ayuda de tecnicas morfometricas pueden ser de varios tipos. En sistematica, se circumscriben a cuestiones de la variacion de caracteres particulares por niveles respecto a taxa, areas geograficas, sexos, etc. Otras preguntas pueden estar dirigidas a evaluar la variacion de un grupo taxonomico a la luz de caracteres morfologicos particulares o bajo la influencia de factores experimentales.

Los siguientes casos son ejemplos de preguntas biologicas de interes para los taxonomos. La identificacion de nuestro proyecto personal con algun tipo de pregunta(s) resaltado aqui puede guiar hacia la seleccion de las tecnicas estadisticas apropiadas.

¿Cuantos grupos discretos existen dada la variacion estimada por un conjunto N de especimenes? Este tipo de preguntas requiere la aplicacion de tecnicas de agrupacion o clasificacion, como los basados en distancias entre muestras (distancias Euclidianas, Manhattan, Mahalanobis, Procrustes, etc). Las variables (K caracteres) constituyen las unidades para el calculo de las distancias entre cada par de muestras (N). La matriz de distancias pareadas (NxN) se usa para agrupar las muestras usualmente mediante un algoritmo jerarquico. El mas comunmente usado en sistematica es el denominado UPGMA (Unweighted Pair Grouping Method using Averages). Las dos muestras mas similares se agrupan y se genera una nueva matriz de similitudes pareadas (N-1 x N-1) entre el grupo formado y el resto de las muestras todavia sin agrupar. El proceso se repite hasta que todas las muestras se han agrupado. El resultado es un sistema de grupos muy similares dentro de grupos cada vez menos similares (fenograma).

¿Cual es el patrón de variación de los grupos predefinidos A, B, C, y D? Aqui el problema no consiste en la deteccion de los grupos, pues estos se construyen a priori. Los grupos pueden consistir en taxa, poblaciones geograficas, estados ontogeneticos, grupos sexuales o grupos de edades, grupos funcionales, etc. La pregunta tambien puede tomar la forma: Existe un grupo intermedio, potencialmente un hibrido, entre las dos especies A y B?  El objetivo de la aplicacion de tecnicas estadisticas es encontrar como se distribuyen o relacionan N especimenes preasignados a los grupos en el espacio morfometrico multidimensional. Los ejes de referencia en este hiperespacio esta configurado por la combinacion de varios caracteres (K variables). En este tipo de preguntas biologicas se requieren tecnicas de ordenacion como el Analisis de Componentes Principales (ACP) o el Analisis de Variables Canonicas (AVC). Es importante tener presente que estos dos métodos de ordenación no clasifican ni agrupan.

Cuales son los caracteres que mas contribuyen a la variación y/o distinción de los grupos A, B, C, D? Aqui la intencion es identificar cuales caracteres son importantes estadisticamente. No obstante debe tenerse cuidado de razonar que dado que son importantes estadisticamente, por lo tanto esos caracteres sean importantes taxonomicamente, ontogeneticamente, o cualquiera que sea el nivel de comparacion. La razon es que la importancia estadistica se mide en funcion de la varianza de cada caracter. Los caracteres que mas contribuyen a la variacion o a la distincion (los mas importantes estadisticamente) son los que tienen mayor varianza y los que no estan correlacionados entre si. Se detectan en matrices de varianzas-covarianzas y de correlaciones (pxp).

El problema de detectar la importancia relativa de caracteres evidentemente configura un sistema multivariado con vectores delineados por la variacion de cada caracter. Si los caracteres son independientes estadisticamente, cada caracter define un eje ortogonal a cualquier otro eje. Si los caracteres no son independientes, la interseccion de los dos ejes define un angulo cuyo valor es casi cero. En este caso, son mutuamente redundantes y solo uno del par es importante en la descripcion de la variacion. El calculo de esta relacion estadistica entre ejes se logra mediante el analisis de correlaciones (coeficiente de Pearson).

Dado que los primeros ejes en los analisis de ordenacion son los que mejor describen la variacion de la elipsoide multivariada, los caracteres originales mas correlacionados con esos ejes son los caracteres de importancia estadistica. Los metodos de ordenacion (ACP, AVC) exploran la relación entre las variables originales respecto a los nuevos ejes (, z, etc, segun el caso). Por ejemplo, la matriz de "eigenvectores" (px) precisamente registra estas correlaciones entre los ejes principales (1, 2, 3, ..) y los caracteres.

Normalmente, la primera columna de esta matriz contiene las correlaciones entre el primer eje y cada variable original. En el caso del ACP, la inspeccion de la primera columna (1) nos lleva a detectar los valores absolutos mas altos como indicacion de los caracteres que mas contribuyen a la dispersion de la elipsoide (mayor varianza total). Es decir, esos son los caracteres mas variables y muy posiblemente los menos importantes taxonomicamente. En cambio, en el caso del AVC, las correlaciones altas (en z1) indicarian los caracteres que mas contribuyen a la separacion de los grupos (menor varianza intragrupal y mayor varianza intergrupal). Estos muy posiblemente son los caracteres de mayor importancia taxonómica, pues son los mas diferentes entre taxa y menos variables dentro de cada taxa. En ambos casos, las columnas siguientes nos revelan grados decrecientes de la importancia estadistica de los caracteres.


No hay comentarios.:

Publicar un comentario

Preguntas, aclaraciones y/o correcciones, bienvenidas. Muchas gracias.