Diseño de muestreo
Una de las primeras preocupaciones en un proyecto de morfometria es la amplitud del muestreo. Esta puede visualizarse en dos direcciones: numero de observaciones por nivel (nA, nB, nC, etc) y numero de variables (p). Esto equivale a diseñar la estructura de una matriz de datos que permita los tipos de analisis que se pretenden realizar. Los requerimientos minimos de muestreo se establecen en relacion a la amplitud del proyecto (numero de muestras por nivel), los tipos de datos a colectar (distancias, coordenadas) y los metodos estadisticos de analisis (univariados, bivariados, multivariados).
Cuantos datos?
En vista de que las descripciones y estimaciones estadisticas comunes se basan en la aplicacion del modelo Normal (univariado y multivariado), se deben colectar un numero de datos (n) suficientes para que la frecuencia de las observaciones en el rango de una variable se aproxime a la frecuencia esperada por el modelo. Una muestra muy pequeña (n=7) no permite una estimacion estable de los limites del rango de valores extremos (x min, x max), de la frecuencia de los valores intermedios posibles, ni del promedio y ni la desviacion estandar.
En la situacion mas simple de una muestra (A) se puede recomendar un minimo de 15-20 datos para calcular un promedio y una desviacion estandar estables (nA=20). En el caso de dos muestras (A, B) por lo tanto serán necesarios dos grupos de 15 a 20 especímenes. Por ejemplo, si el nivel de comparacion es entre dos especies (A y B), minimamente se esperaria contar con una muestra de 15 especimenes de cada una (nA=15, nB=15). Este par de muestras nos permitiria calcular un promedio para A y otro para B, en una o muchas variables.
El numero de especímenes por cada promedio a calcular de cada grupo puede ser desigual, pero el numero mínimo critico es que al menos todos los grupos tengan mas de 15 o 20 especímenes. Para cada espécimen (n) se deben registrar todas las mediciones o valores de coordenadas. Si los valores son incompletos para alguna variable, el espécimen se elimina de la matriz. Los datos faltantes son un problema en los análisis estadísticos y morfometricos (Strauss & Atanassov 2006).
Las variables para análisis son continuas y simples. Las mediciones de largos y anchos típicamente se registran hasta con tres cifras significativas. Las coordenadas Cartesianas pueden registrase con mas de cinco cifras. Las variables son simples en el sentido de que no se usan proporciones de dos variables, por ejemplo la división de largo/ancho. Las proporciones no se deben agregar a las variables simples ni se deben usar para sustituir las variables simples por las proporciones. El uso de proporciones esta bien para propósitos descriptivos pero genera problemas en los análisis estadísticos y morfometricos (Barraclough et al 1962, Phillips 1983).
En vista de que las descripciones y estimaciones estadisticas comunes se basan en la aplicacion del modelo Normal (univariado y multivariado), se deben colectar un numero de datos (n) suficientes para que la frecuencia de las observaciones en el rango de una variable se aproxime a la frecuencia esperada por el modelo. Una muestra muy pequeña (n=7) no permite una estimacion estable de los limites del rango de valores extremos (x min, x max), de la frecuencia de los valores intermedios posibles, ni del promedio y ni la desviacion estandar.
En la situacion mas simple de una muestra (A) se puede recomendar un minimo de 15-20 datos para calcular un promedio y una desviacion estandar estables (nA=20). En el caso de dos muestras (A, B) por lo tanto serán necesarios dos grupos de 15 a 20 especímenes. Por ejemplo, si el nivel de comparacion es entre dos especies (A y B), minimamente se esperaria contar con una muestra de 15 especimenes de cada una (nA=15, nB=15). Este par de muestras nos permitiria calcular un promedio para A y otro para B, en una o muchas variables.
El numero de especímenes por cada promedio a calcular de cada grupo puede ser desigual, pero el numero mínimo critico es que al menos todos los grupos tengan mas de 15 o 20 especímenes. Para cada espécimen (n) se deben registrar todas las mediciones o valores de coordenadas. Si los valores son incompletos para alguna variable, el espécimen se elimina de la matriz. Los datos faltantes son un problema en los análisis estadísticos y morfometricos (Strauss & Atanassov 2006).
Las variables para análisis son continuas y simples. Las mediciones de largos y anchos típicamente se registran hasta con tres cifras significativas. Las coordenadas Cartesianas pueden registrase con mas de cinco cifras. Las variables son simples en el sentido de que no se usan proporciones de dos variables, por ejemplo la división de largo/ancho. Las proporciones no se deben agregar a las variables simples ni se deben usar para sustituir las variables simples por las proporciones. El uso de proporciones esta bien para propósitos descriptivos pero genera problemas en los análisis estadísticos y morfometricos (Barraclough et al 1962, Phillips 1983).
Es un buen promedio?
Nuevamente en vista del modelo Normal, disponer de un solo promedio para A y para B no permite calcular el error asociado al parámetro tan bien como un conjunto de varios promedios para muestras replicadas de A y de B. Entonces la siguiente pregunta es: cuantas muestras replicadas de A y B se requieren?
A este nivel podriamos considerar al menos unas 5 muestras replicadas de A y B. Esto implica que si se necesitan unos 15 a 20 especimenes para una replica, entonces se requerirían idealmente 20 x 5 especimenes de A y otros tantos de B. Esto nos lleva a disponer de n=100 especimenes de A y otros n=100 para B. Un ejemplo de este tipo de diseño lo usamos para examinar la variación de dos especies del genero Braunia. Para una especie (B. andreuxii) se examinaron tres muestras replicadas, cada una con n=60, 43 y 77. Para la segunda especie (B. secunda) se estudiaron cuatro replicas, con n=16, 12, 71, y 13 (Tabla 3, De Luna y Gomez-Velasco, 2008).
Este nivel de muestreo replicado no siempre es posible. Frecuentemente el numero de individuos en cada muestra es heterogeneo y limitado. Obviamente se debe proceder a medir los especimenes disponibles y evaluar las desviaciones de normalidad debidas a un muestreo reducido y no uniformemente replicado. En la mayoria de los casos estas limitaciones no tienen un efecto tal que impida la aplicación adecuada del modelo Normal. En cualquier caso, el error asociado a la estimación del promedio puede estimarse con tecnicas de remuestreo como el "jackknife".
Barraclough, R. & R. E. Blackith. 1962. Morphometric relationships in the genus Ditylenchus." Nemaologica 8: 51-58.
BLACKITHR,. E. (1957). "Polymorphism in some Australian locusts and
De Luna E & G. Gómez-Velasco. 2008. Morphometrics and the identification of Braunia andrieuxii and B. secunda (Hedwigiaceae: Bryopsida). Systematic Botany 33(2): 219-228.
Phillips, R. B. 1983. Shape Characters in Numerical Taxonomy and Problems with Ratios. Taxon 32: 535-544.
Strauss R. E. & M. N. Atanassov. 2006. Determining best complete subsets of specimens and characters for multivariate morphometric studies in the presence of large amounts of missing data. Biological J. of the Linnean Soc. 88: 309-328.
A este nivel podriamos considerar al menos unas 5 muestras replicadas de A y B. Esto implica que si se necesitan unos 15 a 20 especimenes para una replica, entonces se requerirían idealmente 20 x 5 especimenes de A y otros tantos de B. Esto nos lleva a disponer de n=100 especimenes de A y otros n=100 para B. Un ejemplo de este tipo de diseño lo usamos para examinar la variación de dos especies del genero Braunia. Para una especie (B. andreuxii) se examinaron tres muestras replicadas, cada una con n=60, 43 y 77. Para la segunda especie (B. secunda) se estudiaron cuatro replicas, con n=16, 12, 71, y 13 (Tabla 3, De Luna y Gomez-Velasco, 2008).
Este nivel de muestreo replicado no siempre es posible. Frecuentemente el numero de individuos en cada muestra es heterogeneo y limitado. Obviamente se debe proceder a medir los especimenes disponibles y evaluar las desviaciones de normalidad debidas a un muestreo reducido y no uniformemente replicado. En la mayoria de los casos estas limitaciones no tienen un efecto tal que impida la aplicación adecuada del modelo Normal. En cualquier caso, el error asociado a la estimación del promedio puede estimarse con tecnicas de remuestreo como el "jackknife".
Barraclough, R. & R. E. Blackith. 1962. Morphometric relationships in the genus Ditylenchus." Nemaologica 8: 51-58.
BLACKITHR,. E. (1957). "Polymorphism in some Australian locusts and
De Luna E & G. Gómez-Velasco. 2008. Morphometrics and the identification of Braunia andrieuxii and B. secunda (Hedwigiaceae: Bryopsida). Systematic Botany 33(2): 219-228.
Phillips, R. B. 1983. Shape Characters in Numerical Taxonomy and Problems with Ratios. Taxon 32: 535-544.
Strauss R. E. & M. N. Atanassov. 2006. Determining best complete subsets of specimens and characters for multivariate morphometric studies in the presence of large amounts of missing data. Biological J. of the Linnean Soc. 88: 309-328.
No hay comentarios.:
Publicar un comentario
Preguntas, aclaraciones y/o correcciones, bienvenidas. Muchas gracias.