| Mauricio Dominguez |
Cuando entras en la clase de Analítica I te encuentras con hacer mediciones volumétricas mínimo 10 veces de cristalería de mayor uso y pesar cada una de ellas (vacías y llenas), y dices “esto es de estadística” y todo para encontrar un error en las mediciones en un proceso tedioso, que nos sirve de base en el campo, supongamos que una empresa produce diversos lotes de producto comercializable a la semana. La empresa debe controlar la homogeneidad entre lotes. Si suponemos que por cada uno de los 10 lotes fabricados semanalmente elegimos 12 muestras (que sean representativas), tendremos un conjunto de 120 muestras. Si cada muestra individual se caracteriza por 7 parámetros distintos (que sean un reflejo de su composición, forma, tamaño u otras propiedades), ya tenemos un conjunto de datos considerable formado por 120x7 datos. L a representación numérica, en forma de tabla o matriz de datos, es solo el inicio de lo que será una herramienta que acompaña al analista en la recolección de datos experimentales, que se ha especializado con el avance de la tecnología y de nuevas ecuaciones matemáticas (algoritmos) más lo tradicional de estadística, en suma se llama:
Quimiometría
En 1972, Svante Wold introduce por vez primera el término Quimiometría, término que fue rápidamente aceptado por quienes trabajaban en la aplicación de las Matemáticas a la Química. En colaboración con Bruce Kowalski funda, en 1974, la Chemometric Society, y en 1975 se alcanza un consenso para definir la Quimiometría como la disciplina química que utiliza métodos y técnicas matemáticas, estadísticas y de lógica formal para: a) diseñar y seleccionar procedimientos experimentales óptimos y b) extraer la máxima información relevante a partir del análisis de datos.
Ahora también se utilizan métodos de optimización o simulación de procesos para encontrar eficacia en operaciones unitarias. Uno de los primeros campos de aplicación de la Quimiometría fue el estudio de datos medioambientales. Pero nos interesa mostrar la parte estadística ya que los otros requieren ser comentados por aparte.
Estructuras de datos, técnicas de análisis
Las técnicas quimiométricas utilizadas hasta ahora en el análisis de datos químicos, a continuación se exponen algunas de las más comunes, presentadas atendiendo a la estructura de datos y los ámbitos de aplicación.
Datos Univariantes
Corresponde esta estructura de datos a un vector de resultados relativos a una única variable determinada experimentalmente sobre una misma muestra. Obviamente se trata de la estructura de datos más simple y equivalente al estudio de un único parámetro por muestra.
Las técnicas de análisis de datos utilizadas son, evidentemente, las correspondientes a las técnicas de la Estadística univariante clásica: Análisis exploratorio, descriptiva, estimación de intervalos de confianza, contraste de hipótesis simple, etc.
Un requisito indispensable hoy en día para cualquier procedimiento de medida es que haya sido validado, es decir, se haya comprobado experimentalmente que dicho procedimiento cumple unos determinados criterios de calidad. Varios organismos internacionales de reconocido prestigio (ISO, IUPAC, AOAC, etc.) han establecido guías indicativas de las características de calidad que han de documentarse y como evaluarlas. Entre otras, se incluyen, por ejemplo, la exactitud, la precisión e incertidumbre con la que pueden expresarse los resultados, la repetitividad, reproducibilidad del procedimiento de medida, los límites de detección (LD), cuantificación (LC) del procedimiento, la robustez del procedimiento, es decir, el grado de independencia de la medidas frente a pequeñas variaciones de las condiciones experimentales o la detección de valores anómalos.
Datos Bivariantes
Una segunda posibilidad consiste en disponer de una estructura de datos formada por dos vectores de resultados relativos cada uno a una variable. Ambas variables pueden haber sido determinadas experimentalmente sobre una misma muestra, o bien sobre muestras (estaciones de muestreo, procedimientos, etc.) distintas, o también una de las variables puede corresponder a un parámetro controlado como tiempo, distancia, etc. Si bien la estructura de datos sigue siendo relativamente simple, las técnicas de análisis de datos utilizadas son, además de las correspondientes al caso univariante, las de la Estadística bivariante clásica: estimación de intervalos de confianza compuestos, contraste de hipótesis doble, análisis de varianza, correlación y regresión simple, etc. han aportado un enfoque nuevo para la Química que ha permitido establecer conceptos y resolver situaciones de indudable importancia. Así por ejemplo, en el ámbito del contraste de hipótesis, además de resolver la comparación de valores medios con límites de alerta o acción establecidos por razones de seguridad o sanidad, etc., las pruebas de hipótesis doble permiten comparar el estado de contaminación entre dos estaciones, una estación en distintos momentos o periodos de tiempo (verano - invierno), probar si una acción preventiva es eficaz (datos apareados).
El análisis de varianza (ANOVA) permite detectar diferencias en los valores de un contaminante en función de niveles, cualitativos o cuantitativos, como pueden ser área urbana, industrial, rural, profundidad o altura, etc., o también comparar tratamientos preventivos, procedimientos de medida o variantes de los mismos, o resolver ejercicios de comparación entre laboratorios.
Por citar algunas de estas posibilidades que ofrecen las técnicas de correlación y regresión, basta considerar las siguientes: detección de una correlación entre las concentraciones presentes de dos contaminantes o de un contaminante y un parámetro meteorológico; el calibrado de procedimientos de medida; el análisis de series temporales puede aportar una vía importante para la obtención de información sobre el patrón de comportamiento de la contaminación.
El incumplimiento por parte de los datos, de las hipótesis de trabajo del método de mínimos cuadrados ha obligado a la Quimiometría a recurrir a métodos alternativos de regresión (Regresión ponderada, Calibración interna, Regresión ortogonal, etc.). Asimismo, la posible presencia de puntos anómalos o la progresiva pérdida de linealidad de los datos en el caso del ajuste de una recta, ha llevado al desarrollo de métodos robustos de ajuste (Mediana repetida, Mínima mediana de cuadrados, etc.) es decir, métodos poco sensibles a la presencia de estos puntos anómalos.
Datos Multivariantes
Esta es una estructura de datos más compleja. Corresponde a una disposición matricial de los datos, de forma que en columnas se disponen las variables determinadas experimentalmente y cada fila corresponde a cada una de las muestras estudiadas. Aunque evidentemente pueden utilizarse las técnicas de análisis de datos antes descritas, estas sólo van a aportar una visión muy parcial de la información contenida en la matriz de datos. Una vía, mucho más eficiente, para la extracción de la información relevante en el recurso a los métodos de análisis multivariantes.
Así, podrían agruparse en métodos que pretenden:
· Reducir la dimensionalidad de la matriz de datos: Análisis Factorial (FA), Análisis de Componentes Principales (PCA) y Análisis Factorial de Correspondencia. (FCA).
· Detectar y establecer de agrupaciones de muestras: métodos de clasificación. Análisis discriminante lineal (LDA) o cuadrático (QDA), k vecinos más próximos(k - NN) y el método de redes neuronales artificiales (ANN).
· Establecer modelos que permitan la predicción de los valores de alguna(s) variable(s) en función de los de las restantes: regresión lineal simple, la regresión lineal múltiple (MLR), la regresión polinomio o los métodos de regresión no lineal (NLRM), la regresión en componentes principales (PCR) y la regresión en mínimos cuadrados parciales (PLS1, PLS2.)
También se ha estudiado la aplicación de otros recursos tales como la utilización de algoritmos genéticos (GA) para la selección de variables o el modelado mediante el uso de redes neuronales artificiales (ANN).
Otra posibilidad es la de disponer de una hipermatriz (3D) en la que se recogen por yuxtaposición diferentes matrices bidimensionales (2D). Tal sería el caso del estudio de p variables sobre n muestras a t intervalos de tiempo.
Aunque todavía se están desarrollando métodos para abordar el estudio de este tipo de estructura de datos, los métodos más utilizados son PARAFAC (Parallel Factor Analysis), Tucker3 (N - mode principal component analysis) y Multi – linear Partial Least Squares (N - PLS), basados en una descomposición trilineal de la hipermatriz original.
Cuanto hasta aquí se ha expuesto no es más que una panorámica de métodos utilizados por la Quimiometría en el análisis de datos. No se citan por ejemplo las aplicaciones del diseño de experiencias, el análisis de series temporales, etc., sin embargo y afortunadamente es de constatar que este es un campo en expansión. En las áreas de química orgánica, farmacología y otras, existe un gran interés en establecer relaciones entre la estructura de los compuestos sintetizados, sus características espectrales y su reactividad química o actividad farmacológica. Este es un campo muy activo que frecuentemente se generaliza con el nombre de QSAR, Quantitative Structure Activity Relationships.
El manejo de paquetes de datos correctamente lleva a la toma de decisiones para resolver eficientemente problemas, o evitarlos, manejar tendencias .