Identificar a una persona mediante métodos de reconocimiento de patrones. Algunas palabras sobre el reconocimiento de patrones

  • Tutorial

Hace tiempo que quería escribir un artículo general que contenga los conceptos básicos del reconocimiento de imágenes, una especie de guía sobre los métodos básicos, que indique cuándo usarlos, qué problemas resuelven, qué se puede hacer por la noche de rodillas y qué es. Mejor no pensar en no tener un equipo de personas a los 20.

Llevo mucho tiempo escribiendo algunos artículos sobre reconocimiento óptico, por eso la gente me escribe un par de veces al mes. varias personas con preguntas sobre este tema. A veces tienes la sensación de que vives con ellos. mundos diferentes. Por un lado, comprende que lo más probable es que la persona sea un profesional en un tema relacionado, pero sabe muy poco sobre los métodos de reconocimiento óptico. Y lo más molesto es que está intentando aplicar un método de un campo de conocimiento cercano, lo cual es lógico, pero no funciona del todo en Reconocimiento de Imágenes, pero no entiende esto y se ofende mucho si le empiezas a decir algo. desde lo más básico. Y teniendo en cuenta que contar desde lo básico requiere mucho tiempo, que a menudo no está disponible, se vuelve aún más triste.

Este artículo está destinado a que una persona que nunca haya trabajado con métodos de reconocimiento de imágenes pueda, en 10 a 15 minutos, crear en su cabeza una determinada imagen básica del mundo que corresponda al tema y comprender en qué dirección excavar. Muchas de las técnicas descritas aquí son aplicables al procesamiento de radar y audio.
Empezaré con un par de principios que siempre empezamos a contarle a un cliente potencial, o a una persona que quiere empezar a hacer Reconocimiento Óptico:

  • A la hora de resolver un problema, parta siempre de lo más simple. Es mucho más fácil ponerle una etiqueta a una persona. color naranja que seguir a una persona, destacándola en cascadas. Es mucho más fácil llevar una cámara con una resolución más alta que desarrollar un algoritmo de superresolución.
  • Una formulación estricta del problema en los métodos de reconocimiento óptico es mucho más importante que en los problemas. programación del sistema: uno palabra extra Se puede añadir el 50% del trabajo a las especificaciones técnicas.
  • No existen soluciones universales a los problemas de reconocimiento. No se puede crear un algoritmo que simplemente "reconozca cualquier inscripción". Un cartel en la calle y una hoja de texto son fundamentales diferentes objetos. Probablemente sea posible crear un algoritmo general (aquí hay un buen ejemplo de Google), pero requerirá mucho trabajo de un equipo grande y constará de docenas de subrutinas diferentes.
  • OpenCV es una biblia que tiene muchos métodos y puede resolver el 50% de casi cualquier problema, pero OpenCV es sólo una pequeña parte de lo que realmente se puede hacer. En un estudio, las conclusiones fueron escritas: "El problema no se puede resolver utilizando métodos OpenCV, por lo tanto, no tiene solución". Intente evitar esto, no sea perezoso y evalúe con seriedad la tarea actual desde cero cada vez, sin utilizar plantillas OpenCV.
Es muy difícil dar un consejo universal o decir cómo crear algún tipo de estructura alrededor de la cual se pueda construir una solución a problemas arbitrarios de visión por computadora. El propósito de este artículo es estructurar lo que se puede utilizar. intentaré romperlo métodos existentes en tres grupos. El primer grupo es el filtrado preliminar y la preparación de imágenes. El segundo grupo es el procesamiento lógico de los resultados del filtrado. El tercer grupo son los algoritmos de toma de decisiones basados ​​​​en procesamiento lógico. Los límites entre grupos son muy arbitrarios. Para resolver un problema, no siempre es necesario utilizar métodos de todos los grupos; a veces son suficientes dos y, a veces, incluso uno.

La lista de métodos proporcionada aquí no está completa. Sugiero agregar en los comentarios. métodos críticos, que no escribí y atribuí 2-3 palabras adjuntas a cada uno.

Parte 1. Filtración

En este grupo coloqué métodos que te permiten seleccionar áreas de interés en imágenes sin analizarlas. Mayoría de estos métodos aplica algún tipo de transformación única a todos los puntos de la imagen. A nivel de filtrado no se realiza análisis de imágenes, pero los puntos que se someten a filtrado se pueden considerar como áreas con caracteristicas especiales.
Binarización por umbral, selección del área del histograma.
La transformación más simple es la binarización de la imagen por umbral. Para imágenes RGB y en escala de grises, el umbral es el valor del color. Encontrarse problemas ideales, en el que tal transformación es suficiente. Supongamos que desea seleccionar objetos automáticamente en una hoja de papel blanca:




La elección del umbral en el que se produce la binarización determina en gran medida el proceso de binarización en sí. EN en este caso, la imagen fue binarizada por el color promedio. Normalmente, la binarización se lleva a cabo mediante un algoritmo que selecciona de forma adaptativa un umbral. Dicho algoritmo puede ser la elección de expectativa o modo. O puede seleccionar el pico más grande del histograma.

La binarización puede proporcionar muy resultados interesantes cuando trabajamos con histogramas, incluso en la situación en la que consideramos una imagen no en RGB, sino en HSV. Por ejemplo, segmente los colores de interés. Según este principio, se pueden construir tanto un detector de etiquetas como un detector de piel humana.
Filtrado clásico: Fourier, filtro de paso bajo, filtro de paso alto
Los métodos clásicos de filtrado de radar y procesamiento de señales se pueden aplicar con éxito a una variedad de tareas de reconocimiento de patrones. método tradicional En radar, que casi nunca se utiliza en forma pura en imágenes, es la transformada de Fourier (más concretamente, la FFT). Una de las pocas excepciones en las que se utiliza la transformada unidimensional de Fourier es la compresión de imágenes. Para el análisis de imágenes, una transformación unidimensional generalmente no es suficiente; es necesario utilizar una transformación bidimensional que requiere muchos más recursos.

Pocas personas realmente lo calculan; por lo general, es mucho más rápido y más fácil usar la convolución del área de interés con un filtro ya preparado, sintonizado para frecuencias altas (HPF) o bajas (LPF). Este método, por supuesto, no permite el análisis del espectro, pero en tarea específica El procesamiento de vídeo normalmente no requiere análisis, sino resultados.


lo mas ejemplos simples filtros que enfatizan las bajas frecuencias (filtro gaussiano) y altas frecuencias(Filtro Gabor).
Para cada punto de la imagen, se selecciona una ventana y se multiplica con un filtro del mismo tamaño. El resultado de tal convolución es un nuevo valor en puntos. Al implementar filtros de paso bajo y filtros de paso alto se obtienen imágenes del siguiente tipo:



Ondas
Pero ¿qué pasa si usas alguna señal arbitraria para la convolución? función característica? Entonces se llamará "transformación Wavelet". Esta definición de wavelets no es correcta, pero tradicionalmente, en muchos equipos, el análisis de wavelets es la búsqueda de un patrón arbitrario en una imagen mediante convolución con un modelo de este patrón. Existe un conjunto de funciones clásicas que se utilizan en el análisis de wavelets. Estos incluyen la onda de Haar, la onda de Morlet, la onda del sombrero mexicano, etc. Las primitivas de Haar, sobre las cuales hubo varios de mis artículos anteriores (,), se relacionan con funciones similares para el espacio bidimensional.


Arriba hay 4 ejemplos de wavelets clásicas. Onda de Haar tridimensional, Onda de Meyer bidimensional, Onda de Sombrero mexicano, Onda de Daubechies. un buen ejemplo Usando una interpretación ampliada de las ondículas está el problema de encontrar un resplandor en el ojo, para el cual la ondícula es el resplandor mismo:

Las wavelets clásicas se utilizan generalmente para la compresión de imágenes o para la clasificación de imágenes (que se describirá a continuación).
Correlación
Después de una interpretación tan libre de las wavelets por mi parte, vale la pena mencionar la correlación real que subyace a ellas. Esta es una herramienta indispensable a la hora de filtrar imágenes. Aplicación clásica- correlación de flujo de vídeo para encontrar cambios o flujos ópticos. El detector de desplazamiento más simple es también, en cierto sentido, un correlador de diferencias. Donde las imágenes no se correlacionaban, había movimiento.

Funciones de filtrado
Una clase interesante de filtros es el filtrado de funciones. Estos son filtros puramente matemáticos que le permiten detectar simples función matemática en la imagen (recta, parábola, círculo). Se construye una imagen acumulativa en la que para cada punto imagen original Se dibujan muchas funciones que lo generan. La transformación más clásica es la transformada de Hough para líneas. En esta transformación, para cada punto (x;y), se traza un conjunto de puntos (a;b) de la recta y=ax+b para los cuales la igualdad es verdadera. Obtienes hermosas imágenes:


(el primer plus es para el primero en encontrar un truco en la imagen y esta definición y explicarlo, el segundo plus es para el primero en decir lo que se muestra aquí)
La transformada de Hough le permite encontrar funciones parametrizables. Por ejemplo círculos. Hay una transformación modificada que le permite buscar cualquier forma. A los matemáticos les gusta muchísimo esta transformación. Pero, lamentablemente, al procesar imágenes no siempre funciona. Velocidad de funcionamiento muy lenta, muy alta sensibilidad a la calidad de la binarización. Incluso en situaciones ideales, prefería conformarme con otros métodos.
Un análogo de la transformada de Hough para líneas rectas es la transformada de radón. Se calcula mediante FFT, lo que proporciona una ganancia de rendimiento en una situación en la que hay muchos puntos. Además, se puede aplicar a una imagen no binarizada.
Filtrado de contorno
Una clase separada de filtros es el filtrado de bordes y contornos. Los contornos son muy útiles cuando queremos pasar de trabajar con una imagen a trabajar con los objetos de esa imagen. Cuando un objeto es bastante complejo, pero bien distinguido, a menudo la única manera trabajar con él es resaltar sus contornos. Hay una serie de algoritmos. resolviendo el problema circuitos de filtrado:

La mayoría de las veces se utiliza Canny, que funciona bien y cuya implementación está en OpenCV (Sobel también está ahí, pero busca peor los contornos).



Otros filtros
Arriba están los filtros cuyas modificaciones ayudan a resolver el 80-90% de los problemas. Pero además de ellos, hay filtros más raros que se utilizan en tareas locales. Hay docenas de filtros de este tipo, no los enumeraré todos. Son interesantes los filtros iterativos (por ejemplo, un modelo de apariencia activo), así como las transformaciones de crestas y curvas, que son una fusión del filtrado de ondas clásicas y el análisis en el campo de la transformada de radón. La transformada beamlet funciona maravillosamente en el límite de la transformada wavelet y análisis lógico, permitiéndole seleccionar contornos:

Pero estas transformaciones son muy específicas y están diseñadas para tareas poco comunes.

Parte 2. Procesamiento lógico de los resultados del filtrado.

El filtrado proporciona un conjunto de datos adecuados para su procesamiento. Pero a menudo no es posible simplemente tomar y utilizar estos datos sin procesarlos. Habrá varios en esta sección. métodos clásicos, permitiéndole pasar de la imagen a las propiedades de los objetos, o a los objetos mismos.
Morfología
La transición del filtrado a la lógica, en mi opinión, son métodos. morfología matemática( , , ). En esencia, estas son las operaciones más simples de hacer crecer y erosionar imágenes binarias. Estos métodos le permiten eliminar el ruido de una imagen binaria aumentando o disminuyendo los elementos existentes. Existen algoritmos de contorneado basados ​​en la morfología matemática, pero normalmente se utilizan algún tipo de algoritmos híbridos o algoritmos combinados.
Análisis de contorno
Los algoritmos para obtener límites ya se mencionaron en la sección de filtrado. Los límites resultantes se convierten simplemente en contornos. Para el algoritmo Canny esto sucede automáticamente; para otros algoritmos se requiere binarización adicional. Puede obtener un contorno para un algoritmo binario, por ejemplo, utilizando el algoritmo del escarabajo.
Un contorno es una característica única de un objeto. Esto a menudo le permite identificar un objeto por su contorno. Existe un poderoso aparato matemático que le permite hacer esto. El dispositivo se llama análisis de contorno (,).

Para ser honesto, nunca he podido aplicar el análisis de contorno en problemas reales. Se requieren condiciones demasiado ideales. O no hay límites o hay demasiado ruido. Pero, si necesitas reconocer algo en condiciones ideales- entonces el análisis de contornos es una opción maravillosa. Funciona muy rápido, hermosas matemáticas y lógica clara.
Puntos especiales
Los puntos singulares son características únicas de un objeto que permiten compararlo consigo mismo o con clases similares de objetos. Hay varias docenas de formas de identificar estos puntos. Algunos métodos resaltan puntos singulares en marcos adyacentes, algunos a través gran brecha En el momento y cuando cambia la iluminación, algunos permiten encontrar puntos especiales que permanecen así incluso cuando se gira el objeto. Empecemos con métodos que nos permiten encontrar puntos especiales, que no son tan estables, pero que se calculan rápidamente, y luego iremos en complejidad creciente:
Clase primera. Puntos especiales que se mantienen estables durante un período de segundos. Estos puntos se utilizan para guiar un objeto entre fotogramas de vídeo adyacentes o para combinar imágenes de cámaras vecinas. Dichos puntos incluyen máximos locales de la imagen, esquinas de la imagen (el mejor detector es, quizás, el detector Charis), puntos en los que se logra la máxima dispersión, ciertos gradientes, etc.
Segunda clase. Puntos especiales que se mantienen estables ante cambios de iluminación y pequeños movimientos del objeto. Estos puntos sirven principalmente para el entrenamiento y posterior clasificación de tipos de objetos. Por ejemplo, un clasificador de peatones o un clasificador de rostros es el producto de un sistema construido precisamente sobre dichos puntos. Algunas de las wavelets mencionadas anteriormente pueden ser la base de tales puntos. Por ejemplo, primitivas de Haar, búsqueda de aspectos destacados, búsqueda de otras funciones específicas. Estos puntos incluyen los encontrados mediante el método del histograma de gradientes direccionales (HOG).
Tercer grado. Puntos estables. Sólo conozco dos métodos que proporcionan estabilidad total y sus modificaciones. Estos son SURF y SIFT. Te permiten encontrar puntos especiales incluso cuando giras la imagen. El cálculo de dichos puntos lleva más tiempo en comparación con otros métodos, pero es suficiente. tiempo limitado. Desafortunadamente, estos métodos están patentados. Aunque en Rusia es imposible patentar algoritmos, se utiliza para el mercado interno.

Parte 3. Entrenamiento

La tercera parte de la historia estará dedicada a métodos que no trabajan directamente con la imagen, pero que permiten tomar decisiones. Básicamente es varios metodos aprendizaje automático y toma de decisiones. Recientemente Yandyx publicó un curso sobre este tema en Habr, es muy buena seleccion. Aquí está en la versión de texto. Para un estudio serio del tema, recomiendo verlos. Aquí intentaré describir varios métodos principales utilizados específicamente en el reconocimiento de patrones.
En el 80% de las situaciones, la esencia del aprendizaje en la tarea de reconocimiento es la siguiente:
Hay una muestra de prueba que contiene varias clases de objetos. Que sea la presencia/ausencia de una persona en la foto. Para cada imagen hay un conjunto de características que han sido resaltadas por alguna característica, ya sea Haar, HOG, SURF o alguna wavelet. El algoritmo de aprendizaje debe construir un modelo para poder analizar una nueva imagen y decidir qué objeto está en la imagen.
¿Cómo se hace esto? Cada una de las imágenes de prueba es un punto en el espacio de características. Sus coordenadas son el peso de cada una de las características de la imagen. Sean nuestras señales: “Presencia de ojos”, “Presencia de una nariz”, “Presencia de dos manos”, “Presencia de oídos”, etc... Destacaremos todas estas señales utilizando nuestros detectores existentes, que están entrenados en partes del cuerpo similares a las humanas Para una persona en un espacio así, el punto correcto sería. Para el mono, pon un punto para el caballo. El clasificador se entrena utilizando una muestra de ejemplos. Pero no en todas las fotografías mostraban manos, otras no tenían ojos y en la tercera, el mono tenía nariz humana por un error del clasificador. Un clasificador humano capacitado divide automáticamente el espacio de características de tal manera que diga: si la primera característica se encuentra en el rango 0,5 Esencialmente, el objetivo del clasificador es dibujar áreas en el espacio de características que sean características de los objetos de clasificación. Así es como se verá una aproximación secuencial a la respuesta para uno de los clasificadores (AdaBoost) en un espacio bidimensional:


Hay muchos clasificadores. Cada uno de ellos funciona mejor en alguna tarea en particular. La tarea de seleccionar un clasificador para una tarea específica es en gran medida un arte. Aquí hay algunas bellas imágenes sobre el tema.
Caso simple, separación unidimensional.
Veamos un ejemplo del caso más simple de clasificación, cuando el espacio de características es unidimensional y necesitamos separar 2 clases. Esta situación ocurre con más frecuencia de lo que piensas: por ejemplo, cuando necesitas distinguir dos señales o comparar un patrón con una muestra. Tengamos una muestra de entrenamiento. Esto produce una imagen donde el eje X es la medida de similitud y el eje Y es el número de eventos con dicha medida. Cuando el objeto deseado es similar a sí mismo, se obtiene una gaussiana izquierda. Cuando no lo parece, es el indicado. El valor de X=0,4 separa las muestras de modo que una decisión equivocada minimiza la probabilidad de tomar una decisión equivocada. La búsqueda de tal separador es tarea de clasificación.


Una pequeña nota. El criterio que minimice el error no siempre será el óptimo. El siguiente gráfico es un gráfico de un sistema de reconocimiento de iris real. Para tal sistema, el criterio se elige para minimizar la probabilidad de admisión falsa de una persona no autorizada a la instalación. Esta probabilidad se denomina “error tipo I”, “probabilidad de falsa alarma”, “falso positivo”. En la literatura en lengua inglesa “False Access Rate”.
) AdaBusta es uno de los clasificadores más comunes. Sobre él se construye, por ejemplo, la cascada Haar. Suele utilizarse cuando se necesita clasificación binaria, pero nada impide entrenar para un mayor número de clases.
SVM ( , , , ) Uno de los clasificadores más potentes, que tiene muchas implementaciones. Básicamente, en las tareas de aprendizaje que encontré, funcionó de manera similar a Adabusta. Se considera bastante rápido, pero su entrenamiento es más difícil que el de Adabusta y requiere elegir el core adecuado.

También hay redes neuronales y regresión. Pero para clasificarlos brevemente y mostrar en qué se diferencian, necesitamos un artículo mucho más extenso que este.
________________________________________________
Espero haber podido ofrecer una descripción general rápida de los métodos utilizados sin sumergirme en las matemáticas y la descripción. Quizás esto ayude a alguien. Aunque, por supuesto, el artículo está incompleto y no dice una palabra sobre cómo trabajar con imágenes estéreo, ni sobre LSM con filtro de Kalman, ni sobre el enfoque adaptativo de Bayes.
Si te gusta el artículo, intentaré hacer una segunda parte con una selección de ejemplos de cómo se resuelven los problemas existentes de ImageRecognition.

Y finalmente

¿Qué leer?
1) Una vez me gustó mucho el libro "Procesamiento de imágenes digitales" de B. Yane, que está escrito de forma sencilla y clara, pero al mismo tiempo se dan casi todas las matemáticas. Bueno para familiarizarse con los métodos existentes.
2) Un clásico del género es R. González, R. Woods “Digital Image Processing”. Por alguna razón fue más difícil para mí que el primero. Mucho menos matemáticas, pero más métodos e imágenes.
3) “Procesamiento y análisis de imágenes en problemas de visión por computadora”, escrito sobre la base de un curso impartido en uno de los departamentos de Física y Tecnología. Hay muchos métodos y sus descripciones detalladas. Pero en mi opinión, el libro tiene dos grandes desventajas: se centra fuertemente en el paquete de software que lo acompaña, con demasiada frecuencia la descripción de un método simple se convierte en una jungla matemática de la que es difícil salir; derivar el diagrama estructural del método. Pero los autores han creado un sitio web conveniente donde se presenta casi todo el contenido: wiki.technicalvision.ru Agregar etiquetas

domingo, 29 de marzo de 2015

Actualmente existen muchas tareas en las que es necesario tomar alguna decisión en función de la presencia de un objeto en la imagen o clasificarlo. La capacidad de “reconocer” se considera la principal propiedad de los seres biológicos, mientras que los sistemas informáticos no poseen plenamente esta propiedad.

Veamos los elementos generales del modelo de clasificación.

Clase- un conjunto de objetos con propiedades comunes. Para objetos de la misma clase, se supone la presencia de "similitud". Para una tarea de reconocimiento, se puede definir un número arbitrario de clases, mayor que 1. El número de clases se indica con el número S. Cada clase tiene su propia etiqueta de clase de identificación.

Clasificación- el proceso de asignar etiquetas de clase a objetos, según alguna descripción de las propiedades de estos objetos. Un clasificador es un dispositivo que recibe un conjunto de atributos de objeto como datos de entrada y como resultado produce una etiqueta de clase.

Verificación- el proceso de mapear una instancia de objeto a un modelo de objeto único o descripción de clase.

Bajo forma entenderemos el nombre del área en el espacio de características en la que se muestran muchos objetos o fenómenos del mundo material. Firmar- una descripción cuantitativa de una propiedad particular del objeto o fenómeno que se está estudiando.

Espacio de funciones este es un espacio N-dimensional definido para una tarea de reconocimiento determinada, donde N es un número fijo de características medidas para cualquier objeto. Un vector del espacio de características x correspondiente al objeto de la tarea de reconocimiento es un vector N-dimensional con componentes (x_1,x_2,…,x_N), que son los valores de característica de este objeto.

En otras palabras, el reconocimiento de patrones se puede definir como la asignación de datos de origen a una determinada clase mediante la identificación de características o propiedades significativas que caracterizan estos datos a partir de la masa total de detalles sin importancia.

Ejemplos de problemas de clasificación son:

  • reconocimiento de personajes;
  • reconocimiento de voz;
  • establecer un diagnóstico médico;
  • pronóstico del tiempo;
  • reconocimiento facial
  • clasificación de documentos, etc.

Muy a menudo, el material de origen es la imagen recibida de la cámara. El problema se puede formular como la obtención de vectores de características para cada clase de la imagen considerada. El proceso puede verse como un proceso de codificación que implica asignar un valor a cada característica del espacio de características para cada clase.

Si consideramos 2 clases de objetos: adultos y niños. Puedes elegir altura y peso como signos. Como se desprende de la figura, estas dos clases forman dos conjuntos disjuntos, que pueden explicarse por las características seleccionadas. Sin embargo, no siempre es posible seleccionar los parámetros medidos correctos como características de clase. Por ejemplo, los parámetros seleccionados no son adecuados para crear clases separadas de jugadores de fútbol y baloncesto.

La segunda tarea del reconocimiento es extraer rasgos o propiedades característicos de las imágenes originales. Esta tarea se puede clasificar como preprocesamiento. Si consideramos la tarea del reconocimiento de voz, podemos distinguir características como vocales y consonantes. El atributo debe ser una propiedad característica de una clase particular y al mismo tiempo común a esta clase. Características que caracterizan las diferencias entre - características entre clases. Las características comunes a todas las clases no contienen información útil y no se consideran características en la tarea de reconocimiento. La selección de funciones es una de las tareas importantes asociadas con la creación de un sistema de reconocimiento.

Una vez determinadas las características, se debe determinar el procedimiento de decisión óptimo para la clasificación. Consideremos un sistema de reconocimiento de patrones diseñado para reconocer diferentes clases M, denotadas como m_1,m_2,…,m 3. Entonces podemos suponer que el espacio de la imagen consta de M regiones, cada una de las cuales contiene puntos correspondientes a una imagen de una clase. Entonces, se puede considerar que el problema de reconocimiento consiste en construir límites que separan M clases en función de los vectores de medición adoptados.

La solución del problema del preprocesamiento de imágenes, la extracción de características y el problema de obtener una solución y clasificación óptimas suele estar asociado con la necesidad de estimar una serie de parámetros. Esto conduce al problema de la estimación de parámetros. Además, es obvio que la extracción de características puede utilizar información adicional según la naturaleza de las clases.

Los objetos se pueden comparar en función de su representación como vectores de medición. Es conveniente representar los datos de medición en forma de números reales. Entonces, la similitud de los vectores de características de dos objetos se puede describir utilizando la distancia euclidiana.

donde d es la dimensión del vector de características.

Hay 3 grupos de métodos de reconocimiento de patrones:

  • Comparación con muestra. Este grupo incluye clasificación por promedio más cercano, clasificación por distancia al vecino más cercano. Los métodos de reconocimiento estructural también pueden incluirse en el grupo de comparación con la muestra.
  • Métodos estadísticos. Como sugiere el nombre, los métodos estadísticos utilizan cierta información estadística al resolver un problema de reconocimiento. El método determina si un objeto pertenece a una clase específica basándose en la probabilidad. En algunos casos, esto se reduce a determinar la probabilidad posterior de que un objeto pertenezca a una clase específica, siempre que las características de este objeto hayan tomado los valores apropiados. Un ejemplo es el método basado en la regla de decisión bayesiana.
  • Redes neuronales. Una clase separada de métodos de reconocimiento. Una característica distintiva de los demás es la capacidad de aprender.

Clasificación por media más cercana

En el enfoque clásico de reconocimiento de patrones, en el que un objeto desconocido para su clasificación se representa como un vector de características elementales. Un sistema de reconocimiento basado en características se puede desarrollar de varias maneras. El sistema puede conocer estos vectores de antemano como resultado del entrenamiento o predecirlos en tiempo real basándose en algunos modelos.

Un algoritmo de clasificación simple consiste en agrupar los datos de referencia de clase utilizando el vector de expectativa de clase (media).

donde x(i,j) es la j-ésima característica de referencia de la clase i, n_j es el número de vectores de referencia de la clase i.

Entonces un objeto desconocido pertenecerá a la clase i si está significativamente más cerca del vector de expectativas matemáticas de la clase i que de los vectores de expectativas matemáticas de otras clases. Este método es adecuado para problemas en los que los puntos de cada clase están ubicados de forma compacta y lejos de puntos de otras clases.

Surgirán dificultades si las clases tienen una estructura un poco más compleja, como por ejemplo en la figura. En este caso, la clase 2 se divide en dos secciones disjuntas que están mal descritas por un único valor promedio. Además, la clase 3 es demasiado alargada; las muestras de la clase 3 con valores de coordenadas grandes x_2 están más cerca del valor promedio de la clase 1 que de la clase 3.

El problema descrito en algunos casos se puede solucionar cambiando el cálculo de la distancia.

Tendremos en cuenta la característica de "dispersión" de los valores de clase - σ_i, a lo largo de cada dirección de coordenadas i. La desviación estándar es igual a la raíz cuadrada de la varianza. La distancia euclidiana escalada entre el vector x y el vector de expectativa x_c es

Esta fórmula de distancia reducirá el número de errores de clasificación, pero en realidad la mayoría de los problemas no pueden representarse mediante una clase tan simple.

Clasificación por distancia al vecino más cercano

Otro enfoque de clasificación es asignar un vector de características desconocido x a la clase a la que la muestra individual de este vector es más similar. Esta regla se llama regla del vecino más cercano. La clasificación del vecino más cercano puede ser más eficiente incluso cuando las clases tienen estructuras complejas o cuando las clases se superponen.

Este enfoque no requiere suposiciones sobre los modelos de distribución de vectores de características en el espacio. El algoritmo utiliza únicamente información sobre muestras de referencia conocidas. El método de solución se basa en calcular la distancia x a cada muestra en la base de datos y encontrar la distancia mínima. Las ventajas de este enfoque son obvias:

  • puedes agregar nuevas muestras a la base de datos en cualquier momento;
  • Las estructuras de datos de árbol y cuadrícula reducen el número de distancias calculadas.

Además, la solución será mejor si buscamos en la base de datos no un vecino más cercano, sino k. Entonces, para k > 1, proporciona el mejor muestreo de la distribución de vectores en el espacio d-dimensional. Sin embargo, el uso eficiente de los valores de k depende de si hay números suficientes en cada región del espacio. Si hay más de dos clases, resulta más difícil tomar la decisión correcta.

Literatura

  • M. Castrillón, . O. Deniz, . D. Hernández y J. Lorenzo, “Una comparación de detectores de rostros y rasgos faciales basados ​​en el marco general de detección de objetos de Viola-Jones”, International Journal of Computer Vision, no 22, págs. 481-494, 2011.
  • Y.-Q. Wang, “Un análisis del algoritmo de detección de rostros de Viola-Jones”, IPOL Journal, 2013.
  • L. Shapiro y D. Stockman, Visión por computadora, Binom. Laboratorio de Conocimiento, 2006.
  • Z. N. G., Métodos de reconocimiento y su aplicación, Radio Soviética, 1972.
  • J. Tu, R. González, Principios matemáticos del reconocimiento de patrones, Moscú: “Mir” Moscú, 1974.
  • Khan, H. Abdullah y M. Shamian Bin Zainal, “Algoritmo eficiente de detección de ojos y boca utilizando una combinación de viola jones y detección de píxeles del color de la piel”, Revista Internacional de Ingeniería y Ciencias Aplicadas, núm. 3 N° 4, 2013.
  • V. Gaede y O. Gunther, “Métodos de acceso multidimensional”, ACM Computing Surveys, págs. 170-231, 1998.

Capítulo 3: Revisión analítica de los métodos de reconocimiento de patrones y toma de decisiones

Teoría del reconocimiento de patrones y automatización del control.

Principales tareas del reconocimiento de patrones adaptativos.

El reconocimiento es un proceso de información implementado por algún conversor de información (canal de información inteligente, sistema de reconocimiento) que tiene una entrada y una salida. La entrada del sistema es información sobre las características que tienen los objetos presentados. La salida del sistema muestra información sobre a qué clases (imágenes generalizadas) pertenecen los objetos reconocidos.

Al crear y operar un sistema automatizado de reconocimiento de patrones, se resuelven una serie de problemas. Consideremos breve y simplemente estas tareas. Tenga en cuenta que diferentes autores tienen las mismas formulaciones de estos problemas, y el conjunto en sí no coincide, ya que depende en cierta medida del modelo matemático específico en el que se basa tal o cual sistema de reconocimiento. Además, algunos problemas en determinados modelos de reconocimiento no tienen solución y, por tanto, no se plantean.

La tarea de formalizar el área temática.

Básicamente, esta tarea es una tarea de codificación. Se compila una lista de clases generalizadas a las que pueden pertenecer implementaciones específicas de objetos, así como una lista de características que estos objetos, en principio, pueden poseer.

La tarea de formar una muestra de entrenamiento.

El conjunto de entrenamiento es una base de datos que contiene descripciones de implementaciones específicas de objetos en el lenguaje de características, complementadas con información sobre la pertenencia de estos objetos a ciertas clases de reconocimiento.

Tarea de entrenamiento del sistema de reconocimiento.

La muestra de entrenamiento se utiliza para formar imágenes generalizadas de clases de reconocimiento basadas en la generalización de información sobre qué características tienen los objetos de la muestra de entrenamiento que pertenecen a esta clase y otras clases.

El problema de reducir la dimensión del espacio de características.

Después de entrenar el sistema de reconocimiento (obteniendo estadísticas sobre la distribución de frecuencia de características por clase), es posible determinar para cada característica su valor para resolver el problema de reconocimiento. Después de esto, las funciones menos valiosas se pueden eliminar del sistema de funciones. Luego, el sistema de reconocimiento debe entrenarse nuevamente, ya que como resultado de eliminar algunas características, las estadísticas de la distribución de las características restantes por clase cambian. Este proceso se puede repetir, es decir ser iterativo.

Tarea de reconocimiento

Se reconocen objetos de la muestra reconocida, que en particular pueden estar compuestos por un solo objeto. La muestra de reconocimiento se forma de manera similar a la de entrenamiento, pero no contiene información sobre la pertenencia de los objetos a las clases, ya que esto es precisamente lo que se determina durante el proceso de reconocimiento. El resultado de reconocer cada objeto es una distribución o lista de todas las clases de reconocimiento en orden descendente del grado de similitud del objeto reconocido con ellas.

Problema de control de calidad de reconocimiento.

Tras el reconocimiento, se podrá establecer su adecuación. Para los objetos de la muestra de entrenamiento, esto se puede hacer de inmediato, ya que para ellos simplemente se sabe a qué clases pertenecen. Para otros objetos esta información se puede obtener más adelante. En cualquier caso, se puede determinar la probabilidad media real de error para todas las clases de reconocimiento, así como la probabilidad de error al asignar un objeto reconocido a una clase específica.

Los resultados del reconocimiento deben interpretarse teniendo en cuenta la información disponible sobre la calidad del reconocimiento.

Problema de adaptación

Si, como resultado del procedimiento de control de calidad, se determina que no es satisfactorio, entonces las descripciones de los objetos reconocidos incorrectamente pueden copiarse de la muestra reconocida a la de entrenamiento, complementarse con información de clasificación adecuada y usarse para reformatear las reglas de decisión. , es decir. tomado en cuenta. Además, si estos objetos no pertenecen a clases de reconocimiento existentes, lo que podría ser el motivo de su reconocimiento incorrecto, entonces esta lista se puede ampliar. Como resultado, el sistema de reconocimiento se adapta y comienza a clasificar adecuadamente estos objetos.

Problema de reconocimiento inverso

La tarea de reconocimiento es que para un objeto determinado, en función de sus características conocidas, el sistema establece su pertenencia a alguna clase previamente desconocida. En el problema de reconocimiento inverso, por el contrario, para una determinada clase de reconocimiento, el sistema establece qué rasgos son más característicos de los objetos de esta clase y cuáles no (o qué objetos de la muestra de entrenamiento pertenecen a esta clase).

Problemas de cluster y análisis constructivo.

Los clústeres son grupos de objetos, clases o características que dentro de cada clúster son lo más similares posible y entre diferentes clústeres son lo más diferentes posible.

Un constructo (en el contexto analizado en esta sección) es un sistema de grupos opuestos. Así, en cierto sentido, los constructos son el resultado del análisis de conglomerados de conglomerados.

En el análisis de conglomerados, se mide cuantitativamente el grado de similitud y diferencia entre objetos (clases, características) y esta información se utiliza para la clasificación. El resultado del análisis de conglomerados es la clasificación de objetos en conglomerados. Esta clasificación se puede representar en forma de redes semánticas.

Tarea de análisis cognitivo

En el análisis cognitivo, la información sobre las similitudes y diferencias entre clases o características es de interés para el investigador en sí misma, y ​​no para utilizarla para la clasificación, como en el análisis constructivo y de conglomerados.

Si el mismo rasgo es característico de dos clases de reconocimiento, esto contribuye a la similitud de estas dos clases. Si para una de las clases esta característica no es característica, entonces esto contribuye a la diferencia.

Si dos características se correlacionan entre sí, entonces, en cierto sentido, pueden considerarse como una característica, y si están anticorrelacionadas, entonces como diferentes. Teniendo en cuenta esta circunstancia, la presencia de diferentes características en diferentes clases también contribuye en cierta medida a su similitud y diferencia.

Los resultados del análisis cognitivo se pueden presentar en forma de diagramas cognitivos.

Métodos de reconocimiento de patrones y sus características.

Principios de clasificación de métodos de reconocimiento de patrones.

El reconocimiento de patrones se refiere al problema de construir y aplicar operaciones formales sobre representaciones numéricas o simbólicas de objetos en el mundo real o ideal, cuyos resultados reflejan las relaciones de equivalencia entre estos objetos. Las relaciones de equivalencia expresan la pertenencia de los objetos evaluados a cualesquiera clases, consideradas como unidades semánticas independientes.

Al construir algoritmos de reconocimiento, las clases de equivalencia pueden ser especificadas por un investigador que utiliza sus propias ideas significativas o utiliza información adicional externa sobre las similitudes y diferencias de los objetos en el contexto del problema que se resuelve. Luego hablan de “reconocimiento con un maestro”. De lo contrario, es decir Cuando un sistema automatizado resuelve un problema de clasificación sin el uso de información de entrenamiento externo, hablamos de clasificación automática o "reconocimiento no supervisado". La mayoría de los algoritmos de reconocimiento de patrones requieren el uso de una potencia informática muy significativa, que sólo puede ser proporcionada por tecnología informática de alto rendimiento.

Varios autores (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, F.E. Temnikov, J. Tu, R. González, P. Winston, K. Fu, Ya.Z. Tsypkin, etc.) dan una tipología diferente de métodos de reconocimiento de patrones. Algunos autores distinguen entre métodos paramétricos, no paramétricos y heurísticos, otros identifican grupos de métodos basados ​​en escuelas y tendencias históricamente establecidas en este campo. Por ejemplo, en el trabajo, que proporciona una descripción académica de los métodos de reconocimiento, se utiliza la siguiente tipología de métodos de reconocimiento de patrones:

  • métodos basados ​​en el principio de separación;
  • métodos estadísticos;
  • métodos construidos sobre la base de “funciones potenciales”;
  • métodos para calcular calificaciones (votación);
  • métodos basados ​​en el cálculo proposicional, en particular en el aparato de álgebra lógica.

Esta clasificación se basa en la diferencia en los métodos formales de reconocimiento de patrones y, por lo tanto, omite la consideración del enfoque heurístico del reconocimiento, que ha recibido un desarrollo completo y adecuado en los sistemas expertos. El enfoque heurístico se basa en el conocimiento y la intuición del investigador, difíciles de formalizar. En este caso, el propio investigador determina qué información y cómo debe utilizar el sistema para lograr el efecto de reconocimiento requerido.

En muchos trabajos sobre reconocimiento se encuentra una tipología similar de métodos de reconocimiento con distintos grados de detalle. Al mismo tiempo, las tipologías conocidas no tienen en cuenta una característica muy significativa, que refleja la especificidad de la forma de representar el conocimiento sobre un área temática utilizando cualquier algoritmo formal de reconocimiento de patrones.

D.A. Pospelov (1990) identifica dos formas principales de presentar el conocimiento:

  • intencional, en forma de diagrama de conexiones entre atributos (características).
  • extensional, con la ayuda de hechos específicos (objetos, ejemplos).

La representación intencional captura los patrones y conexiones que explican la estructura de los datos. En relación con las tareas de diagnóstico, dicha fijación consiste en definir operaciones sobre atributos (características) de los objetos que conducen al resultado de diagnóstico requerido. Las representaciones intencionales se implementan mediante operaciones sobre valores de atributos y no implican operaciones sobre hechos de información específicos (objetos).

A su vez, las representaciones extensionales del conocimiento están asociadas a la descripción y fijación de objetos específicos del área temática y se implementan en operaciones, cuyos elementos son objetos como sistemas integrales.

Se puede establecer una analogía entre las representaciones intensionales y extensionales del conocimiento y los mecanismos subyacentes a la actividad de los hemisferios izquierdo y derecho del cerebro humano. Si el hemisferio derecho se caracteriza por una representación prototipo holística del mundo circundante, entonces el hemisferio izquierdo opera con patrones que reflejan las conexiones entre los atributos de este mundo.

Las dos formas fundamentales de representar el conocimiento descritas anteriormente nos permiten proponer la siguiente clasificación de métodos de reconocimiento de patrones:

  • Métodos intencionales basados ​​en operaciones con atributos.
  • Métodos extensionales basados ​​en operaciones con objetos.

Hay que subrayar especialmente que la existencia de precisamente estos dos (y sólo dos) grupos de métodos de reconocimiento: los que operan con signos y los que operan con objetos, es profundamente natural. Desde este punto de vista, ninguno de estos métodos, tomados por separado del otro, nos permite formar una reflexión adecuada del área temática. Según los autores, existe una relación de complementariedad entre estos métodos en el sentido de N. Bohr, por lo que los sistemas de reconocimiento prometedores deberían prever la implementación de ambos métodos, y no cualquiera de ellos.

Así, la clasificación de los métodos de reconocimiento propuesta por D. A. Pospelov se basa en los patrones fundamentales que subyacen al modo de conocimiento humano en general, lo que lo coloca en una posición completamente especial (privilegiada) en comparación con otras clasificaciones que, en este contexto, parecen más ligeras y artificial.

Métodos intensionales

Una característica distintiva de los métodos intensionales es que utilizan diversas características de características y sus conexiones como elementos de operaciones al construir y aplicar algoritmos de reconocimiento de patrones. Dichos elementos pueden ser valores individuales o intervalos de valores de características, valores promedio y variaciones, matrices de relaciones de características, etc., sobre las cuales se realizan acciones, expresadas en forma analítica o constructiva. Al mismo tiempo, los objetos en estos métodos no se consideran unidades de información integral, sino que actúan como indicadores para evaluar la interacción y el comportamiento de sus atributos.

El grupo de métodos intensionales para el reconocimiento de patrones es extenso y su división en subclases es hasta cierto punto condicional.

Métodos basados ​​en estimaciones de densidades de distribución de valores de características.

Estos métodos de reconocimiento de patrones se toman prestados de la teoría clásica de las decisiones estadísticas, en la que los objetos de estudio se consideran realizaciones de una variable aleatoria multidimensional distribuida en el espacio de características de acuerdo con alguna ley. Se basan en un esquema bayesiano de toma de decisiones que apela a probabilidades a priori de objetos que pertenecen a una clase reconocible particular y densidades de distribución condicionales de valores de vectores de características. Estos métodos se reducen a determinar la relación de probabilidad en varias áreas del espacio de características multidimensional.

Un grupo de métodos basados ​​​​en la estimación de las densidades de distribución de valores de características está directamente relacionado con los métodos de análisis discriminante. El enfoque bayesiano para la toma de decisiones es uno de los llamados métodos paramétricos más desarrollados en la estadística moderna, para el cual la expresión analítica de la ley de distribución (en este caso, la ley normal) se considera conocida y solo un pequeño número de parámetros ( Se requieren vectores de valores promedio y matrices de covarianza).

Las principales dificultades al utilizar estos métodos son la necesidad de recordar toda la muestra de entrenamiento para calcular estimaciones de las densidades de distribución de probabilidad local y la alta sensibilidad a la falta de representatividad de la muestra de entrenamiento.

Métodos basados ​​en supuestos sobre la clase de funciones de decisión.

En este grupo de métodos se considera conocida la forma general de la función de decisión y se especifica su calidad funcional. Con base en esta funcional, la mejor aproximación de la función de decisión se encuentra utilizando la secuencia de entrenamiento. Las más comunes son las representaciones de funciones de decisión en forma de polinomios lineales y no lineales generalizados. La regla de decisión funcional de calidad suele estar asociada con un error de clasificación.

La principal ventaja de los métodos basados ​​​​en supuestos sobre la clase de funciones de decisión es la claridad de la formulación matemática del problema de reconocimiento como un problema de búsqueda de un extremo. La variedad de métodos en este grupo se explica por la amplia gama de funcionales de calidad de reglas de decisión y algoritmos de búsqueda extremos utilizados. Una generalización de los algoritmos considerados, que incluyen, en particular, el algoritmo de Newton, los algoritmos de tipo perceptrón, etc., es el método de aproximación estocástica.

Las capacidades de los algoritmos de búsqueda de extremos de gradiente, especialmente en el grupo de reglas de decisión lineal, han sido bastante estudiadas. La convergencia de estos algoritmos se ha demostrado sólo en el caso en que las clases de objetos reconocidas se muestran en el espacio de características mediante estructuras geométricas compactas.

Se puede lograr una calidad suficientemente alta de la regla de decisión utilizando algoritmos que no tengan una prueba matemática estricta de la convergencia de la solución a un extremo global. Dichos algoritmos incluyen un gran grupo de procedimientos de programación heurística que representan la dirección del modelado evolutivo. El modelado evolutivo es un método biónico tomado de la naturaleza. Se basa en el uso de mecanismos de evolución conocidos para reemplazar el proceso de modelado significativo de un objeto complejo por el modelado fenomenológico de su evolución. Un conocido representante del modelado evolutivo en el reconocimiento de patrones es el método de contabilidad grupal de argumentos (MGUA). La base de GMDH es el principio de autoorganización y los algoritmos de GMDH reproducen el esquema de selección masiva.

Sin embargo, el logro de objetivos prácticos en este caso no va acompañado de la extracción de nuevos conocimientos sobre la naturaleza de los objetos que se reconocen. La posibilidad de extraer este conocimiento, en particular el conocimiento sobre los mecanismos de interacción de atributos (características), está aquí fundamentalmente limitada por la estructura dada de dicha interacción, fijada en la forma seleccionada de funciones de decisión.

Métodos booleanos

Los métodos lógicos de reconocimiento de patrones se basan en el aparato del álgebra lógica y permiten operar con información contenida no sólo en características individuales, sino también en combinaciones de valores de características. En estos métodos, los valores de cualquier atributo se consideran eventos elementales.

En su forma más general, los métodos lógicos se pueden caracterizar como un tipo de búsqueda a través de una muestra de entrenamiento de patrones lógicos y la formación de un determinado sistema de reglas de decisión lógica (por ejemplo, en forma de conjunciones de eventos elementales), cada una de las cuales que tiene su propio peso. El grupo de métodos lógicos es diverso e incluye métodos de diversa complejidad y profundidad de análisis. Para características dicotómicas (booleanas), son populares los llamados clasificadores en forma de árbol, el método de prueba sin salida, el algoritmo "Bark", etc.

El algoritmo "Kora", al igual que otros métodos lógicos de reconocimiento de patrones, requiere un uso computacional bastante intensivo, ya que se requiere una búsqueda completa al seleccionar conjunciones. Por lo tanto, cuando se utilizan métodos lógicos, se imponen grandes exigencias a la organización eficiente del proceso computacional, y estos métodos funcionan bien con dimensiones relativamente pequeñas del espacio de características y solo en computadoras potentes.

Métodos lingüísticos (estructurales)

Los métodos lingüísticos de reconocimiento de patrones se basan en el uso de gramáticas especiales que generan lenguajes que pueden usarse para describir el conjunto de propiedades de los objetos reconocidos.

Para varias clases de objetos, se identifican elementos no derivados (atómicos) (subimágenes, atributos) y posibles relaciones entre ellos. La gramática se refiere a las reglas para construir objetos a partir de estos elementos no derivados.

Así, cada objeto es una colección de elementos no derivados, “conectados” entre sí de una forma u otra o, en otras palabras, por una “frase” de algún “lenguaje”. Me gustaría subrayar especialmente el valor ideológico muy significativo de este pensamiento.

Al analizar sintácticamente (analizar gramaticalmente) una “oración”, se determina su “corrección” sintáctica o, de manera equivalente, si alguna gramática fija que describe una clase puede generar la descripción existente de un objeto.

Sin embargo, la tarea de reconstruir (definir) gramáticas a partir de un determinado conjunto de enunciados (oraciones - descripciones de objetos) que generan un lenguaje determinado es difícil de formalizar.

Métodos extensionales

En los métodos de este grupo, a diferencia de la dirección intensional, a cada objeto estudiado se le otorga, en mayor o menor medida, un significado diagnóstico independiente. En esencia, estos métodos se acercan al enfoque clínico, que considera a las personas no como una cadena de objetos clasificados según un indicador u otro, sino como sistemas integrales, cada uno de los cuales es individual y tiene un valor diagnóstico especial. Esta actitud cuidadosa hacia los objetos de investigación no permite excluir o perder información sobre cada objeto individual, lo que ocurre cuando se utilizan métodos de dirección intencional que utilizan objetos sólo para detectar y registrar patrones de comportamiento de sus atributos.

Las principales operaciones en el reconocimiento de patrones utilizando los métodos discutidos son las operaciones para determinar las similitudes y diferencias de los objetos. Los objetos del grupo de métodos especificado desempeñan el papel de precedentes de diagnóstico. Además, dependiendo de las condiciones de una tarea específica, el papel de un precedente individual puede variar dentro de los límites más amplios: desde el principal y determinante hasta la participación muy indirecta en el proceso de reconocimiento. A su vez, las condiciones del problema pueden requerir la participación de un número diferente de precedentes de diagnóstico para una solución exitosa: desde uno en cada clase reconocida hasta el tamaño de muestra completo, así como diferentes métodos para calcular medidas de similitud y diferencia de objetos. . Estos requisitos explican la división adicional de los métodos extensionales en subclases.

Método de comparación con un prototipo.

Este es el método de reconocimiento extensional más simple. Se utiliza, por ejemplo, en el caso en que las clases reconocidas se muestran en el espacio de características mediante agrupaciones geométricas compactas. En este caso, normalmente se selecciona como punto prototipo el centro de la agrupación geométrica de la clase (o el objeto más cercano al centro).

Para clasificar un objeto desconocido, se encuentra el prototipo más cercano y el objeto pertenece a la misma clase que este prototipo. Obviamente, en este método no se generan imágenes de clases generalizadas.

Se pueden utilizar varios tipos de distancias como medida de proximidad. A menudo, para características dicotómicas, se utiliza la distancia de Hamming, que en este caso es igual al cuadrado de la distancia euclidiana. En este caso, la regla de decisión para clasificar objetos es equivalente a una función de decisión lineal.

Este hecho debe destacarse especialmente. Demuestra claramente la conexión entre el prototipo y la representación de atributos de información sobre la estructura de los datos. Utilizando la representación anterior, se puede, por ejemplo, considerar cualquier escala de medición tradicional, que sea una función lineal de los valores de características dicotómicas, como un prototipo de diagnóstico hipotético. A su vez, si el análisis de la estructura espacial de las clases reconocidas nos permite sacar una conclusión sobre su compacidad geométrica, entonces basta con reemplazar cada una de estas clases con un prototipo, que en realidad equivale a un modelo de diagnóstico lineal.

En la práctica, por supuesto, la situación suele ser diferente del ejemplo idealizado descrito. Un investigador que pretende aplicar un método de reconocimiento basado en la comparación con clases de diagnóstico prototipo se enfrenta a problemas difíciles.

En primer lugar, se trata de la elección de la medida de proximidad (métrica), que puede cambiar significativamente la configuración espacial de la distribución de los objetos. En segundo lugar, un problema independiente es el análisis de estructuras multidimensionales de datos experimentales. Ambos problemas son especialmente graves para el investigador en condiciones de alta dimensionalidad del espacio de características, característica de los problemas reales.

k método de vecinos más cercanos

El método del vecino más cercano para resolver problemas de análisis discriminante se propuso por primera vez en 1952. Es el siguiente.

Al clasificar un objeto desconocido, se encuentra un número dado (k) de características geométricamente más cercanas a él en el espacio de otros objetos (vecinos más cercanos) con pertenencia ya conocida a clases reconocidas. La decisión de asignar un objeto desconocido a una clase de diagnóstico particular se toma analizando información sobre esta afiliación conocida de sus vecinos más cercanos, por ejemplo, utilizando un simple recuento de votos.

Inicialmente, el método de los k vecinos más cercanos se consideró como un método no paramétrico para estimar la razón de verosimilitud. Para este método, se obtuvieron estimaciones teóricas de su efectividad en comparación con el clasificador bayesiano óptimo. Se ha demostrado que las probabilidades de error asintótico para el método de los k vecinos más cercanos exceden los errores de la regla de Bayes en no más del doble.

Cuando se utiliza el método de los k vecinos más cercanos para el reconocimiento de patrones, el investigador tiene que resolver el difícil problema de elegir una métrica para determinar la proximidad de los objetos diagnosticados. Este problema en condiciones de alta dimensionalidad del espacio de características se agrava enormemente debido a la suficiente complejidad de este método, que resulta significativo incluso para computadoras de alto rendimiento. Por lo tanto, aquí, al igual que en el método de comparación con un prototipo, es necesario resolver el problema creativo de analizar la estructura multidimensional de los datos experimentales para minimizar el número de objetos que representan clases de diagnóstico.

La necesidad de reducir el número de objetos en la muestra de entrenamiento (precedentes de diagnóstico) es una desventaja de este método, ya que reduce la representatividad de la muestra de entrenamiento.

Algoritmos para calcular calificaciones (“votación”)

El principio de funcionamiento de los algoritmos de cálculo de evaluación (ABO) es calcular prioridades (puntuaciones de similitud) que caracterizan la "proximidad" de los objetos reconocidos y de referencia de acuerdo con un sistema de conjuntos de características, que es un sistema de subconjuntos de un conjunto de características dado. .

A diferencia de todos los métodos discutidos anteriormente, los algoritmos para calcular estimaciones operan con descripciones de objetos de una manera fundamentalmente nueva. Para estos algoritmos, los objetos existen simultáneamente en subespacios muy diferentes del espacio de características. La clase ABO lleva la idea de utilizar características a su conclusión lógica: dado que no siempre se sabe qué combinaciones de características son las más informativas, en ABO el grado de similitud de los objetos se calcula comparando todas las combinaciones posibles o específicas de características incluidas en las descripciones de los objetos.

Los autores denominan a las combinaciones de características utilizadas (subespacios) conjuntos de soporte o conjuntos de descripciones parciales de objetos. Se introduce el concepto de proximidad generalizada entre el objeto reconocido y los objetos de la muestra de entrenamiento (con una clasificación conocida), que se denominan objetos de referencia. Esta proximidad está representada por una combinación de la proximidad del objeto reconocido con los objetos de referencia, calculada sobre conjuntos de descripciones parciales. Por tanto, ABO es una extensión del método de los k vecinos más cercanos, en el que la proximidad de los objetos se considera sólo en un espacio de características determinado.

Otra extensión del ABO es que en estos algoritmos la tarea de determinar la similitud y diferencia de objetos se formula como paramétrica y se resalta la etapa de configuración del ABO en base al conjunto de entrenamiento, en el que se determinan los valores óptimos de los ingresados. Se seleccionan los parámetros. El criterio de calidad es el error de reconocimiento, y literalmente todo está parametrizado:

  • reglas para calcular la proximidad de objetos en función de características individuales;
  • reglas para calcular la proximidad de objetos en subespacios de características;
  • el grado de importancia de un objeto de referencia particular como precedente de diagnóstico;
  • la importancia de la contribución de cada conjunto de características de referencia a la evaluación final de la similitud del objeto reconocido con cualquier clase de diagnóstico.

Los parámetros ABO se especifican en forma de valores umbral y (o) como pesos de los componentes especificados.

Las capacidades teóricas de AVO no son al menos inferiores a las de cualquier otro algoritmo de reconocimiento de patrones, ya que con la ayuda de AVO se pueden implementar todas las operaciones imaginables con los objetos en estudio.

Pero, como suele ser el caso, la expansión de capacidades potenciales enfrenta grandes dificultades en su implementación práctica, especialmente en la etapa de construcción (ajuste) de algoritmos de este tipo.

Se observaron algunas dificultades anteriormente al analizar el método de los k vecinos más cercanos, que podría interpretarse como una versión truncada de ABO. También se puede considerar en forma paramétrica y reducir el problema a encontrar una métrica ponderada del tipo seleccionado. Al mismo tiempo, ya aquí, para problemas de alta dimensión, surgen cuestiones teóricas complejas y problemas relacionados con la organización de un proceso computacional efectivo.

Para AVO, si intenta utilizar las capacidades de estos algoritmos al máximo, estas dificultades aumentan muchas veces.

Los problemas observados explican el hecho de que, en la práctica, el uso de ABO para resolver problemas de alta dimensión va acompañado de la introducción de algunas restricciones y suposiciones heurísticas. En particular, existe un ejemplo bien conocido del uso de ABO en psicodiagnóstico, en el que se probó un tipo de ABO que en realidad es equivalente al método de los k vecinos más cercanos.

Colectivos de reglas de decisión

Para completar nuestra revisión de los métodos de reconocimiento de patrones, veamos un enfoque más. Estos son los llamados colectivos de reglas de decisión (DRG).

Dado que diferentes algoritmos de reconocimiento se manifiestan de manera diferente en la misma muestra de objetos, naturalmente surge la cuestión de una regla de decisión sintética que utilice de manera adaptativa las fortalezas de estos algoritmos. La regla de decisión sintética utiliza un esquema de reconocimiento de dos niveles. En el primer nivel operan algoritmos de reconocimiento privado, cuyos resultados se combinan en el segundo nivel en el bloque de síntesis. Los métodos más comunes de dicha unificación se basan en identificar áreas de competencia de un algoritmo en particular. La forma más sencilla de encontrar áreas de competencia es dividir a priori el espacio de atributos en función de consideraciones profesionales de una ciencia en particular (por ejemplo, estratificar la muestra según un determinado atributo). Luego, para cada una de las áreas seleccionadas, se construye su propio algoritmo de reconocimiento. Otro método se basa en el uso de análisis formal para determinar áreas locales del espacio de características como vecindades de objetos reconocidos para los cuales se ha demostrado el éxito de cualquier algoritmo de reconocimiento particular.

El enfoque más general para construir un bloque de síntesis considera los indicadores resultantes de algoritmos particulares como las características iniciales para construir una nueva regla de decisión generalizada. En este caso, se pueden utilizar todos los métodos anteriores de direcciones intensionales y extensionales en el reconocimiento de patrones. Para resolver el problema de crear un grupo de reglas de decisión son eficaces los algoritmos lógicos del tipo "Kora" y los algoritmos de cálculo de estimaciones (ABO), que forman la base del llamado enfoque algebraico, que proporciona el estudio y la descripción constructiva de algoritmos de reconocimiento, en cuyo marco encajan todos los tipos de algoritmos existentes.

Análisis comparativo de métodos de reconocimiento de patrones.

Comparemos los métodos de reconocimiento de patrones descritos anteriormente y evaluemos el grado de adecuación a los requisitos formulados en la Sección 3.3.3 para modelos SDA para sistemas de control automatizados adaptativos para sistemas complejos.

Para resolver problemas reales del grupo de métodos intensionales, los métodos paramétricos y los métodos basados ​​​​en propuestas sobre la forma de las funciones de decisión tienen valor práctico. Los métodos paramétricos forman la base de la metodología tradicional para la construcción de indicadores. La aplicación de estos métodos en problemas reales está asociada a la imposición de fuertes restricciones a la estructura de datos, lo que conduce a modelos de diagnóstico lineales con estimaciones muy aproximadas de sus parámetros. Cuando se utilizan métodos basados ​​en suposiciones sobre la forma de las funciones de decisión, el investigador también se ve obligado a recurrir a modelos lineales. Esto se debe a la alta dimensionalidad del espacio de características, característica de los problemas reales, que, al aumentar el grado de la función de decisión polinómica, produce un enorme aumento en el número de sus miembros con un problemático aumento concomitante en la calidad del reconocimiento. Así, al proyectar el área de aplicación potencial de los métodos de reconocimiento intensional en problemas reales, obtenemos una imagen que corresponde a la metodología tradicional bien desarrollada de los modelos de diagnóstico lineal.

Se han estudiado bien las propiedades de los modelos de diagnóstico lineal, en los que el indicador de diagnóstico está representado por una suma ponderada de las características iniciales. Los resultados de estos modelos (con la normalización adecuada) se interpretan como distancias desde los objetos en estudio a algún hiperplano en el espacio de características o, de manera equivalente, como proyecciones de objetos sobre alguna línea recta en este espacio. Por lo tanto, los modelos lineales son adecuados sólo para configuraciones geométricas simples de áreas del espacio de características en las que se asignan objetos de diferentes clases de diagnóstico. Con distribuciones más complejas, estos modelos fundamentalmente no pueden reflejar muchas características de la estructura de los datos experimentales. Al mismo tiempo, estas funciones pueden proporcionar información de diagnóstico valiosa.

Al mismo tiempo, la aparición en cualquier problema real de estructuras multidimensionales simples (en particular, distribuciones normales multidimensionales) debe considerarse como una excepción y no como una regla. A menudo, las clases de diagnóstico se forman sobre la base de criterios externos complejos, lo que automáticamente implica una heterogeneidad geométrica de estas clases en el espacio de características. Esto es especialmente cierto en el caso de los criterios “vitales”, que son los que se encuentran con más frecuencia en la práctica. En tales condiciones, el uso de modelos lineales captura sólo los patrones más “aproximados” de información experimental.

El uso de métodos extensionales no está asociado con ninguna suposición sobre la estructura de la información experimental, excepto que dentro de las clases reconocidas debe haber uno o más grupos de objetos algo similares, y los objetos de diferentes clases deben ser algo diferentes entre sí. Obviamente, para cualquier tamaño finito de la muestra de entrenamiento (y no puede ser otro), este requisito siempre se cumple simplemente porque existen diferencias aleatorias entre los objetos. Como medidas de similitud, se utilizan varias medidas de proximidad (distancia) de objetos en el espacio característico. Por lo tanto, el uso efectivo de métodos extensionales de reconocimiento de patrones depende de qué tan bien se determinen las medidas de proximidad especificadas, así como de qué objetos de la muestra de entrenamiento (objetos con una clasificación conocida) sirven como precedentes de diagnóstico. La solución exitosa de estos problemas da resultados que se acercan a los límites teóricamente alcanzables de eficiencia de reconocimiento.

Las ventajas de los métodos extensionales de reconocimiento de patrones se ven contrarrestadas, en primer lugar, por la alta complejidad técnica de su implementación práctica. Para espacios de características de alta dimensión, la tarea aparentemente simple de encontrar pares de puntos más cercanos se convierte en un problema grave. Además, muchos autores señalan como problema la necesidad de recordar una cantidad suficientemente grande de objetos que representan clases reconocidas.

Esto en sí mismo no es un problema, pero se percibe como un problema (por ejemplo, en el método de k vecinos más cercanos) porque al reconocer cada objeto, se produce una búsqueda completa de todos los objetos en el conjunto de entrenamiento.

Por tanto, es recomendable aplicar un modelo de sistema de reconocimiento en el que se elimine el problema de una enumeración completa de objetos en la muestra de entrenamiento durante el reconocimiento, ya que se realiza solo una vez al generar imágenes generalizadas de clases de reconocimiento. Durante el reconocimiento en sí, el objeto identificado se compara sólo con imágenes generalizadas de clases de reconocimiento, cuyo número es fijo y completamente independiente del tamaño de la muestra de entrenamiento. Este enfoque le permite aumentar el tamaño de la muestra de entrenamiento hasta lograr la alta calidad requerida de imágenes generalizadas, sin temor a que esto pueda conducir a un aumento inaceptable en el tiempo de reconocimiento (ya que el tiempo de reconocimiento en este modelo no depende de la tamaño de la muestra de entrenamiento).

Los problemas teóricos del uso de métodos de reconocimiento extensional están asociados con los problemas de buscar grupos informativos de características, encontrar métricas óptimas para medir las similitudes y diferencias de objetos y analizar la estructura de la información experimental. Al mismo tiempo, la solución exitosa de estos problemas permite no solo construir algoritmos de reconocimiento efectivos, sino también hacer una transición del conocimiento extensional de hechos empíricos al conocimiento intensional sobre los patrones de su estructura.

La transición del conocimiento extensional al intencional ocurre en la etapa en la que ya se ha construido un algoritmo de reconocimiento formal y se ha demostrado su eficacia. Luego se estudian los mecanismos mediante los cuales se logra la eficiencia resultante. Un estudio de este tipo, asociado al análisis de la estructura geométrica de los datos, puede, por ejemplo, llevar a la conclusión de que basta con sustituir los objetos que representan una determinada clase de diagnóstico por un representante típico (prototipo). Esto equivale, como se señaló anteriormente, a especificar una escala de diagnóstico lineal tradicional. También es posible que sea suficiente reemplazar cada clase de diagnóstico con varios objetos, conceptualizados como representantes típicos de algunas subclases, lo que equivale a construir un abanico de escalas lineales. Hay otras opciones que se discutirán a continuación.

Por lo tanto, una revisión de los métodos de reconocimiento muestra que ahora se han desarrollado teóricamente varios métodos diferentes de reconocimiento de patrones. La literatura proporciona una clasificación detallada de ellos. Sin embargo, para la mayoría de estos métodos no existe una implementación de software, y esto es profundamente natural, incluso se podría decir "predeterminado" por las características de los propios métodos de reconocimiento. Esto se puede juzgar por el hecho de que estos sistemas rara vez se mencionan en la literatura especializada y otras fuentes de información.

En consecuencia, la cuestión de la aplicabilidad práctica de ciertos métodos de reconocimiento teórico para resolver problemas prácticos con dimensiones de datos reales (es decir, bastante significativas) y en computadoras modernas reales sigue estando insuficientemente desarrollada.

La circunstancia anterior se puede entender si recordamos que la complejidad del modelo matemático aumenta exponencialmente la complejidad de la implementación del software del sistema y en la misma medida reduce las posibilidades de que este sistema funcione prácticamente. Esto significa que, en realidad, sólo se pueden implementar en el mercado sistemas de software que se basen en modelos matemáticos bastante simples y “transparentes”. Por tanto, un desarrollador interesado en replicar su producto de software aborda la cuestión de elegir un modelo matemático no desde un punto de vista puramente científico, sino como pragmático, teniendo en cuenta las posibilidades de implementación del software. Considera que el modelo debe ser lo más simple posible, es decir, implementarse a menor costo y con mejor calidad, y además debe funcionar (ser prácticamente efectivo).

En este sentido, parece especialmente relevante la tarea de implementar en los sistemas de reconocimiento un mecanismo para generalizar descripciones de objetos que pertenecen a la misma clase, es decir. Mecanismo para la formación de imágenes compactas generalizadas. Obviamente, tal mecanismo de generalización permitirá "comprimir" una muestra de entrenamiento de cualquier dimensión en una base de imágenes generalizadas conocidas de antemano por dimensión. Esto también permitirá plantear y resolver una serie de problemas que ni siquiera pueden formularse con métodos de reconocimiento como el método de comparación con un prototipo, el método de los k vecinos más cercanos y ABO.

Estas son las tareas:

  • determinar la contribución de información de las características al retrato informativo de una imagen generalizada;
  • análisis constructivo de grupos de imágenes generalizadas;
  • determinación de la carga semántica de una característica;
  • análisis semántico de características constructivas de grupos;
  • comparación significativa de imágenes generalizadas de clases entre sí y características entre sí (diagramas cognitivos, incluidos los diagramas de Merlín).

El método que permitió resolver estos problemas también distingue al prometedor sistema basado en él de otros sistemas, así como los compiladores se diferencian de los intérpretes, ya que gracias a la formación de imágenes generalizadas en este prometedor sistema, la independencia del tiempo de reconocimiento del Se logra el tamaño de la muestra de entrenamiento. Se sabe que es la existencia de esta dependencia la que conduce a costos prácticamente inaceptables de tiempo de computadora para el reconocimiento en métodos como el método de los k vecinos más cercanos, ABO y KRP en dimensiones de la muestra de entrenamiento en las que podemos hablar de estadísticas suficientes. .

Para concluir una breve descripción de los métodos de reconocimiento, presentemos la esencia de lo anterior en una tabla resumen (Tabla 3.1), que contiene una breve descripción de varios métodos de reconocimiento de patrones de acuerdo con los siguientes parámetros:

  • clasificación de métodos de reconocimiento;
  • áreas de aplicación de métodos de reconocimiento;
  • clasificación de limitaciones de los métodos de reconocimiento.
Clasificación de métodos de reconocimiento. Ámbito de aplicación Limitaciones (desventajas)
Métodos de reconocimiento intensivo. Métodos basados ​​en estimaciones de densidades de distribución de valores de características (o similitudes y diferencias de objetos) Los problemas con una distribución conocida, normalmente normal, requieren una gran colección de estadísticas. La necesidad de enumerar toda la muestra de entrenamiento durante el reconocimiento, alta sensibilidad a la falta de representatividad de la muestra de entrenamiento y los artefactos.
Métodos basados ​​en supuestos sobre la clase de funciones de decisión. Las clases deben ser bien separables, el sistema de características debe ser ortonormal El tipo de función de decisión debe conocerse de antemano. Incapacidad para tener en cuenta nuevos conocimientos sobre las correlaciones entre rasgos.
Métodos booleanos Al seleccionar reglas de decisión lógica (conjunciones), es necesaria una búsqueda completa. Alta complejidad computacional
Métodos lingüísticos (estructurales) Problemas de pequeña dimensión del espacio de características. La tarea de reconstruir (definir) la gramática a partir de un determinado conjunto de enunciados (descripciones de objetos) es difícil de formalizar. Problemas teóricos no resueltos
Métodos de reconocimiento extensivo. Método de comparación con un prototipo. Problemas de pequeña dimensión del espacio de características. Alta dependencia de los resultados de la clasificación de la medida de distancia (métrica). Métrica óptima desconocida
k método de vecinos más cercanos Alta dependencia de los resultados de la clasificación de la medida de distancia (métrica). La necesidad de una enumeración completa de la muestra de formación durante el reconocimiento. Esfuerzo computacional
Algoritmos para calcular calificaciones (votación) de AVO Problemas de pequeña dimensión en cuanto al número de clases y características. Dependencia de los resultados de la clasificación de la medida de distancia (métrica). La necesidad de una enumeración completa de la muestra de formación durante el reconocimiento. Alta complejidad técnica del método.
Colectivos de reglas de decisión (DRC) Problemas de pequeña dimensión en cuanto al número de clases y características. Muy alta complejidad técnica del método, número de problemas teóricos no resueltos, tanto en la determinación de las áreas de competencia de los métodos privados como en los propios métodos privados.

Tabla 3.1 — Cuadro resumen de clasificación de métodos de reconocimiento, comparación de sus áreas de aplicación y limitaciones

El papel y el lugar del reconocimiento de patrones en la automatización del control de sistemas complejos.

Un sistema de control automatizado consta de dos partes principales: un objeto de control y un sistema de control.

El sistema de control realiza las siguientes funciones:

  • identificación del estado del objeto de control;
  • desarrollo de acciones de control basadas en objetivos de gestión, teniendo en cuenta el estado del objeto de control y el medio ambiente;
  • proporcionar influencia de control sobre el objeto de control.

El reconocimiento de patrones no es más que identificar el estado de algún objeto.

En consecuencia, la posibilidad de utilizar un sistema de reconocimiento de patrones en la etapa de identificación del estado de un objeto de control parece bastante obvia y natural. Sin embargo, esto puede no ser necesario. Por tanto, surge la duda de en qué casos es aconsejable utilizar un sistema de reconocimiento en un sistema de control automatizado y en cuáles no.

Según la literatura, muchos sistemas de control automatizados modernos y previamente desarrollados en los subsistemas para identificar el estado del objeto de control y desarrollar acciones de control utilizan modelos matemáticos deterministas de "cálculo directo", que determinan de manera inequívoca y sencilla qué hacer con el control. objeto si tiene ciertos parámetros externos.

Al mismo tiempo, no se plantea ni se resuelve la cuestión de cómo se relacionan estos parámetros con ciertos estados del objeto de control. Esta posición corresponde al punto de vista de que “por defecto” se acepta su relación uno a uno. Por lo tanto, los términos "parámetros del objeto de control" y "estado del objeto de control" se consideran sinónimos, y el concepto de "estado del objeto de control" no se introduce explícitamente en absoluto. Sin embargo, es obvio que en el caso general la relación entre los parámetros observables del objeto de control y su estado es de naturaleza dinámica y probabilística.

Por tanto, los sistemas de control automatizados tradicionales son esencialmente sistemas de control paramétrico, es decir. sistemas que gestionan no los estados del objeto de control, sino solo sus parámetros observables. La decisión sobre la acción de control se toma en tales sistemas como "a ciegas", es decir. sin formar una imagen holística del objeto de control y el medio ambiente en su estado actual, así como sin predecir el desarrollo del medio ambiente y la reacción del objeto de control a ciertas influencias de control sobre él, actuando simultáneamente con la influencia prevista del medio ambiente. .

Desde la perspectiva desarrollada en este trabajo, el término "toma de decisiones" en el sentido moderno difícilmente es completamente aplicable a los sistemas de control automatizados tradicionales. El caso es que la “toma de decisiones”, como mínimo, presupone una visión holística de un objeto en el entorno, no sólo en su estado actual, sino también en su dinámica, y en la interacción tanto entre sí como con el sistema de control, implica considerar varias opciones alternativas para el desarrollo de todo este sistema, así como reducir la diversidad (reducción) de estas alternativas en función de ciertos criterios objetivo. Evidentemente, nada de esto se encuentra en los sistemas de control automatizados tradicionales, o existe, pero de forma simplificada.

Por supuesto, el método tradicional es adecuado y su uso es bastante correcto y justificado en los casos en que el objeto de control es verdaderamente un sistema estable y estrictamente determinado, y se puede despreciar la influencia del medio ambiente sobre él.

Sin embargo, en otros casos este método resulta ineficaz.

Si el objeto de control es dinámico, entonces los modelos subyacentes a los algoritmos de control rápidamente se vuelven inadecuados, ya que cambian las relaciones entre los parámetros de entrada y salida, así como el conjunto de parámetros esenciales en sí. En esencia, esto significa que los sistemas de control automatizados tradicionales son capaces de controlar el estado del objeto de control sólo cerca del punto de equilibrio mediante acciones de control débiles sobre él, es decir por el método de pequeñas perturbaciones. Lejos del estado de equilibrio, desde el punto de vista tradicional, el comportamiento del objeto de control parece impredecible e incontrolable.

Si no existe una conexión inequívoca entre los parámetros de entrada y salida del objeto de control (es decir, entre los parámetros de entrada y el estado del objeto), en otras palabras, si esta conexión tiene un carácter probabilístico pronunciado, entonces se utilizan modelos deterministas en los que es Se supone que el resultado de medir un determinado parámetro es simplemente un número y no son aplicables inicialmente. Además, es posible que simplemente se desconozca el tipo de esta conexión, y entonces es necesario partir de la suposición más general: que es probabilística o que no está definida en absoluto.

Un sistema de control automatizado construido sobre principios tradicionales sólo puede funcionar sobre la base de parámetros cuyos patrones de conexión ya se conocen, se estudian y se reflejan en un modelo matemático. En este estudio, la tarea es desarrollar métodos de diseño automatizados. sistemas de control que permitirán crear sistemas capaces de identificar los parámetros más significativos y determinar la naturaleza de las conexiones entre ellos y los estados del objeto de control.

En este caso, es necesario utilizar métodos de medición más desarrollados y adecuados a la situación real:

  • clasificación o reconocimiento de imágenes (aprendizaje basado en una muestra de entrenamiento, adaptabilidad de los algoritmos de reconocimiento, adaptabilidad de conjuntos de clases y parámetros en estudio, selección de los parámetros más significativos y reducción de la dimensión de descripción manteniendo una determinada redundancia, etc.);
  • mediciones estadísticas, cuando el resultado de medir un determinado parámetro no es un número separado, sino una distribución de probabilidad: un cambio en una variable estadística no significa un cambio en su valor en sí mismo, sino un cambio en las características de la distribución de probabilidad de sus valores.

Como resultado, los sistemas de control automatizados basados ​​en el enfoque determinista tradicional prácticamente no funcionan con objetos de control complejos, dinámicos, multiparamétricos y débilmente determinados, como, por ejemplo, sistemas macro y microsocioeconómicos en una economía dinámica del " período de transición”, élites jerárquicas y grupos étnicos, sociedad y electorado, fisiología y psique humana, ecosistemas naturales y artificiales y muchos otros.

Es muy significativo que a mediados de los años 80, la escuela de I. Prigogine desarrolló un enfoque según el cual el desarrollo de cualquier sistema (incluido el humano) alterna períodos durante los cuales el sistema se comporta "mayormente determinista" o "mayormente aleatorio". Naturalmente, un sistema de control real debe controlar de manera estable el objeto de control no sólo en las secciones "deterministas" de su historia, sino también en los puntos en los que su comportamiento posterior se vuelve altamente incierto. Esto por sí solo significa que es necesario desarrollar enfoques para controlar sistemas cuyo comportamiento contenga un gran elemento de aleatoriedad (o lo que actualmente se describe matemáticamente como “aleatoriedad”).

Por lo tanto, los prometedores sistemas de control automatizados que proporcionan control de complejos sistemas dinámicos multiparamétricos débilmente deterministas aparentemente incluirán subsistemas para identificar y predecir los estados del medio ambiente y el objeto de control, basados ​​en métodos de inteligencia artificial (principalmente reconocimiento de patrones), métodos de apoyo a la toma de decisiones. Creación y teoría de la información.

Consideremos brevemente el tema del uso de sistemas de reconocimiento de imágenes para tomar decisiones sobre acciones de control (este tema se discutirá con más detalle más adelante, ya que es clave para este trabajo). Si tomamos el objetivo y otros estados del objeto de control como clases de reconocimiento, y los factores que influyen en él como características, entonces se puede formar una medida de la relación entre factores y estados en el modelo de reconocimiento de patrones. Esto permite, para un determinado estado de un objeto de control, obtener información sobre los factores que promueven o dificultan su transición a este estado y, en base a esto, desarrollar una decisión sobre la acción de control.

Los factores se pueden dividir en los siguientes grupos:

  • caracterizar el fondo del objeto de control;
  • caracterizar el estado actual del objeto de control;
  • factores ambientales;
  • factores tecnológicos (controlables).

Por tanto, los sistemas de reconocimiento de patrones se pueden utilizar como parte de sistemas de control automatizados: en subsistemas para identificar el estado de un objeto de control y desarrollar acciones de control.

Esto es apropiado cuando el objeto de control es un sistema complejo.

Tomar una decisión sobre la acción de control en el sistema de control automatizado.

En este trabajo se considera la solución al problema de sintetizar sistemas de control automatizados adaptativos mediante sistemas complejos, teniendo en cuenta numerosas y profundas analogías entre los métodos de reconocimiento de patrones y toma de decisiones.

Por un lado, el problema del reconocimiento de patrones es tomar una decisión sobre si el objeto reconocido pertenece a una determinada clase de reconocimiento.

Por otro lado, los autores proponen considerar el problema de toma de decisiones como un problema de decodificación inversa o un problema de reconocimiento de patrones inverso (ver sección 2.2.2).

Los puntos en común de las ideas básicas que subyacen a los métodos de reconocimiento de patrones y toma de decisiones se vuelven especialmente obvios cuando se los considera desde la perspectiva de la teoría de la información.

Variedad de problemas de toma de decisiones.

La toma de decisiones como realización de objetivos.

Definición: la toma de decisiones (“elección”) es una acción sobre un conjunto de alternativas, como resultado de lo cual el conjunto inicial de alternativas se reduce, es decir, se produce su reducción.

La elección es la acción que da propósito a todas las actividades. Es a través de actos de elección que se realiza la subordinación de todas las actividades a un objetivo específico o a un conjunto de objetivos interrelacionados.

Así, para que el acto de elección sea posible es necesario lo siguiente:

  • generación o descubrimiento de un conjunto de alternativas sobre las cuales se debe hacer una elección;
  • determinación de los objetivos por los cuales se hace la elección;
  • desarrollo y aplicación de un método para comparar alternativas entre sí, es decir Determinar una calificación de preferencia para cada alternativa de acuerdo con ciertos criterios que permitan evaluar indirectamente qué tan bien corresponde cada alternativa al objetivo.

El trabajo moderno en el campo del apoyo a la toma de decisiones ha revelado una situación característica: la formalización completa para encontrar la mejor (en cierto sentido) solución sólo es posible para problemas relativamente simples y bien estudiados, mientras que en la práctica los problemas débilmente estructurados son posibles. Se encuentran con mayor frecuencia, para los cuales no se han desarrollado algoritmos completamente formalizados (excepto búsqueda exhaustiva y prueba y error). Sin embargo, los profesionales experimentados, competentes y capaces a menudo toman decisiones que resultan bastante buenas. Por lo tanto, la tendencia moderna en la práctica de la toma de decisiones en situaciones naturales es combinar la capacidad humana para resolver problemas informales con las capacidades de los métodos formales y el modelado por computadora: sistemas interactivos de soporte a decisiones, sistemas expertos, sistemas de control automatizados adaptativos hombre-máquina, Redes neuronales y sistemas cognitivos.

Toma de decisiones como eliminación de la incertidumbre (enfoque informativo)

El proceso de obtención de información puede considerarse como una reducción de la incertidumbre como resultado de recibir una señal, y la cantidad de información puede considerarse como una medida cuantitativa del grado de eliminación de la incertidumbre.

Pero como resultado de elegir un cierto subconjunto de alternativas del conjunto, es decir como resultado de la toma de decisiones sucede lo mismo (reducir la incertidumbre). Esto significa que cada elección, cada decisión genera una cierta cantidad de información y, por lo tanto, puede describirse en términos de teoría de la información.

Clasificación de los problemas de toma de decisiones.

La multiplicidad de tareas de toma de decisiones se debe al hecho de que cada componente de la situación en la que se toman las decisiones puede implementarse en opciones cualitativamente diferentes.

Enumeremos solo algunas de estas opciones:

  • el conjunto de alternativas, por un lado, puede ser finito, contable o continuo, y por otro, cerrado (es decir, completamente conocido) o abierto (incluidos elementos desconocidos);
  • la evaluación de alternativas puede realizarse según uno o más criterios, que, a su vez, pueden ser de carácter cuantitativo o cualitativo;
  • el modo de selección puede ser único (único) o múltiple, repetitivo, incluida la retroalimentación sobre los resultados de la elección, es decir permitir entrenar algoritmos de toma de decisiones teniendo en cuenta las consecuencias de elecciones anteriores;
  • Las consecuencias de elegir cada alternativa pueden ser conocidas con precisión de antemano (elección en condiciones de certeza), tener un carácter probabilístico cuando se conocen las probabilidades de resultados posibles después de la elección realizada (elección en condiciones de riesgo) o tener un resultado ambiguo sin conocerse. probabilidades (elección en condiciones de incertidumbre);
  • la responsabilidad de elección puede estar ausente, ya sea individual o grupal;
  • el grado de coherencia de los objetivos en la elección grupal puede variar desde la completa coincidencia de los intereses de las partes (elección cooperativa) hasta su opuesto (elección en una situación de conflicto). También son posibles opciones intermedias: compromiso, coalición, conflicto creciente o disipado.

Varias combinaciones de estas opciones conducen a numerosos problemas de toma de decisiones que se han estudiado en diversos grados.

Lenguajes para describir métodos de toma de decisiones.

Se puede hablar de un mismo fenómeno en diferentes idiomas con distintos grados de generalidad y adecuación. Hasta la fecha, han surgido tres lenguajes principales para describir la elección.

El más simple, más desarrollado y más popular es el lenguaje de criterios.

Idioma de los criterios

El nombre de este lenguaje está asociado con el supuesto básico de que cada alternativa individual puede evaluarse mediante algún (un) número específico, después de lo cual la comparación de alternativas se reduce a una comparación de los números correspondientes.

Sea, por ejemplo, (X) un conjunto de alternativas y x alguna alternativa específica perteneciente a este conjunto: x∈X. Entonces se cree que para todo x se puede especificar una función q(x), que se denomina criterio (criterio de calidad, función objetivo, función de preferencia, función de utilidad, etc.), que tiene la propiedad de que si la alternativa x 1 es preferible a x 2 (denotado: x 1 > x 2), entonces q(x 1) > q(x 2).

En este caso, la elección se reduce a encontrar una alternativa con el valor más alto de la función criterio.

Sin embargo, en la práctica, utilizar un solo criterio para comparar el grado de preferencia de las alternativas resulta una simplificación injustificada, ya que una consideración más detallada de las alternativas lleva a la necesidad de evaluarlas no por uno, sino por muchos criterios, lo que puede ser de diferente naturaleza y cualitativamente diferentes entre sí.

Por ejemplo, a la hora de elegir el tipo de avión más aceptable para los pasajeros y la organización explotadora en determinados tipos de rutas, las comparaciones se realizan simultáneamente según muchos grupos de criterios: técnicos, tecnológicos, económicos, sociales, ergonómicos, etc.

Los problemas multicriterio no tienen una solución general única. Por lo tanto, se proponen muchas formas de darle a un problema multicriterio una forma particular que permita una única solución general. Naturalmente, estas soluciones son generalmente diferentes para diferentes métodos. Por tanto, quizás lo más importante a la hora de resolver un problema multicriterio sea la justificación de este tipo de formulación.

Se utilizan varias opciones para simplificar el problema de selección multicriterio. Enumeremos algunos de ellos.

  1. Maximización condicional (no se encuentra el extremo global del criterio integral, sino el extremo local del criterio principal).
  2. Busque una alternativa con propiedades específicas.
  3. Encontrar el conjunto de Pareto.
  4. Reducir un problema multicriterio a un problema de un solo criterio introduciendo un criterio integral.

Consideremos con más detalle la formulación formal del método para reducir un problema multicriterio a uno de un solo criterio.

Introduzcamos el criterio integral q 0 (x) como función escalar del argumento vectorial:

q 0 (x) = q 0 ((q 1 (x), q 2 (x), ..., q n (x)).

El criterio integral le permite ordenar alternativas según el valor de q 0, resaltando así la mejor (en el sentido de este criterio). La forma de la función q 0 está determinada por qué tan específicamente imaginamos la contribución de cada criterio al criterio integral. Normalmente se utilizan funciones aditivas y multiplicativas:

q 0 = ∑a yo ⋅q yo /s yo

1 - q 0 = ∏(1 - segundo yo ⋅q yo /s yo)

Coeficientes que proporciono:

  1. Adimensionalidad o dimensión única del número a i ⋅q i /s i (diferentes criterios parciales pueden tener diferentes dimensiones, y luego no se pueden realizar operaciones aritméticas sobre ellos y reducirlos a un criterio integral).
  2. Normalización, es decir asegurando la condición: b i ⋅q i /s i<1.

Los coeficientes a i y b i reflejan la contribución relativa de los criterios parciales q i al criterio integral.

Entonces, en una formulación multicriterio, el problema de tomar una decisión sobre la elección de una de las alternativas se reduce a maximizar el criterio integral:

x * = arg max(q 0 (q 1 (x), q 2 (x), ..., q n (x)))

El principal problema en la formulación multicriterio del problema de toma de decisiones es que es necesario encontrar una forma analítica de los coeficientes a i y b i que proporcione las siguientes propiedades del modelo:

  • un alto grado de adecuación al área temática y al punto de vista de los expertos;
  • dificultades computacionales mínimas para maximizar el criterio integral, es decir, su cálculo para diferentes alternativas;
  • estabilidad de los resultados de maximizar el criterio integral a partir de pequeñas perturbaciones de los datos iniciales.
  • La estabilidad de la solución significa que un pequeño cambio en los datos iniciales debería conducir a un pequeño cambio en el valor del criterio integral y, en consecuencia, a un pequeño cambio en la decisión tomada. Así, si los datos iniciales son prácticamente los mismos, entonces la decisión debe tomarse igual o muy cercana.

Lenguaje de elección binaria secuencial

El lenguaje de las relaciones binarias es una generalización del lenguaje multicriterio y se basa en tener en cuenta el hecho de que cuando evaluamos una alternativa, esta evaluación es siempre relativa, es decir De manera explícita o más a menudo implícita, otras alternativas del conjunto bajo estudio o de la población general se utilizan como base o marco de referencia para la comparación. El pensamiento humano se basa en la búsqueda y análisis de opuestos (constructos), por lo que siempre nos resulta más fácil elegir una de dos opciones opuestas que una opción de un conjunto grande y de ninguna manera ordenado.

Así, los supuestos básicos de este lenguaje son los siguientes:

  • no se evalúa una alternativa separada, es decir no se introduce la función de criterio;
  • para cada par de alternativas se puede establecer de alguna manera que una de ellas es preferible a la otra o que son equivalentes o incomparables;
  • la relación de preferencia en cualquier par de alternativas no depende de las otras alternativas presentadas para elección.

Hay varias formas de especificar relaciones binarias: directa, matricial, usando gráficos de preferencias, el método de la sección, etc.

Las relaciones entre alternativas de un par se expresan mediante los conceptos de equivalencia, orden y dominancia.

Lenguaje de función de selección generalizada.

El lenguaje de la función de elección se basa en la teoría de conjuntos y le permite operar con asignaciones de conjuntos a sus subconjuntos correspondientes a diferentes opciones sin tener que enumerar los elementos. Este lenguaje es muy general y tiene el potencial de describir cualquier elección. Sin embargo, el aparato matemático de funciones de selección generalizadas todavía se está desarrollando y probando principalmente en problemas que ya se han resuelto mediante enfoques binarios o basados ​​en criterios.

Selección de grupo

Que haya un grupo de personas que tengan derecho a participar en la toma de decisiones colectiva. Supongamos que este grupo está considerando un determinado conjunto de alternativas y que cada miembro del grupo hace su propia elección. La tarea consiste en desarrollar una solución que en cierto modo coordine las elecciones individuales y en cierto sentido exprese la “opinión general” del grupo, es decir, aceptado como una elección grupal.

Naturalmente, diferentes principios para coordinar decisiones individuales corresponderán a diferentes decisiones grupales.

Las reglas para coordinar las decisiones individuales durante la elección grupal se denominan reglas de votación. La más común es la “regla de la mayoría”, en la que se acepta como decisión del grupo la alternativa con más votos.

Es necesario comprender que tal decisión refleja sólo la prevalencia de diferentes puntos de vista en el grupo, y no una opción verdaderamente óptima, por la que nadie puede votar en absoluto. "La verdad no se determina mediante la votación".

Además, existen las llamadas “paradojas del voto”, la más famosa de las cuales es la paradoja de Arrow.

Estas paradojas pueden conducir, y a veces conducen, a características muy desagradables del procedimiento de votación: por ejemplo, hay casos en los que el grupo no puede tomar ninguna decisión (no hay quórum o cada uno vota por su opción única, etc. .), y a veces (con votación en varias etapas), la minoría puede imponer su voluntad a la mayoría.

Elección en condiciones de incertidumbre

La certeza es un caso especial de incertidumbre, a saber: es una incertidumbre cercana a cero.

En la teoría de la elección moderna, se cree que existen tres tipos principales de incertidumbre en los problemas de toma de decisiones:

  1. Incertidumbre informativa (estadística) de los datos iniciales para la toma de decisiones.
  2. Incertidumbre de las consecuencias de la toma de decisiones (elección).
  3. Vaguedad en la descripción de los componentes del proceso de toma de decisiones.

Veámoslos en orden.

Incertidumbre de la información (estadística) en los datos fuente.

Los datos obtenidos sobre el tema no pueden considerarse absolutamente exactos. Además, evidentemente, estos datos no nos interesan en sí mismos, sino sólo como señales que pueden llevar cierta información sobre lo que realmente nos interesa. Por tanto, es más realista considerar que estamos ante datos que no sólo son ruidosos e inexactos, sino también indirectos y quizás incompletos. Además, estos datos no se refieren a toda la población objeto de estudio, sino sólo a un subconjunto determinado de ella, sobre el cual pudimos recopilar datos, pero al mismo tiempo queremos sacar conclusiones sobre toda la población, y también Quiero saber el grado de fiabilidad de estas conclusiones.

En estas condiciones, se utiliza la teoría de las decisiones estadísticas.

Hay dos fuentes principales de incertidumbre en esta teoría. En primer lugar, no se sabe qué distribución siguen los datos originales. En segundo lugar, se desconoce qué distribución tiene el conjunto (población general), sobre el cual queremos sacar conclusiones a partir de su subconjunto que forma los datos iniciales.

Los procedimientos estadísticos son procedimientos de toma de decisiones que eliminan ambos tipos de incertidumbre.

Cabe señalar que existen varias razones que conducen a una aplicación incorrecta de métodos estadísticos:

  • Las conclusiones estadísticas, como cualquier otra, siempre tienen cierta fiabilidad o validez. Pero, a diferencia de muchos otros casos, la fiabilidad de las conclusiones estadísticas se conoce y se determina durante el estudio estadístico;
  • la calidad de la solución obtenida como resultado de la aplicación de un procedimiento estadístico depende de la calidad de los datos originales;
  • los datos que no tengan carácter estadístico no deberían estar sujetos a procesamiento estadístico;
  • Se deben utilizar procedimientos estadísticos que sean apropiados al nivel de información a priori sobre la población que se está estudiando (por ejemplo, los métodos ANOVA no deben aplicarse a datos no gaussianos). Si se desconoce la distribución de los datos iniciales, entonces es necesario establecerla o utilizar varios métodos diferentes y comparar los resultados. Si son muy diferentes, esto indica la inaplicabilidad de algunos de los procedimientos utilizados.

Incertidumbre de las consecuencias

Cuando las consecuencias de elegir una u otra alternativa están determinadas inequívocamente por la alternativa misma, entonces no podemos distinguir entre la alternativa y sus consecuencias, dando por sentado que al elegir una alternativa, en realidad estamos eligiendo sus consecuencias.

Sin embargo, en la práctica real a menudo uno tiene que lidiar con una situación más compleja, cuando la elección de una u otra alternativa determina de manera ambigua las consecuencias de la elección realizada.

En el caso de un conjunto discreto de alternativas y los resultados de su elección, siempre que el conjunto de resultados posibles sea común a todas las alternativas, podemos suponer que las diferentes alternativas difieren entre sí en la distribución de probabilidad de los resultados. Estas distribuciones de probabilidad en el caso general pueden depender de los resultados de la elección de alternativas y de los resultados reales que resultaron. En el caso más simple, los resultados son igualmente probables. Los resultados en sí mismos suelen tener el significado de ganancias o pérdidas y se expresan cuantitativamente.

Si los resultados son iguales para todas las alternativas, entonces no hay nada que elegir. Si son diferentes, entonces se pueden comparar alternativas introduciendo ciertas estimaciones cuantitativas para ellas. La variedad de problemas en la teoría de juegos está asociada con diferentes elecciones de características numéricas de pérdidas y ganancias como resultado de la elección de alternativas, diferentes grados de conflicto entre las partes que eligen alternativas, etc.

Considere este tipo de incertidumbre como incertidumbre vaga.

Cualquier tarea de elección es una tarea de reducción selectiva de un conjunto de alternativas. Tanto la descripción formal de las alternativas (su lista misma, la lista de sus características o parámetros), como la descripción de las reglas para su comparación (criterios, relaciones) siempre se dan en términos de una u otra escala de medición (incluso cuando la que quien hace esto no sabe sobre esto).

Se sabe que todas las escalas están borrosas, pero en distintos grados. El término “difuminación” se refiere a la propiedad de las escalas, que consiste en que siempre es posible presentar dos alternativas que sean distinguibles, es decir diferentes en la misma escala e indistinguibles, es decir, idéntico, en el otro, más borroso. Cuantas menos gradaciones haya en una determinada escala, más borrosa será.

Así, podemos ver claramente las alternativas y al mismo tiempo clasificarlas vagamente, es decir, tienen incertidumbre sobre a qué clases pertenecen.

Ya en su primer trabajo sobre la toma de decisiones en situaciones vagas, Bellman y Zadeh propusieron la idea de que tanto los objetivos como las restricciones deberían representarse como conjuntos difusos en el conjunto de alternativas.

Acerca de algunas limitaciones del enfoque de optimización

En todos los problemas de selección y métodos de toma de decisiones discutidos anteriormente, el problema era encontrar los mejores en el conjunto original bajo condiciones dadas, es decir. alternativas que son óptimas en cierto sentido.

La idea de optimización es la idea central de la cibernética y se ha establecido firmemente en la práctica del diseño y operación de sistemas técnicos. Al mismo tiempo, esta idea requiere una actitud cuidadosa cuando intentamos trasladarla al campo de la gestión de sistemas complejos, grandes y débilmente determinados, como, por ejemplo, los sistemas socioeconómicos.

Hay muy buenas razones para esta conclusión. Veamos algunos de ellos:

  1. La solución óptima a menudo resulta ser inestable, es decir cambios menores en las condiciones, insumos o restricciones del problema pueden conducir a la selección de alternativas significativamente diferentes.
  2. Los modelos de optimización se han desarrollado sólo para clases estrechas de problemas bastante simples, que no siempre reflejan adecuada y sistemáticamente objetos de control reales. Muy a menudo, los métodos de optimización permiten optimizar sólo subsistemas bastante simples y bien descritos formalmente de algunos sistemas grandes y complejos, es decir, permitir sólo la optimización local. Sin embargo, si cada subsistema de un sistema grande funciona de manera óptima, esto no significa en absoluto que el sistema en su conjunto funcionará de manera óptima. Por lo tanto, la optimización de un subsistema no conduce necesariamente al comportamiento que se le exige al optimizar el sistema en su conjunto. Además, a veces la optimización local puede tener consecuencias negativas para el sistema en su conjunto. Por tanto, a la hora de optimizar los subsistemas y el sistema en su conjunto, es necesario determinar el árbol de metas y submetas y su prioridad.
  3. A menudo, maximizar un criterio de optimización según algún modelo matemático se considera el objetivo de la optimización, pero en realidad el objetivo es optimizar el objeto de control. Los criterios de optimización y los modelos matemáticos siempre están relacionados con el objetivo sólo indirectamente, es decir, más o menos adecuadamente, pero siempre aproximadamente.

Por tanto, la idea de optimidad, que es extremadamente fructífera para sistemas que pueden formalizarse matemáticamente adecuadamente, debe transferirse con precaución a sistemas complejos. Por supuesto, los modelos matemáticos que a veces pueden proponerse para tales sistemas pueden optimizarse. Sin embargo, siempre se debe tener en cuenta la fuerte simplificación de estos modelos, que en el caso de sistemas complejos ya no se puede descuidar, así como el hecho de que el grado de adecuación de estos modelos en el caso de sistemas complejos es prácticamente desconocido. . Por lo tanto, no se sabe qué significado puramente práctico tiene esta optimización. La gran practicidad de la optimización en sistemas técnicos no debería dar lugar a la ilusión de que será igualmente eficaz en la optimización de sistemas complejos. La modelización matemática significativa de sistemas complejos es muy difícil, aproximada e inexacta. Cuanto más complejo sea el sistema, más cuidado se debe tener con la idea de optimizarlo.

Por lo tanto, al desarrollar métodos para controlar sistemas complejos, grandes y débilmente deterministas, los autores consideran lo principal no solo la optimización del enfoque elegido desde un punto de vista matemático formal, sino también su adecuación al objetivo y la naturaleza misma del objeto de control.

Métodos de selección de expertos.

Al estudiar sistemas complejos, a menudo surgen problemas que, por diversas razones, no pueden formularse y resolverse estrictamente utilizando los aparatos matemáticos desarrollados actualmente. En estos casos se utilizan los servicios de expertos (analistas de sistemas), cuya experiencia e intuición ayudan a reducir la complejidad del problema.

Sin embargo, hay que tener en cuenta que los propios expertos son sistemas muy complejos y sus actividades también dependen de muchas condiciones externas e internas. Por lo tanto, en los métodos de organización de las evaluaciones de expertos, se presta mucha atención a la creación de condiciones externas y psicológicas favorables para el trabajo de los expertos.

El trabajo del experto está influenciado por los siguientes factores:

  • responsabilidad por el uso de los resultados de los exámenes;
  • conocimiento de que también participan otros expertos;
  • disponibilidad de contacto de información entre expertos;
  • relaciones interpersonales de expertos (si existe contacto informativo entre ellos);
  • el interés personal del experto en los resultados de la evaluación;
  • Cualidades personales de los expertos (presunción, conformismo, voluntad, etc.).

La interacción entre expertos puede tanto estimular como suprimir sus actividades. Por tanto, en diferentes casos se utilizan diversos métodos de examen, que se diferencian en la naturaleza de la interacción de los expertos entre sí: encuestas y cuestionarios anónimos y abiertos, reuniones, debates, juegos de negocios, lluvia de ideas, etc.

Existen varios métodos para el procesamiento matemático de opiniones de expertos. Se pide a los expertos que evalúen varias alternativas utilizando uno o un sistema de indicadores. Además, se les pide que evalúen el grado de importancia de cada indicador (su “peso” o “contribución”). A los propios expertos también se les asigna un nivel de competencia correspondiente a la contribución de cada uno de ellos a la opinión resultante del grupo.

Una metodología desarrollada para trabajar con expertos es el método Delphi. La idea principal de este método es que la crítica y la argumentación tienen un efecto beneficioso sobre el experto si no se ve afectado su orgullo y se brindan condiciones que excluyen la confrontación personal.

Debe enfatizarse especialmente que existe una diferencia fundamental en la naturaleza del uso de métodos expertos en sistemas expertos y en el apoyo a las decisiones. Si en el primer caso se requiere que los expertos formalicen los métodos de toma de decisiones, en el segundo, sólo la decisión en sí, como tal.

Dado que los expertos participan en la implementación de precisamente aquellas funciones que actualmente no son proporcionadas por los sistemas automatizados o que los realizan peor que los humanos, una dirección prometedora para el desarrollo de sistemas automatizados es la máxima automatización de estas funciones.

Sistemas automatizados de soporte a la decisión.

El hombre siempre ha utilizado asistentes a la hora de tomar decisiones: estos eran simplemente proveedores de información sobre el objeto de gestión y consultores (asesores) que ofrecían opciones de decisión y analizaban sus consecuencias. Una persona que toma decisiones siempre las ha tomado en un determinado entorno de información: para un líder militar es el cuartel general, para el rector es el consejo académico, para el ministro es el colegio.

Hoy en día, la infraestructura de información para la toma de decisiones es impensable sin sistemas automatizados para la evaluación interactiva de las decisiones y, especialmente, sistemas de apoyo a las decisiones (DDS - Decision Support Systems), es decir. Sistemas automatizados que están diseñados específicamente para preparar la información que una persona necesita para tomar una decisión. El desarrollo de sistemas de apoyo a la toma de decisiones se lleva a cabo, en particular, en el marco de un proyecto internacional llevado a cabo bajo los auspicios del Instituto Internacional de Análisis de Sistemas Aplicados de Laxenburg (Austria).

Tomar decisiones en situaciones de la vida real requiere una serie de operaciones, algunas de las cuales son realizadas de manera más eficiente por humanos y otras por máquinas. La combinación eficaz de sus ventajas y, al mismo tiempo, la compensación de sus deficiencias se materializa en los sistemas automatizados de apoyo a la toma de decisiones.

Una persona toma decisiones en condiciones de incertidumbre mejor que una máquina, pero para tomar la decisión correcta también necesita información adecuada (completa y confiable) que caracterice el área temática. Sin embargo, se sabe que los humanos no afrontamos bien grandes cantidades de información “en bruto” y sin procesar. Por lo tanto, el papel de una máquina en el apoyo a las decisiones puede ser llevar a cabo una preparación preliminar de información sobre el objeto de control y los factores incontrolables (entorno), para ayudar a ver las consecuencias de tomar ciertas decisiones y también presentar toda esta información de forma visual. y forma cómoda para la toma de decisiones.

Por lo tanto, los sistemas automatizados de apoyo a la toma de decisiones compensan las debilidades de una persona, liberándola del procesamiento rutinario de información preliminar y brindándole un entorno de información cómodo en el que puede demostrar mejor sus fortalezas. Estos sistemas no tienen como objetivo automatizar las funciones de quien toma las decisiones (y, como resultado, alienarle estas funciones y, por lo tanto, la responsabilidad de las decisiones tomadas, lo que a menudo es generalmente inaceptable), sino brindarle asistencia para encontrar una buena solución. solución.

Los sistemas vivos, incluidos los humanos, se han enfrentado constantemente al problema del reconocimiento de patrones desde su aparición. En particular, la información procedente de los órganos de los sentidos es procesada por el cerebro, que a su vez clasifica la información, asegura la toma de decisiones y luego, mediante impulsos electroquímicos, transmite la señal necesaria, por ejemplo, a los órganos del movimiento, que implementan las acciones necesarias. Entonces el entorno cambia y los fenómenos anteriores vuelven a ocurrir. Y si nos fijamos, cada etapa va acompañada de reconocimiento.

Con el desarrollo de la tecnología informática, ha sido posible resolver una serie de problemas que surgen en el proceso de la vida, facilitar, acelerar y mejorar la calidad del resultado. Por ejemplo, el funcionamiento de varios sistemas de soporte vital, la interacción humana con una computadora, la aparición de sistemas robóticos, etc. Sin embargo, observamos que actualmente no es posible proporcionar un resultado satisfactorio en algunas tareas (reconocimiento de similares que se mueven rápidamente objetos, texto escrito a mano).

Objeto del trabajo: estudiar la historia de los sistemas de reconocimiento de imágenes.

Indicar los cambios cualitativos que se han producido en el campo del reconocimiento de patrones, tanto teóricos como técnicos, indicando los motivos;

Discutir métodos y principios utilizados en informática;

Dé ejemplos de perspectivas que se esperan en un futuro próximo.

1. ¿Qué es el reconocimiento de patrones?

Los primeros estudios con tecnología informática siguieron principalmente el esquema clásico de modelado matemático: modelo matemático, algoritmo y cálculo. Estas fueron las tareas de modelar los procesos que ocurren durante las explosiones de bombas atómicas, calcular trayectorias balísticas, aplicaciones económicas y de otro tipo. Sin embargo, además de las ideas clásicas de esta serie, surgieron métodos basados ​​​​en una naturaleza completamente diferente y, como lo demostró la práctica de resolver algunos problemas, a menudo dieron mejores resultados que las soluciones basadas en modelos matemáticos demasiado complicados. Su idea era abandonar el deseo de crear un modelo matemático exhaustivo del objeto en estudio (además, a menudo era casi imposible construir modelos adecuados) y, en cambio, contentarse con la respuesta sólo a preguntas específicas que nos interesan, y con Busque estas respuestas a partir de consideraciones comunes a una amplia clase de problemas. Las investigaciones de este tipo incluían el reconocimiento de imágenes visuales, la predicción del rendimiento de los cultivos, el nivel de los ríos, la tarea de distinguir los acuíferos de los petrolíferos basándose en datos geofísicos indirectos, etc. Se requería una respuesta específica a estas tareas de una forma bastante simple, como por ejemplo: , por ejemplo, si un objeto pertenece a una de las clases prefijadas. Y los datos iniciales de estas tareas, por regla general, se dieron en forma de información fragmentaria sobre los objetos en estudio, por ejemplo, en forma de un conjunto de objetos preclasificados. Desde un punto de vista matemático, esto significa que el reconocimiento de patrones (y así se llamaba en nuestro país a esta clase de problemas) es una generalización de gran alcance de la idea de extrapolación de funciones.

La importancia de tal afirmación para las ciencias técnicas está fuera de toda duda y esto justifica por sí solo numerosos estudios en este campo. Sin embargo, el problema del reconocimiento de patrones también tiene un aspecto más amplio para las ciencias naturales (sin embargo, sería extraño que algo tan importante para los sistemas cibernéticos artificiales no tuviera significado para los naturales). El contexto de esta ciencia también incluía orgánicamente preguntas planteadas por los filósofos antiguos sobre la naturaleza de nuestro conocimiento, nuestra capacidad para reconocer imágenes, patrones y situaciones en el mundo circundante. De hecho, hay pocas dudas de que los mecanismos para reconocer las imágenes más simples, como las de un depredador peligroso o de comida acercándose, se formaron mucho antes de la aparición del lenguaje elemental y del aparato lógico formal. Y no hay duda de que tales mecanismos están bastante desarrollados en los animales superiores, que también en sus actividades vitales necesitan con urgencia la capacidad de distinguir un sistema bastante complejo de signos de la naturaleza. Así, en la naturaleza vemos que el fenómeno del pensamiento y la conciencia se basa claramente en la capacidad de reconocer imágenes, y el mayor progreso de la ciencia de la inteligencia está directamente relacionado con la profundidad de la comprensión de las leyes fundamentales del reconocimiento. Al comprender el hecho de que las cuestiones anteriores van mucho más allá de la definición estándar de reconocimiento de patrones (en la literatura inglesa el término aprendizaje supervisado es más común), también es necesario comprender que tienen conexiones profundas con esta definición relativamente estrecha (pero aún así). lejos de estar agotado) dirección.

Actualmente, el reconocimiento de patrones se ha convertido en una parte integral de la vida cotidiana y es uno de los conocimientos más importantes de un ingeniero moderno. En medicina, el reconocimiento de patrones ayuda a los médicos a realizar diagnósticos más precisos en las fábricas y se utiliza para predecir defectos en lotes de productos; Los sistemas biométricos de identificación personal como núcleo algorítmico también se basan en los resultados de esta disciplina. Un mayor desarrollo de la inteligencia artificial, en particular el diseño de computadoras de quinta generación capaces de comunicarse más directamente con los humanos en lenguajes naturales para los humanos y a través del habla, es impensable sin reconocimiento. Está a un paso de la robótica y los sistemas de control artificiales que contienen sistemas de reconocimiento como subsistemas vitales.

Es por eso que el desarrollo del reconocimiento de patrones desde el principio atrajo mucha atención por parte de especialistas de diversos perfiles: cibernéticos, neurofisiólogos, psicólogos, matemáticos, economistas, etc. Es en gran medida por esta razón que el propio reconocimiento de patrones moderno se ve impulsado por las ideas de estas disciplinas. Sin pretender que esté completo (y es imposible afirmarlo en un ensayo breve), describiremos la historia del reconocimiento de patrones y las ideas clave.

Definiciones

Antes de pasar a los principales métodos de reconocimiento de patrones, presentamos varias definiciones necesarias.

El reconocimiento de patrones (objetos, señales, situaciones, fenómenos o procesos) es la tarea de identificar un objeto o determinar cualquiera de sus propiedades a partir de su imagen (reconocimiento óptico) o grabación de audio (reconocimiento acústico) y otras características.

Uno de los básicos es el concepto de conjunto, que no tiene una formulación específica. En una computadora, un conjunto se representa como un conjunto de elementos no repetidos del mismo tipo. La palabra "no repetitivo" significa que algún elemento del conjunto está ahí o no. Un conjunto universal incluye todos los elementos posibles para el problema que se resuelve; un conjunto vacío no contiene ninguno.

Una imagen es una agrupación de clasificación en un sistema de clasificación que une (destaca) un determinado grupo de objetos según un determinado criterio. Las imágenes tienen una propiedad característica, que se manifiesta en el hecho de que el conocimiento de un número finito de fenómenos de un mismo conjunto permite reconocer un número arbitrariamente grande de sus representantes. Las imágenes tienen propiedades objetivas características en el sentido de que diferentes personas, entrenadas con diferente material de observación, en su mayor parte clasifican los mismos objetos de la misma manera e independientemente unos de otros. En la formulación clásica del problema de reconocimiento, el conjunto universal se divide en partes de la imagen. Cada mapeo de un objeto en los órganos perceptivos del sistema de reconocimiento, independientemente de su posición con respecto a estos órganos, generalmente se denomina imagen del objeto, y los conjuntos de tales imágenes, unidos por algunas propiedades comunes, son imágenes.

El método de asignar un elemento a cualquier imagen se llama regla decisiva. Otro concepto importante es el de métrica, una forma de determinar la distancia entre elementos de un conjunto universal. Cuanto menor es esta distancia, más similares son los objetos (símbolos, sonidos, etc.), lo que reconocemos. Normalmente, los elementos se especifican como un conjunto de números y la métrica se especifica como una función. La efectividad del programa depende de la elección de la representación de la imagen y la implementación de la métrica; un algoritmo de reconocimiento con diferentes métricas cometerá errores con diferentes frecuencias.

Se suele denominar aprendizaje al proceso de desarrollar en un determinado sistema una u otra reacción a grupos de señales externas idénticas mediante la exposición repetida al sistema de ajustes externos. Estos ajustes externos en la formación suelen denominarse “recompensas” y “castigos”. El mecanismo para generar este ajuste determina casi por completo el algoritmo de aprendizaje. El autoaprendizaje se diferencia del entrenamiento en que aquí no se proporciona información adicional sobre la exactitud de la reacción al sistema.

La adaptación es el proceso de cambiar los parámetros y la estructura del sistema, y ​​posiblemente acciones de control, basándose en la información actual para lograr un cierto estado del sistema bajo incertidumbre inicial y condiciones operativas cambiantes.

El aprendizaje es un proceso como resultado del cual el sistema adquiere gradualmente la capacidad de responder con las reacciones necesarias a ciertos conjuntos de influencias externas, y la adaptación es el ajuste de los parámetros y la estructura del sistema para lograr la calidad de control requerida. ante los continuos cambios en las condiciones externas.

Ejemplos de tareas de reconocimiento de patrones: - Reconocimiento de letras;

En este artículo, me propuse resaltar algunos de los resultados fundamentales de la teoría del aprendizaje automático de una manera que aclare los conceptos para los lectores con cierto conocimiento de problemas de clasificación y regresión. La idea de escribir un artículo así se hizo cada vez más clara en mi mente con cada libro que leí, en el que las ideas de enseñar a las máquinas a reconocer se contaban como desde el medio y no estaba del todo claro cuáles eran los autores de este o se basó en ese método al desarrollarlo. Por otro lado, hay varios libros dedicados a los conceptos básicos del aprendizaje automático, pero la presentación del material que contienen puede parecer demasiado compleja para una primera lectura.

Motivación

Consideremos este problema. Tenemos manzanas de dos clases: sabrosas y no sabrosas, 1 y 0. Las manzanas tienen características: color y tamaño. El color cambiará continuamente de 0 a 1, es decir. 0 - manzana completamente verde, 1 - completamente roja. El tamaño puede cambiar de la misma manera, 0 - manzana pequeña, 1 - grande. Nos gustaría desarrollar un algoritmo que reciba el color y el tamaño como entrada y genere la clase de la manzana, ya sea sabrosa o no. Es muy deseable que cuanto menor sea el número de errores, mejor. Al mismo tiempo, tenemos una lista final que contiene datos históricos sobre el color, tamaño y clase de las manzanas. ¿Cómo podríamos resolver tal problema?

Enfoque lógico

A la hora de resolver nuestro problema, el primer método que nos podría venir a la mente podría ser este: creemos manualmente reglas como if-else y, dependiendo de los valores de color y tamaño, asignaremos una determinada clase a la manzana. Aquellos. tenemos requisitos previos: color y tamaño, y hay una consecuencia: el sabor de la manzana. Es bastante razonable cuando hay pocos signos y los umbrales se pueden evaluar visualmente para compararlos. Pero puede suceder que no sea posible establecer condiciones claras y que los datos no dejen claro qué umbrales tomar, y el número de signos puede aumentar en el futuro. ¿Qué pasa si en nuestra lista con datos históricos encontramos dos manzanas del mismo color y tamaño, pero una está marcada como sabrosa y la otra no? Por tanto, nuestro primer método no es tan flexible y escalable como nos gustaría.

Designaciones

Introduzcamos la siguiente notación. Denotaremos la enésima manzana como . A su vez, cada uno consta de dos números: color y tamaño. Denotaremos este hecho con un par de números: . Denotamos la clase de cada manzana como . La lista con datos históricos se indicará con la letra, la longitud de esta lista es . El décimo elemento de esta lista es el valor de los atributos de la manzana y su clase. Aquellos. . También lo llamaremos muestra. Usamos letras mayúsculas para indicar variables que pueden tomar los valores de un atributo y clase específicos. Introduzcamos un nuevo concepto: una regla de decisión es una función que toma el color y el tamaño como entrada y devuelve una etiqueta de clase como salida:

Enfoque probabilístico

Desarrollando la idea de un método lógico con premisas y consecuencias, planteémonos la pregunta: ¿cuál es la probabilidad de que la enésima manzana que no pertenece a nuestra muestra sea sabrosa, dados los valores medidos de color y tamaño? ? En la notación de la teoría de la probabilidad, esta pregunta se puede escribir de la siguiente manera:

Esta expresión puede interpretarse como una premisa, como una consecuencia, pero el paso de premisa a consecuencia obedecerá a leyes probabilísticas, no lógicas. Aquellos. En lugar de una tabla de verdad con valores booleanos 0 y 1 para una clase, habrá valores de probabilidad que oscilan entre 0 y 1. Aplique la fórmula de Bayes y obtenga la siguiente expresión:

Veamos el lado derecho de esta expresión con más detalle. El multiplicador se llama probabilidad previa y significa la probabilidad de encontrar una manzana sabrosa entre todas las manzanas posibles. Existe a priori una probabilidad de encontrarnos con una manzana insípida. Esta probabilidad puede reflejar nuestro conocimiento personal de cómo se distribuyen en la naturaleza las manzanas sabrosas y desagradables. Por ejemplo, por nuestra experiencia pasada sabemos que el 80% de todas las manzanas son sabrosas. O podemos estimar este valor simplemente calculando la proporción de manzanas sabrosas en nuestra lista con datos históricos S. El siguiente factor muestra la probabilidad de obtener un valor específico de color y tamaño para una manzana de clase 1. Esta expresión también se llama la función de probabilidad y puede verse así: alguna distribución específica, por ejemplo, normal. Usamos el denominador como constante de normalización para que la probabilidad deseada varíe de 0 a 1. Nuestro objetivo final no es buscar probabilidades, sino buscar una regla decisiva que nos dé inmediatamente la clase. La forma final de la regla de decisión depende de los valores y parámetros que conocemos. Por ejemplo, solo podemos conocer los valores de la probabilidad previa y los valores restantes no se pueden estimar. Entonces la regla decisiva será ésta: asignar a todas las manzanas el valor de la clase para la cual la probabilidad a priori es mayor. Aquellos. Si sabemos que el 80% de las manzanas en la naturaleza son sabrosas, entonces le damos a cada manzana una clase de 1. Entonces nuestro error será del 20%. Si también podemos estimar los valores de la función de probabilidad $p(X=x_m | Y=1)$, entonces podemos encontrar el valor de la probabilidad deseada usando la fórmula de Bayes, como se escribió anteriormente. La regla decisiva aquí será la siguiente: ponga una etiqueta para la clase para la cual la probabilidad es máxima:

Llamemos a esta regla clasificador bayesiano. Dado que estamos tratando con probabilidades, incluso un valor de probabilidad grande no garantiza que la manzana no pertenezca a la clase 0. Estimemos la probabilidad de un error en una manzana de la siguiente manera: si la regla de decisión arrojara un valor de clase igual a 1 , entonces la probabilidad de error será y viceversa:

Nos interesa la probabilidad de un error en el clasificador no sólo en este ejemplo específico, sino en general para todas las manzanas posibles:

Esta expresión es el valor esperado del error. Entonces, resolviendo el problema original, llegamos al clasificador bayesiano, pero ¿cuáles son sus desventajas? El principal problema es estimar la probabilidad condicional a partir de los datos. En nuestro caso, representamos un objeto con un par de números: color y tamaño, pero en problemas más complejos la dimensión de las características puede ser muchas veces mayor y el número de observaciones de nuestra lista con datos históricos puede no ser suficiente para estimar el probabilidad de una variable aleatoria multidimensional. A continuación, intentaremos generalizar nuestro concepto de error del clasificador y también ver si es posible seleccionar cualquier otro clasificador para resolver el problema.

Pérdidas por errores del clasificador

Supongamos que ya tenemos alguna regla de decisión. Entonces puede cometer dos tipos de errores: el primero es asignar un objeto a la clase 0, cuya clase real es 1, y viceversa, asignar un objeto a la clase 1, cuya clase real es 0. En algunos problemas es importante para distinguir entre estos casos. Por ejemplo, sufrimos más cuando una manzana etiquetada como sabrosa resulta insípida y viceversa. Formalizamos el grado de incomodidad por las expectativas decepcionadas en el concepto. Más generalmente, tenemos una función de pérdida que devuelve un número por cada error del clasificador. Sea una etiqueta de clase real. Luego, la función de pérdida devuelve el valor de pérdida para la etiqueta de clase real y el valor de nuestra regla de decisión. Un ejemplo del uso de esta función: tomamos de una manzana con una clase conocida, pasamos la manzana como entrada a nuestra regla de decisión, obtenemos una estimación de la clase de la regla de decisión, si los valores coinciden, entonces asumimos que el clasificador no se equivocó y no hay pérdidas, si los valores no coinciden, entonces nuestra función dirá la cantidad de pérdida

Riesgo condicional y bayesiano

Ahora que tenemos una función de pérdida y sabemos cuánto perdemos por la clasificación errónea de objetos, sería bueno entender cuánto perdemos en promedio entre muchos objetos. Si conocemos el valor, la probabilidad de que la manzana sea sabrosa, dados los valores medidos de color y tamaño, así como el valor real de la clase (por ejemplo, tome una manzana de la muestra S, ver en la comienzo del artículo), entonces podemos introducir el concepto de riesgo condicional. El riesgo condicional es el valor promedio de las pérdidas en la instalación según la regla decisiva:

En nuestro caso de clasificación binaria cuando resulta:

Arriba, describimos la regla de decisión, que asigna un objeto a la clase que tiene el valor de probabilidad más alto. Esta regla proporciona un mínimo a nuestras pérdidas promedio (riesgo bayesiano), por lo tanto, el clasificador bayesiano es óptimo desde el punto de vista del riesgo. funcional que presentamos. Esto significa que el clasificador bayesiano tiene el menor error de clasificación posible.

Algunas funciones de pérdida típicas

Una de las funciones de pérdida más comunes es una función simétrica, cuando las pérdidas del primer y segundo tipo de errores son equivalentes. Por ejemplo, la función de pérdida 1-0 (pérdida cero uno) se define de la siguiente manera:

Entonces el riesgo condicional para a(x) = 1 será simplemente el valor de la probabilidad de obtener clase 0 en el objeto:

De manera similar para a(x) = 0:

La función de pérdida 1-0 toma el valor 1 si el clasificador comete un error en el objeto y 0 si no lo hace. Ahora asegurémonos de que el valor del error no sea igual a 1, sino a otra función Q, dependiendo de la regla de decisión y la etiqueta de clase real:

Entonces el riesgo condicional se puede escribir de la siguiente manera:

Notas sobre notación

El texto anterior fue escrito según la notación adoptada en el libro de Duda y Hart. En el libro original de V.N. Vapnik consideró el siguiente proceso: la naturaleza selecciona un objeto de acuerdo con la distribución $p(x)$, y luego le asigna una etiqueta de clase de acuerdo con la distribución condicional $p(y|x)$. Entonces el riesgo (expectativa de pérdidas) se define como

Donde está la función con la que intentamos aproximar la dependencia desconocida, es la función de pérdida para el valor real y el valor de nuestra función. Esta notación es más clara para introducir el siguiente concepto: riesgo empírico.

Riesgo empírico

En esta etapa, ya hemos descubierto que el método lógico no es adecuado para nosotros porque no es lo suficientemente flexible y no podemos usar el clasificador bayesiano cuando hay muchas características, pero hay un número limitado de datos de entrenamiento y no puede restaurar la probabilidad. También sabemos que el clasificador bayesiano tiene el menor error de clasificación posible. Como no podemos usar un clasificador bayesiano, usemos algo más simple. Arreglemos alguna familia paramétrica de funciones H y seleccionemos un clasificador de esta familia.

Ejemplo: deja el conjunto de todas las funciones del formulario.

Todas las funciones de este conjunto se diferenciarán entre sí solo por los coeficientes. Cuando elegimos dicha familia, asumimos que en las coordenadas de color y tamaño entre los puntos de clase 1 y los puntos de clase 0 podemos trazar una línea recta con coeficientes de este tipo. forma que puntos con diferentes clases se ubican a lo largo de diferentes lados de la línea recta. Se sabe que para una recta de este tipo el vector de coeficientes es normal a la recta. Ahora hacemos esto: tomamos nuestra manzana, medimos su color y tamaño y trazamos el punto con las coordenadas obtenidas en el gráfico en los ejes color-tamaño. A continuación, medimos el ángulo entre este punto y el vector $w$. Observamos que nuestro punto puede estar en uno u otro lado de la línea recta. Entonces el ángulo entre y el punto será agudo u obtuso, y el producto escalar será positivo o negativo. Esto lleva a la regla decisiva:

Después de haber fijado la clase de funciones $H$, surge la pregunta: ¿cómo seleccionar una función con los coeficientes requeridos? La respuesta es: elijamos la función que minimice nuestro riesgo bayesiano $R()$. Nuevamente, el problema es que para calcular los valores de riesgo bayesianos, es necesario conocer la distribución $p(x,y)$, pero no nos la proporcionan y no siempre es posible restaurarla. Otra idea es minimizar el riesgo no en todos los objetos posibles, sino sólo en una muestra. Aquellos. función de minimizar:

Esta función se llama riesgo empírico. La siguiente pregunta es ¿por qué decidimos que al minimizar el riesgo empírico también minimizamos el riesgo bayesiano? Permítanme recordarles que nuestra tarea práctica es cometer el menor número posible de errores de clasificación. Cuantos menos errores, menor será el riesgo bayesiano. La justificación de la convergencia del riesgo empírico al riesgo bayesiano con un volumen de datos creciente fue obtenida en los años 70 por dos científicos: V. N. Vapnik y A. Ya.

Garantías de convergencia. El caso más simple

Entonces, hemos llegado a la conclusión de que el clasificador bayesiano da el menor error posible, pero en la mayoría de los casos no podemos entrenarlo y tampoco podemos calcular el error (riesgo). Sin embargo, podemos calcular una aproximación al riesgo bayesiano, que se llama riesgo empírico, y conociendo el riesgo empírico, seleccionar una función de aproximación que minimice el riesgo empírico. Veamos la situación más simple en la que minimizar el riesgo empírico produce un clasificador que también minimiza el riesgo bayesiano. Para el caso más simple, tendremos que hacer una suposición que rara vez se cumple en la práctica, pero que se puede relajar más adelante. Fijemos una clase finita de funciones de la cual seleccionaremos nuestro clasificador y supondremos que la función real que usa la naturaleza para clasificar nuestras manzanas en gustos está en este conjunto finito de hipótesis: . También tenemos una muestra obtenida de la distribución sobre objetos. Consideramos que todos los objetos de muestra están igualmente distribuidos de forma independiente (iid). Entonces lo siguiente será cierto

Teorema

Al seleccionar una función de una clase utilizando la minimización empírica del riesgo, tenemos la garantía de encontrar una que tenga un valor de riesgo bayesiano pequeño si la muestra en la que realizamos la minimización es de tamaño suficiente.

¿Qué significa "valor pequeño" y "tamaño suficiente"? Consulte la literatura a continuación.

Idea de prueba

Según las condiciones del teorema, obtenemos una muestra de la distribución, es decir el proceso de selección de objetos de la naturaleza es aleatorio. Cada vez que recopilemos una muestra, será de la misma distribución, pero los objetos en sí pueden ser diferentes. La idea principal de la prueba es que podemos obtener una muestra tan mala que el algoritmo que elijamos minimizando el riesgo empírico en esta muestra será malo para minimizar el riesgo bayesiano, pero al mismo tiempo será bueno para minimizando el riesgo empírico, pero la probabilidad de obtener dicha muestra es pequeña y al aumentar el tamaño de la muestra, esta probabilidad disminuye. Existen teoremas similares para supuestos más realistas, pero no los consideraremos aquí.

Resultados prácticos

Teniendo evidencia de que la función encontrada minimizando el riesgo empírico no tendrá un gran error en datos no observados previamente con un tamaño de muestra de entrenamiento suficiente, podemos usar este principio en la práctica, por ejemplo, de la siguiente manera: tomamos la expresión:

Y sustituimos diferentes funciones de pérdida, dependiendo del problema que se esté resolviendo. Para regresión lineal:

Para regresión logística:

Aunque las máquinas de vectores de soporte tienen una motivación principalmente geométrica, también pueden considerarse como un problema empírico de minimización de riesgos.

Conclusión

Muchos métodos de aprendizaje supervisado pueden considerarse, entre otras cosas, casos especiales de la teoría desarrollada por V. N. Vapnik y A. Ya Chervonenkis. Esta teoría proporciona garantías en cuanto al error en el conjunto de pruebas, siempre que exista un tamaño suficiente de la muestra de entrenamiento y ciertos requisitos para el espacio de hipótesis en el que buscamos nuestro algoritmo.

Literatura utilizada

  • La naturaleza de la teoría del aprendizaje estadístico, Vladimir N. Vapnik
  • Clasificación de patrones, segunda edición, Richard O. Duda, Peter E. Hart, David G. Stork
  • Comprensión del aprendizaje automático: de la teoría a los algoritmos, Shai Shalev-Shwartz, Shai Ben-David
PD Por favor escriba en un mensaje personal sobre cualquier imprecisión o error tipográfico.

Etiquetas: Agregar etiquetas



¿Te gustó el artículo? ¡Comparte con tus amigos!