Lingüística computacional. Científicos soviéticos y rusos: Alexey Lyapunov, Igor Melchuk, Olga Kulagina, Yu.D.

Contenido del artículo

LINGÜÍSTICA INFORMÁTICA, dirección en lingüística aplicada, centrada en el uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones, áreas problemáticas, etc., así como todo el ámbito de aplicación de Modelos de lenguaje informático en lingüística y disciplinas afines. En realidad, sólo en este último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático del lenguaje también puede considerarse como un campo de aplicación de la informática y la teoría de la programación para la resolución de problemas en la ciencia del lenguaje. En la práctica, sin embargo, la lingüística computacional incluye casi todo lo relacionado con el uso de computadoras en lingüística.

La lingüística computacional se constituyó como un campo científico especial en los años 1960. El término ruso "lingüística informática" es una traducción del inglés computacional lingüística. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más limitado, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista Computer Linguistics se publica trimestralmente en Estados Unidos. Gran parte del trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Computacional, que tiene estructuras regionales (en particular, una sucursal europea). Cada dos años se celebran congresos internacionales sobre lingüística computacional (COLING). Los temas correspondientes suelen estar ampliamente representados en diversas conferencias sobre inteligencia artificial.

Kit de herramientas para lingüística computacional.

La lingüística computacional como disciplina aplicada especial se distingue principalmente por su instrumento, es decir. sobre el uso de herramientas informáticas para el procesamiento de datos lingüísticos. Dado que los programas informáticos que modelan ciertos aspectos del funcionamiento de un lenguaje pueden utilizar una variedad de herramientas de programación, no parece necesario hablar del aparato conceptual general de la lingüística informática. Sin embargo, esto no es cierto. Existen principios generales del modelado informático del pensamiento, que de alguna manera se implementan en cualquier modelo informático. Se basan en la teoría del conocimiento, que se desarrolló originalmente en el campo de la inteligencia artificial y luego se convirtió en una de las ramas de la ciencia cognitiva. Las categorías conceptuales más importantes de la lingüística informática son estructuras de conocimiento como "marcos" (conceptuales o, como dicen, estructuras conceptuales para la representación declarativa del conocimiento sobre una situación temáticamente unificada tipificada), "escenarios" (estructuras conceptuales para la comprensión procesal). representación de conocimiento sobre una situación estereotipada o un comportamiento estereotipado), “planes” (estructuras de conocimiento que capturan ideas sobre posibles acciones que conducen a lograr un objetivo determinado). Estrechamente relacionado con la categoría de fotograma está el concepto de “escena”. La categoría de escena se utiliza principalmente en la literatura sobre lingüística informática como designación de una estructura conceptual para la representación declarativa de situaciones y sus partes actualizadas en un acto de habla y resaltadas por medios lingüísticos (lexemas, construcciones sintácticas, categorías gramaticales, etc.) .

Un conjunto organizado de estructuras de conocimiento forma en cierta manera el "modelo mundial" del sistema cognitivo y su modelo informático. En los sistemas de inteligencia artificial, el modelo mundial forma un bloque especial que, dependiendo de la arquitectura elegida, puede incluir conocimientos generales sobre el mundo (en forma de proposiciones simples como "hace frío en invierno" o en forma de reglas de producción). “si afuera está lloviendo, entonces es necesario llevar impermeable o paraguas”), algunos datos específicos (“El pico más alto del mundo es el Everest”), así como valores y sus jerarquías, a veces separados en un “bloque axiológico” especial.

La mayoría de los elementos de los conceptos de las herramientas de la lingüística computacional son homónimos: designan simultáneamente algunas entidades reales del sistema cognitivo humano y formas de representar estas entidades utilizadas en su descripción y modelado teórico. En otras palabras, los elementos del aparato conceptual de la lingüística informática tienen aspectos ontológicos e instrumentales. Por ejemplo, en el aspecto ontológico, la división del conocimiento declarativo y procedimental corresponde a diferentes tipos de conocimiento disponibles para una persona: el llamado conocimiento QUÉ (declarativo; como, por ejemplo, el conocimiento de la dirección postal de cualquier NN), por un lado, y el conocimiento CÓMO (procedimental; tal , por ejemplo, conocimiento que le permite encontrar el apartamento de este NN, incluso sin conocer su dirección formal), por el otro. En el aspecto instrumental, el conocimiento puede materializarse en un conjunto de descripciones (descripciones), en un conjunto de datos, por un lado, y en un algoritmo, una instrucción realizada por una computadora o algún otro modelo de sistema cognitivo, por el otro.

Direcciones de la lingüística computacional.

El campo de CL es muy diverso e incluye áreas como el modelado informático de la comunicación, el modelado de la estructura de la trama, las tecnologías de hipertexto para la presentación de texto, la traducción automática y la lexicografía informática. En un sentido estricto, los problemas de CL a menudo se asocian con un área aplicada interdisciplinaria con el nombre algo desafortunado de "procesamiento del lenguaje natural" (traducción del término inglés Natural Language Processing). Surgió a finales de los años 1960 y se desarrolló dentro de la disciplina científica y tecnológica de la “inteligencia artificial”. En su forma interna, la frase "procesamiento del lenguaje natural" cubre todas las áreas en las que se utilizan computadoras para procesar datos lingüísticos. Mientras tanto, en la práctica se ha afianzado una comprensión más estrecha de este término: el desarrollo de métodos, tecnologías y sistemas específicos que garantizan la comunicación humana con una computadora en un lenguaje natural o limitado.

El rápido desarrollo del campo del “procesamiento del lenguaje natural” se produjo en la década de 1970, lo que estuvo asociado con un crecimiento exponencial inesperado en el número de usuarios finales de computadoras. Dado que es imposible enseñar lenguajes y tecnologías de programación a todos los usuarios, ha surgido el problema de organizar la interacción con los programas informáticos. La solución a este problema de comunicación siguió dos caminos principales. En el primer caso se intentó adaptar los lenguajes de programación y los sistemas operativos al usuario final. Como resultado, aparecieron lenguajes de alto nivel como Visual Basic, así como sistemas operativos convenientes integrados en el espacio conceptual de metáforas familiares para los humanos: ESCRITORIO, BIBLIOTECA. La segunda forma es desarrollar sistemas que permitan la interacción con una computadora en un área problemática específica en lenguaje natural o alguna versión limitada del mismo.

La arquitectura de los sistemas de procesamiento del lenguaje natural en el caso general incluye un bloque para analizar el mensaje de voz del usuario, un bloque para interpretar el mensaje, un bloque para generar el significado de la respuesta y un bloque para sintetizar la estructura superficial de la declaración. Una parte especial del sistema es el componente de diálogo, que registra las estrategias para llevar a cabo el diálogo, las condiciones para utilizar estas estrategias y las formas de superar posibles fallas de comunicación (fallas en el proceso de comunicación).

Entre los sistemas informáticos de procesamiento del lenguaje natural se suelen distinguir los sistemas de preguntas y respuestas, los sistemas interactivos de resolución de problemas y los sistemas de procesamiento de textos conectados. Inicialmente, los sistemas de preguntas y respuestas comenzaron a desarrollarse como reacción a la mala calidad de la codificación de consultas al buscar información en sistemas de recuperación de información. Dado que el área problemática de tales sistemas era muy limitada, esto simplificó un poco los algoritmos para traducir consultas a una representación en un lenguaje formal y el procedimiento inverso para convertir una representación formal en declaraciones en un lenguaje natural. Entre los desarrollos nacionales, los programas de este tipo incluyen el sistema POET, creado por un equipo de investigadores bajo el liderazgo de E.V. El sistema procesa solicitudes en ruso (con pequeñas restricciones) y sintetiza la respuesta. El diagrama de flujo del programa implica pasar por todas las etapas de análisis (morfológica, sintáctica y semántica) y las correspondientes etapas de síntesis.

Los sistemas conversacionales de resolución de problemas, a diferencia de los sistemas del tipo anterior, juegan un papel activo en la comunicación, ya que su tarea es obtener una solución al problema a partir del conocimiento que en él se presenta y la información que se puede obtener del usuario. El sistema contiene estructuras de conocimiento que registran secuencias típicas de acciones para resolver problemas en un área problemática determinada, así como información sobre los recursos necesarios. Cuando un usuario hace una pregunta o establece una tarea específica, se activa el script correspondiente. Si faltan algunos componentes del script o faltan algunos recursos, el sistema inicia la comunicación. Así funciona, por ejemplo, el sistema SNUKA, que resuelve los problemas de planificación de operaciones militares.

Los sistemas para procesar textos conectados tienen una estructura bastante diversa. Su característica común puede considerarse el uso generalizado de tecnologías de representación del conocimiento. Las funciones de sistemas de este tipo son comprender el texto y responder preguntas sobre su contenido. La comprensión no se considera como una categoría universal, sino como un proceso de extracción de información de un texto, determinado por una intención comunicativa específica. En otras palabras, el texto se "lee" sólo asumiendo que es exactamente lo que el usuario potencial quiere saber sobre él. Por lo tanto, los sistemas para procesar textos interconectados resultan no ser universales, sino orientados a problemas. Ejemplos típicos de sistemas del tipo analizado son los sistemas INVESTIGADOR y TAILOR, que forman un único paquete de software que permite al usuario obtener información de resúmenes de patentes que describen objetos físicos complejos.

El área más importante de la lingüística informática es el desarrollo de sistemas de recuperación de información (IRS). Este último surgió a finales de los años cincuenta y principios de los sesenta como respuesta al fuerte aumento del volumen de información científica y técnica. Según el tipo de información almacenada y procesada, así como las funciones de búsqueda, los sistemas de recuperación de información se dividen en dos grandes grupos: documentales y fácticos. Los sistemas de recuperación de información documental almacenan los textos de los documentos o sus descripciones (resúmenes, fichas bibliográficas, etc.). El IRS fáctico se ocupa de la descripción de hechos específicos, y no necesariamente en forma de texto. Pueden ser tablas, fórmulas y otros tipos de presentación de datos. También existen sistemas de información mixtos, que incluyen tanto documentos como información fáctica. Actualmente, los sistemas de información fáctica se construyen sobre la base de tecnologías de bases de datos (DB). Para garantizar la recuperación de información en el sistema de recuperación de información, se crean lenguajes especiales de recuperación de información, que se basan en tesauros de recuperación de información. El lenguaje de recuperación de información es un lenguaje formal diseñado para describir ciertos aspectos del plan de contenido de los documentos almacenados en el sistema de recuperación de información y la solicitud. El procedimiento para describir un documento en un lenguaje de recuperación de información se llama indexación. Como resultado de la indexación, a cada documento se le asigna su descripción formal en un lenguaje de recuperación de información: una imagen de búsqueda del documento. La consulta se indexa de forma similar, a la que se le asigna una imagen de consulta de búsqueda y una prescripción de búsqueda. Los algoritmos de recuperación de información se basan en comparar la prescripción de búsqueda con la imagen de búsqueda de la consulta. El criterio para emitir un documento según una solicitud puede ser una coincidencia total o parcial de la imagen de búsqueda del documento y la instrucción de búsqueda. En algunos casos, el usuario tiene la oportunidad de formular él mismo los criterios de emisión. Esto está determinado por su necesidad de información. Los sistemas automatizados de recuperación de información suelen utilizar lenguajes de recuperación de información de descriptores. El tema de un documento se describe mediante un conjunto de descriptores. Los descriptores son palabras y términos que denotan categorías y conceptos simples y bastante elementales del área del problema. Se ingresan tantos descriptores en la imagen de búsqueda del documento como diferentes temas cubiertos en el documento. El número de descriptores no está limitado, lo que permite describir el documento en una matriz multidimensional de características. A menudo, en un lenguaje de recuperación de información de descriptores, se imponen restricciones a la compatibilidad de los descriptores. En este caso, podemos decir que el lenguaje de recuperación de información tiene sintaxis.

Uno de los primeros sistemas que trabajó con un lenguaje de descriptores fue el sistema estadounidense UNITERM, creado por M. Taube. Las palabras clave del documento (uniterms) funcionaban como descriptores en este sistema. La peculiaridad de este IRS es que inicialmente no se especificaba el diccionario del idioma de la información, sino que surgió en el proceso de indexación del documento y consulta. El desarrollo de sistemas modernos de recuperación de información está asociado con el desarrollo de sistemas de recuperación de información que no son de tipo tesauro. Estos sistemas de información trabajan con el usuario en un lenguaje natural limitado y la búsqueda se realiza a través de los textos de los resúmenes de los documentos, a través de sus descripciones bibliográficas y, a menudo, a través de los propios documentos. Para la indexación en el IRS que no es de tipo tesauro, se utilizan palabras y frases en lenguaje natural.

Hasta cierto punto, el campo de la lingüística informática puede incluir trabajos en el campo de la creación de sistemas de hipertexto, considerados como una forma especial de organizar el texto e incluso como un tipo de texto fundamentalmente nuevo, que contrasta en muchas de sus propiedades con el texto ordinario formado en La tradición de imprenta de Gutenberg. La idea de hipertexto está asociada al nombre de Vannevar Bush, asesor científico del presidente F. Roosevelt. V. Bush fundamentó teóricamente el proyecto del sistema técnico Memex, que permitía al usuario conectar textos y sus fragmentos mediante varios tipos de conexiones, principalmente mediante relaciones asociativas. La falta de tecnología informática dificultó la implementación del proyecto, ya que el sistema mecánico resultó ser demasiado complejo para su implementación práctica.

La idea de Bush renació en la década de 1960 con el sistema Xanadu de T. Nelson, que ya implicaba el uso de tecnología informática. "Xanadu" permitió al usuario leer un conjunto de textos ingresados ​​en el sistema de diferentes maneras, en diferentes secuencias, el software hizo posible recordar la secuencia de los textos vistos y seleccionar casi cualquiera de ellos en cualquier momento. T. Nelson llamó hipertexto a un conjunto de textos con relaciones que los conectan (un sistema de transiciones). Muchos investigadores ven la creación del hipertexto como el comienzo de una nueva era de la información, opuesta a la era de la imprenta. La linealidad de la escritura, que exteriormente refleja la linealidad del habla, resulta ser una categoría fundamental que limita el pensamiento humano y la comprensión del texto. El mundo del significado no es lineal, por lo tanto, la compresión de información semántica en un segmento lineal del habla requiere el uso de un "envoltorio comunicativo" especial: división en tema y rema, división del plan de contenido de un enunciado en explícito (enunciado, proposición, enfoque) e implícitas (presuposición, consecuencia, implicatura del discurso). El rechazo de la linealidad del texto tanto en el proceso de su presentación al lector (es decir, durante la lectura y la comprensión) como en el proceso de síntesis, según los teóricos, contribuiría a la "liberación" del pensamiento e incluso al surgimiento de su nuevas formas.

En un sistema informático, el hipertexto se presenta en forma de gráfico, cuyos nodos contienen textos tradicionales o sus fragmentos, imágenes, tablas, vídeos, etc. Los nodos están conectados por una variedad de relaciones, cuyos tipos son especificados por los desarrolladores de software de hipertexto o por el propio lector. Las relaciones definen las posibilidades potenciales de movimiento o navegación a través del hipertexto. Las relaciones pueden ser unidireccionales o bidireccionales. En consecuencia, las flechas bidireccionales permiten al usuario moverse en ambas direcciones, mientras que las flechas unidireccionales permiten al usuario moverse solo en una dirección. La cadena de nodos por la que pasa el lector al visualizar los componentes del texto forma un camino o ruta.

Las implementaciones informáticas del hipertexto pueden ser jerárquicas o en red. La estructura jerárquica (en forma de árbol) del hipertexto limita significativamente las posibilidades de transición entre sus componentes. En tal hipertexto, las relaciones entre componentes se asemejan a la estructura de un tesauro basado en relaciones género-especie. El hipertexto en red permite el uso de varios tipos de relaciones entre componentes, sin limitarse a las relaciones género-especie. Según el método de existencia del hipertexto, se distinguen los hipertextos estáticos y dinámicos. El hipertexto estático no cambia durante la operación; en él el usuario puede registrar sus comentarios, pero no cambian la esencia del asunto. Para el hipertexto dinámico, el cambio es una forma normal de existencia. Normalmente, los hipertextos dinámicos operan donde es necesario analizar constantemente el flujo de información, es decir, en servicios de información de diversa índole. El hipertexto es, por ejemplo, el Sistema de Información de Arizona (AAIS), que se actualiza mensualmente con entre 300 y 500 resúmenes por mes.

Las relaciones entre los elementos del hipertexto pueden ser fijadas inicialmente por los creadores o pueden generarse cada vez que un usuario accede al hipertexto. En el primer caso estamos hablando de hipertextos de estructura dura, y en el segundo, de hipertextos de estructura blanda. La estructura rígida es tecnológicamente bastante comprensible. La tecnología para organizar una estructura blanda debe basarse en un análisis semántico de la proximidad de los documentos (u otras fuentes de información) entre sí. Esta es una tarea no trivial en lingüística computacional. Hoy en día, el uso de tecnologías de estructura blanda en palabras clave está muy extendido. La transición de un nodo a otro en una red de hipertexto se realiza como resultado de la búsqueda de palabras clave. Dado que el conjunto de palabras clave puede ser diferente cada vez, la estructura del hipertexto cambia cada vez.

La tecnología para construir sistemas de hipertexto no distingue entre información textual y no textual. Mientras tanto, la inclusión de información visual y sonora (videos, imágenes, fotografías, grabaciones de sonido, etc.) requiere un cambio significativo en la interfaz de usuario y un software y soporte informático más potente. Estos sistemas se denominan hipermedia o multimedia. La visibilidad de los sistemas multimedia predeterminó su uso generalizado en la enseñanza y en la creación de versiones informáticas de enciclopedias. Hay, por ejemplo, CD-ROM bellamente elaborados con sistemas multimedia basados ​​en enciclopedias infantiles publicadas por Dorlin Kindersley.

En el marco de la lexicografía informática, se están desarrollando tecnologías informáticas para compilar y operar diccionarios. Los programas especiales (bases de datos, archivadores de computadora, programas de procesamiento de textos) le permiten generar automáticamente entradas de diccionario, almacenar información del diccionario y procesarla. Muchos programas lexicográficos informáticos diferentes se dividen en dos grandes grupos: programas de soporte de obras lexicográficas y diccionarios automáticos de varios tipos, incluidas las bases de datos lexicográficas. Un diccionario automático es un diccionario en un formato de máquina especial destinado a ser utilizado en una computadora por un usuario o un programa de procesamiento de textos de computadora. En otras palabras, existe una distinción entre diccionarios automáticos para el usuario final humano y diccionarios automáticos para programas de procesamiento de textos. Los diccionarios automáticos destinados al usuario final difieren significativamente en la interfaz y la estructura de la entrada del diccionario de los diccionarios automáticos incluidos en los sistemas de traducción automática, sistemas de resumen automático, sistemas de recuperación de información, etc. En la mayoría de los casos se trata de versiones informáticas de diccionarios convencionales conocidos. En el mercado de software existen análogos informáticos de diccionarios explicativos del idioma inglés (Webster automático, diccionario explicativo automático del idioma inglés publicado por Collins, versión automática del New Large English-Russian Dictionary editado por Yu.D. Apresyan y E.M. Mednikova ), también existe una versión para computadora del diccionario de Ozhegov. Los diccionarios automáticos para programas de procesamiento de textos pueden denominarse diccionarios automáticos en sentido estricto. Por lo general, no están destinados al usuario medio. Las características de su estructura y el alcance del material de vocabulario están determinados por los programas que interactúan con ellos.

El modelado informático de la estructura de la trama es otra área prometedora de la lingüística informática. El estudio de la estructura de la trama se relaciona con los problemas de la crítica literaria estructural (en un sentido amplio), la semiótica y los estudios culturales. Los programas informáticos disponibles para modelar tramas se basan en tres formalismos básicos para la representación de tramas: las direcciones morfológica y sintáctica de la representación de tramas, así como el enfoque cognitivo. Las ideas sobre la estructura morfológica de la trama se remontan a las famosas obras de V.Ya. centímetro.) sobre un cuento de hadas ruso. Propp notó que con la abundancia de personajes y eventos en un cuento de hadas, el número de funciones de los personajes es limitado, y propuso un aparato para describir estas funciones. Las ideas de Propp formaron la base del programa informático TALE, que simula la generación de la trama de un cuento de hadas. El algoritmo del programa TALE se basa en la secuencia de funciones de los personajes del cuento de hadas. De hecho, las funciones de Propp definieron un conjunto de situaciones tipificadas, ordenadas sobre la base de un análisis de material empírico. Las posibilidades de vincular diversas situaciones en las reglas de generación estaban determinadas por una secuencia típica de funciones, en la forma en que esto puede establecerse a partir de los textos de los cuentos de hadas. En el programa se describieron secuencias de funciones típicas como escenarios típicos de encuentro de personajes.

La base teórica del enfoque sintáctico de la trama de un texto fueron las “gramáticas narrativas” o “gramáticas narrativas”. Aparecieron a mediados de los años 1970 como resultado de la transferencia de las ideas de la gramática generativa de N. Chomsky a la descripción de la macroestructura del texto. Si los componentes más importantes de la estructura sintáctica en una gramática generativa eran frases verbales y nominales, entonces en la mayoría de las gramáticas argumentales la exposición (escenario), el evento y el episodio se destacaban como básicos. En la teoría de las gramáticas argumentales, se han discutido ampliamente las condiciones de minimalidad, es decir, las restricciones que determinan el estatus de una secuencia de elementos argumentales como una trama normal. Sin embargo, resultó que esto no es posible mediante métodos puramente lingüísticos. Muchas restricciones son de naturaleza sociocultural. Las gramáticas argumentales, si bien diferían significativamente en el conjunto de categorías del árbol generacional, permitían un conjunto muy limitado de reglas para modificar la estructura narrativa.

A principios de la década de 1980, uno de los alumnos de R. Schenk, V. Lehnert, como parte de su trabajo sobre la creación de un generador de tramas por computadora, propuso un formalismo original de unidades de trama emocionales (Unidades de trama afectivas), que resultó ser un medio poderoso. de representar la estructura de la trama. A pesar de que originalmente fue desarrollado para un sistema de inteligencia artificial, este formalismo se utilizó en estudios puramente teóricos. La esencia del enfoque de Lehnert era que la trama se describía como un cambio secuencial en los estados cognitivo-emocionales de los personajes. Por lo tanto, el foco del formalismo de Lehnert no está en los componentes externos de la trama (exposición, evento, episodio, moralidad) sino en las características de su contenido. En este sentido, el formalismo de Lehnert es en parte un retorno a las ideas de Propp.

La competencia de la lingüística informática también incluye la traducción automática, que actualmente está experimentando un renacimiento.

Literatura:

Popov E.V. Comunicación con una computadora en lenguaje natural.. M., 1982
Sadur V.G. Comunicación del habla con computadoras electrónicas y problemas de su desarrollo.. – En el libro: Comunicación oral: problemas y perspectivas. Moscú, 1983.
Baranov A.N. Categorías de inteligencia artificial en semántica lingüística. Marcos y guiones. Moscú, 1987.
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelado de la comunicación en sistemas hombre-máquina.. – Soporte lingüístico de los sistemas de información. Moscú, 1987.
Olker H.R. Cuentos de hadas, tragedias y formas de presentar la historia mundial.. – En el libro: Lenguaje y modelización de la interacción social. Moscú, 1987.
Gorodetsky B.Yu. Lingüística computacional: modelado de la comunicación lingüística.
McQueen K. Estrategias discursivas para la síntesis de textos en lenguaje natural.. – Novedades en lingüística extranjera. vol. XXIV, Lingüística Computacional. Moscú, 1989.
Popov E.V., Preobrazhensky A.B. . Características de la implementación de sistemas NL.
Preobrazhensky A.B. Estado de desarrollo de los sistemas NL modernos. - Inteligencia artificial. Libro 1, Sistemas de comunicación y sistemas expertos. M., 1990
Subbotín M.M. Hipertexto. Una nueva forma de comunicación escrita.. – VINITI, Ser. Ciencias de la Computación, 1994, vol.
Baranov A.N. Introducción a la Lingüística Aplicada. M., 2000



Introducción

¿Qué es la lingüística computacional?

LINGÜÍSTICA INFORMÁTICA , una dirección en lingüística aplicada, centrada en el uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones, áreas problemáticas, etc., así como todo el ámbito de Aplicación de modelos informáticos del lenguaje en lingüística y disciplinas afines. En realidad, sólo en este último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático del lenguaje también puede considerarse como un campo de aplicación de la informática y la teoría de la programación para la resolución de problemas en la ciencia del lenguaje. En la práctica, sin embargo, la lingüística computacional incluye casi todo lo relacionado con el uso de computadoras en lingüística.

La lingüística computacional se constituyó como un campo científico especial en los años 1960. El término ruso "lingüística informática" es una traducción del inglés computacional lingüística. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más limitado, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista Computer Linguistics se publica trimestralmente en Estados Unidos. Gran parte del trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Computacional, que tiene estructuras regionales (en particular, una sucursal europea). Cada dos años se celebran congresos internacionales sobre lingüística computacional (COLING). Los temas correspondientes suelen estar ampliamente representados en diversas conferencias sobre inteligencia artificial.

Tareas

Lingüística computacional aborda los problemas lingüísticos reales del modelado informático de la actividad lingüística. Sus objetivos son construir modelos lingüísticos más precisos y completos y algoritmos de análisis y síntesis más avanzados.

Se pueden identificar las direcciones principales:

1) Interacción entre hombre y computadora: control - lenguajes de programación, transferencia de información - interfaz.

2) Trabajar con textos: indexación, análisis y clasificación, edición automática (corrección de errores), identificación de conocimientos, traducción automática.

Historia

La generación sencilla de un subconjunto del idioma inglés para acceder a bases de datos fue proporcionada por uno de los primeros sistemas estadounidenses LIFER (Language Interface Facility with Elipsis and Recursion), creado en los años 70. Después de esto, aparecieron en el mercado de las computadoras otros sistemas más flexibles que proporcionaban una interfaz de lenguaje natural limitada con una computadora.

En los años 80 se formaron en Estados Unidos varias empresas dedicadas al desarrollo y venta de interfaces de lenguaje natural con bases de datos y sistemas expertos. En 1985 Semantek Corporation presentó un paquete de software de preguntas y respuestas, y la empresa Carnegie Group ofreció un paquete similar LanguageCraft.

Se está trabajando activamente para crear sistemas de traducción automática. Se ha generalizado el sistema de traducción automática SYSTRAN, desarrollado bajo la dirección de D. Tom para la Fuerza Aérea de EE. UU. Durante 1974 - 1975 El sistema fue utilizado por la asociación aeroespacial de la NASA para traducir documentos para el proyecto Apollo-Soyuz. Actualmente traduce unas 100.000 páginas al año de varios idiomas.

En Europa, el trabajo sobre la creación de sistemas de traducción informática se vio estimulado por la formación de la Red Europea de Información (EURONET DIANA). En 1982, la Comunidad Económica Europea anunció la creación del programa europeo EUROTRA, cuyo objetivo es desarrollar un sistema de traducción asistida por ordenador para todas las lenguas europeas. El proyecto se estimó inicialmente en 12 millones de dólares; en 1987, los expertos determinaron el coste total del proyecto en más de 160 millones de dólares.

En Japón, la investigación en lingüística computacional se centra en el programa informático nacional de quinta generación anunciado en 1981.

Hay una serie de proyectos militares para crear interfaces hombre-máquina en lenguaje natural. En Estados Unidos, se llevan a cabo principalmente en el marco de la Iniciativa Informática Estratégica, un programa de diez años adoptado por el Departamento de Defensa en 1983. Su objetivo es crear una nueva generación de armas y sistemas militares "inteligentes" en para asegurar la superioridad tecnológica de Estados Unidos a largo plazo.

Naturalmente, los especialistas en inteligencia artificial, que conocen bien las computadoras y los lenguajes de programación, comenzaron con energía a resolver el problema de la comprensión del lenguaje utilizando sus propios métodos. Se buscó algoritmos de lenguaje natural. Se han creado programas complejos de comprensión de idiomas para áreas especializadas muy limitadas, se han implementado programas parciales de traducción automática y muchos otros. Pero no hubo avances decisivos en la solución del problema de la comprensión del lenguaje. El lenguaje y las personas están tan conectados que los científicos tuvieron que abordar el problema de la comprensión humana del mundo. Y este ya es el ámbito de la filosofía.

Conceptos básicos de lingüística.

Desde 2012, el Instituto de Lingüística de la Universidad Estatal de Humanidades de Rusia forma maestros en el programa de maestría. Lingüística computacional(dirección Lingüística fundamental y aplicada). Este programa está diseñado para preparar profesionales. lingüistas que dominan tanto los conceptos básicos de la lingüística como los métodos modernos de investigación, análisis experto y trabajo de ingeniería y son capaces de participar eficazmente en el desarrollo de tecnologías informáticas lingüísticas innovadoras.

En el proceso educativo participan los desarrolladores de grandes sistemas de investigación y comerciales en el campo del procesamiento automático de textos, lo que garantiza la conexión de la formación de maestría con la corriente principal de la lingüística informática moderna. Se presta especial atención a la participación de los maestros en conferencias rusas e internacionales.

Entre los profesores se encuentran los autores de libros de texto básicos sobre especialidades lingüísticas, especialistas de talla mundial, directores de proyectos de grandes sistemas automáticos de procesamiento del lenguaje: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, así como empleados de empresas líderes mundiales en el campo de la lingüística computacional: IBM (sistema Watson), Yandex, ABBYY (sistemas Lingvo, FineReader, Compreno).

La base para la formación de maestros en este programa es el enfoque de proyectos. La participación de los estudiantes de maestría en trabajos de investigación en el campo de la lingüística computacional se lleva a cabo sobre la base de la Universidad Estatal Rusa de Humanidades y sobre la base de empresas que desarrollan programas en el campo de AOT (ABBYY, IBM, etc.), que Por supuesto, es una gran ventaja tanto para los propios maestros como para sus posibles empleadores. En particular, en el programa de maestría se admiten maestros específicos, cuya formación es proporcionada por futuros empleadores.

Pruebas de ingreso: "Modelos y métodos formales de la lingüística moderna". La información exacta sobre el horario del examen se puede obtener en el sitio web del Departamento de Maestría de la Universidad Estatal de Humanidades de Rusia.

Jefes de magistratura - jefe. Centro Educativo y Científico de Lingüística Computacional, Director de Investigación Lingüística de ABBYY Vladimir Pavlovich Selegey y Doctor en Filología, Profesor Vera Isaakovna Podleskaya .

Programa del examen de ingreso y entrevista para la disciplina “Modelos y métodos formales de la lingüística moderna”.

Comentarios sobre el programa.

  • Cualquier pregunta del programa puede ir acompañada de tareas relacionadas con descripciones de fenómenos lingüísticos específicos relacionados con la sección de la pregunta: construcción de estructuras, descripción de restricciones, posibles algoritmos de construcción y/o identificación.
  • Las preguntas marcadas con asteriscos son opcionales (aparecen bajo el número 3 de los billetes). El conocimiento del material relevante es una ventaja importante para los candidatos, pero no es obligatorio.
  • Además de las preguntas teóricas, los boletos de examen ofrecerán un pequeño fragmento de un texto especial (lingüístico) en inglés para traducción y discusión. Los solicitantes deben demostrar un nivel satisfactorio de competencia en terminología científica en inglés y habilidades de análisis de textos científicos. Como ejemplo de un texto que no debería causar serias dificultades al solicitante, a continuación se muestra un fragmento del artículo https://en.wikipedia.org/wiki/Anaphora_(linguistics):

En lingüística, anáfora (/əˈnæfərə/) es el uso de una expresión cuya interpretación depende de otra expresión en contexto (su antecedente o poscedente). En un sentido más estricto, anáfora es el uso de una expresión que depende específicamente de una expresión antecedente y, por tanto, se contrasta con la catáfora, que es el uso de una expresión que depende de una expresión poscedente. El término anafórico (de referencia) se llama anáfora. Por ejemplo, en la oración Sally llegó, pero nadie la vio, el pronombre ella es una anáfora y se refiere al antecedente Sally. En la oración Antes de su llegada, nadie vio a Sally, el pronombre ella se refiere a la Sally poscedente, por lo que ella es ahora una catáfora (y una anáfora en el sentido más amplio, pero no en el más estricto). Por lo general, una expresión anafórica es una proforma o algún otro tipo de expresión deíctica (dependiente del contexto). Tanto la anáfora como la catáfora son especies de endófora y se refieren a algo mencionado en otra parte de un diálogo o texto.

La anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, la anáfora indica cómo se construye y mantiene el discurso; en segundo lugar, la anáfora une diferentes elementos sintácticos al nivel de la oración; tercero, la anáfora presenta un desafío para el procesamiento del lenguaje natural en lingüística computacional, ya que la identificación de la referencia puede resultar difícil; y cuarto, la anáfora dice algunas cosas sobre cómo se entiende y procesa el lenguaje, lo cual es relevante para los campos de la lingüística interesados ​​en la psicología cognitiva.

CUESTIONES TEÓRICAS

CUESTIONES GENERALES DE LINGÜÍSTICA

  • Objeto de la lingüística. Lenguaje y habla. Sincronía y diacronía.
  • Niveles de lenguaje. Modelos formales de niveles lingüísticos.
  • Sintagmática y paradigmática. El concepto de distribución.
  • Fundamentos de las comparaciones interlingüísticas: lingüística tipológica, genealógica y areal.
  • *Lingüística matemática: objeto y métodos de investigación.

FONÉTICA

  • Materia de fonética. Fonética articulatoria y acústica.
  • Fonética segmentaria y suprasegmental. Prosodia y entonación.
  • Conceptos básicos de fonología. Tipología de sistemas fonológicos y sus implementaciones fonéticas.
  • *Herramientas informáticas y métodos de investigación fonética.
  • *Análisis y síntesis del discurso.

MORFOLOGÍA

  • Tema de morfología. Morfos, morfemas, alomorfos.
  • Inflexión y formación de palabras.
  • Significados gramaticales y formas de su implementación. Categorías gramaticales y gramamas. Significados gramaticales morfológicos y sintácticos.
  • Los conceptos de forma de palabra, raíz, lema y paradigma.
  • Partes de la oración; Enfoques básicos para identificar partes del discurso.
  • *Modelos formales para describir la inflexión y formación de palabras.
  • *Morfología en tareas de procesamiento automático del lenguaje: revisión ortográfica, lematización, POS-tagging

SINTAXIS

  • Tema de sintaxis. Modos de expresar relaciones sintácticas.
  • Formas de representar la estructura sintáctica de una oración. Ventajas y desventajas de los árboles y componentes de dependencia.
  • Formas de describir el orden lineal. Falta de proyectividad y rotura de componentes. El concepto de transformación; transformaciones asociadas con el orden lineal.
  • La relación entre sintaxis y semántica: valencias, modelos de control, actantes y circonstantes.
  • Diátesis y colaterales. Derivación del actante.
  • Organización comunicativa del enunciado. Tema y rema, dado y nuevo, contraste.
  • *Principales teorías sintácticas: MST, generativismo, gramática funcional, HPSG
  • *Modelos matemáticos de sintaxis: clasificación de lenguajes formales según Chomsky, algoritmos de reconocimiento y su complejidad.

SEMÁNTICA

  • Tema de semántica. Imágenes lingüísticas ingenuas y científicas del mundo. Hipótesis de Sapir-Whorf.
  • El significado en el lenguaje y el habla: significado y referente. Tipo de referencia (estado denotativo).
  • Semántica léxica. Formas de describir la semántica de una palabra.
  • Semántica gramatical. Categorías principales utilizando el ejemplo del idioma ruso.
  • Semántica de la oración. Componente proposicional. Deixis y anáfora. Cuantificadores y conectivos. Modalidad.
  • Jerarquía y sistematicidad de significados léxicos. Polisemia y homonimia. Estructura semántica de una palabra polisemántica. Los conceptos de invariante y prototipo.
  • Relaciones paradigmáticas y sintagmáticas en el vocabulario. Funciones léxicas.
  • Interpretación. Lengua de interpretación. Escuela Semántica de Moscú
  • Semántica y lógica. El valor de verdad del enunciado.
  • Teoría de los actos de habla. El enunciado y su fuerza ilocutiva. Performativos. Clasificación de actos de habla.
  • Fraseología: inventario y métodos de descripción de unidades fraseológicas.
  • *Modelos y métodos de semántica formal.
  • *Modelos de semántica en la lingüística computacional moderna.
  • *Semántica distributiva y operativa.
  • *Ideas básicas de gramática de la construcción.

TIPOLOGÍA

  • Clasificaciones tipológicas tradicionales de las lenguas.
  • Tipología de categorías gramaticales de sustantivo y verbo.
  • Tipología de oración simple. Los principales tipos de construcciones: acusativo, ergativo, activo.
  • Tipología del orden de las palabras y correlaciones de Greenberg. Lenguajes de ramificación izquierda y derecha.

LEXICOGRAFÍA

  • El vocabulario como inventario de la cultura; variación social del vocabulario, uso léxico, norma, codificación.
  • Tipología de diccionarios (sobre material ruso). Reflexión de vocabulario en diccionarios de diversos tipos.
  • Lexicografía bilingüe utilizando la lengua rusa.
  • Lexicografía descriptiva y prescriptiva. Diccionarios lingüísticos profesionales.
  • Detalles de los principales diccionarios explicativos rusos. Estructura de una entrada de diccionario. Interpretación e información enciclopédica.
  • Vocabulario y gramática. La idea de un modelo integral de lenguaje en la Escuela Semántica de Moscú.
  • *Metodología de un lexicógrafo.
  • *Métodos de corpus en lexicografía.

LINGÜÍSTICA DEL TEXTO Y DEL DISCURSO

  • El concepto de texto y discurso.
  • Mecanismos de comunicación entre frases. Los principales tipos de medios de su implementación lingüística.
  • La oración como unidad del lenguaje y como elemento del texto.
  • Unidades superfrasales, principios de su formación y aislamiento, propiedades básicas.
  • Principales categorías de clasificación de textos (género, estilo, registro, área temática, etc.)
  • *Métodos de clasificación automática de géneros.

SOCIOLINGÜÍSTICA

  • El problema de la asignatura y los límites de la sociolingüística, su carácter interdisciplinar. Conceptos básicos de sociología y demografía. Niveles de estructura lingüística y sociolingüística. Conceptos básicos y direcciones de la sociolingüística.
  • Contactos lingüísticos. Bilingüismo y diglosia. Procesos divergentes y convergentes en la historia del lenguaje.
  • Diferenciación social del lenguaje. Formas de existencia del lenguaje. Lenguaje literario: uso-norma-codificación. Áreas funcionales del lenguaje.
  • Socialización del lenguaje. La naturaleza jerárquica de la identidad social y lingüística. El comportamiento lingüístico de un individuo y su repertorio comunicativo.
  • Métodos de investigación sociolingüística.

LINGÜÍSTICA INFORMÁTICA

  • Tareas y métodos de la lingüística computacional.
  • Lingüística de corpus. Principales características del caso.
  • Representación del conocimiento. Ideas básicas de la teoría de marcos de M. Minsky. Sistema Framenet.
  • Tesauros y ontologías. WordNet.
  • Fundamentos del análisis estadístico de textos. Diccionarios de frecuencias. Análisis de colocación.
  • *El concepto de aprendizaje automático.

LITERATURA

Educativo (nivel básico)

Baranov A.N. Introducción a la Lingüística Aplicada. M.: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Conceptos básicos de fraseología (curso corto) Guía de estudio. 2da edición. Moscú: Flintá, 2014.

Belikov V.A., Krysin L.P. Sociolingüística. M., Universidad Estatal Rusa de Humanidades, 2001.

Burlak S.A., Starostin S.A. Lingüística histórica comparada. M.: Academia. 2005

Vakhtin N.B., Golovko E.V.. Sociolingüística y sociología del lenguaje. San Petersburgo, 2004.

Knyazev S. V., Pozharitskaya S. K. Lengua literaria rusa moderna: fonética, gráfica, ortografía, ortografía. 2da ed. M., 2010

Kobozeva I.M. Semántica lingüística. M.: Editorial URSS. 2004.

Kodzasov S.V., Krivnova O.F. Fonética general. M.: RSUH, 2001.

Krongauz M.A. Semántica. M.: RSUH. 2001.

Krongauz M.A. Semántica: Tareas, encargos, textos. M.: Academia. 2006..

Maslov yu.s. Introducción a la lingüística. Ed. 6to, borrado. M.: Academia, phil. falso. Universidad Estatal de San Petersburgo,

Plungyan V.A. Morfología general: Introducción a la materia. Ed. 2do. M.: Editorial URSS, 2003.

Testelets Ya.G. Introducción a la sintaxis general. M., 2001.

Shaikevich A.Ya. Introducción a la lingüística. M.: Academia. 2005.

Científico y de referencia

Apresyan Yu.D. Obras seleccionadas, volumen I. Semántica léxica: 2ª ed., español. y adicional M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D. Obras seleccionadas, Volumen II. Descripción integral de la lengua y lexicografía del sistema. M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D.(ed.) Nuevo diccionario explicativo de sinónimos de la lengua rusa. Moscú - Viena: "Lenguas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ed.) Imagen lingüística del mundo y lexicografía sistémica (ed. Yu. D. Apresyan). M.: "Lenguas de las culturas eslavas", 2006, Prefacio y capítulo. 1, págs.26-74.

Bulygina T.V., Shmelev A.D. Conceptualización lingüística del mundo (basada en la gramática rusa). M.: Escuela "Lenguas de la cultura rusa", 1997.

Weinreich W. Contactos lingüísticos. Kyiv, 1983.

Vezhbitskaya A. Universales semánticos y descripción de lenguas. M.: Escuela "Lenguas de la cultura rusa". 1999.

Galperín I.R. El texto como objeto de investigación lingüística. 6ª edición. M.: LKI, 2008 ("Patrimonio lingüístico del siglo XX")

Zaliznyak A.A.“Inflexión nominal rusa” con la aplicación de obras seleccionadas sobre la lengua rusa moderna y la lingüística general. M.: Lenguas de cultura eslava, 2002.

Zaliznyak A.A., Paducheva E.V. Hacia una tipología de cláusulas de relativo. / Semiótica e informática, vol. 35. M., 1997, pág. 59-107.

Ivanov Vyach. Sol.. Lingüística del tercer milenio. Preguntas para el futuro. M., 2004. P. 89-100 (11. Situación lingüística en el mundo y previsión para el futuro próximo).

Kibrik A.E. Ensayos sobre cuestiones generales y aplicadas de la lingüística. M.: Editorial de la Universidad Estatal de Moscú, 1992.

Kibrik A.E. Constantes y variables del lenguaje. San Petersburgo: Aletheya, 2003.

Labov U. Sobre el mecanismo de los cambios lingüísticos // Novedades en lingüística. Número 7. M., 1975. P.320-335.

Lyons J. Semántica lingüística: Introducción. M.: Lenguas de cultura eslava. 2003.

Lyon Juan. Lengua y lingüística. Curso introductorio. M: URSS, 2004

Lakoff J. Mujeres, fuego y cosas peligrosas: lo que nos dicen las categorías del lenguaje sobre el pensamiento. M.: Lenguas de cultura eslava. 2004.

Lakoff J, Johnson M. Metáforas por las que vivimos. Por. del ingles Edición 2. M.: URSS. 2008.

Diccionario Enciclopédico Lingüístico / Ed. V.I. Yartsev. M.: Editorial científica "Gran Enciclopedia Rusa", 2002.

Melchuk I.A. Curso de morfología general. Tt. I-IV. Moscú-Viena: "Lenguas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Melchuk I.A. Experiencia en la teoría de modelos lingüísticos “SIGNIFICADO ↔ TEXTO”. M.: Escuela "Lenguas de la cultura rusa", 1999.

Fedorova L.L. Semiótica. M., 2004.

Filippov K.A. Lingüística del texto: Curso de conferencias - 2ª ed., español. y adicional Ed. San Petersburgo Universidad, 2007.

Haspelmath, M., et al.. (eds.). Atlas mundial de estructuras del lenguaje. Oxford, 2005.

Secadora, MS y Haspelmath, M.(eds.) Atlas mundial de estructuras lingüísticas en línea. Leipzig: Instituto Max Planck de Antropología Evolutiva, 2013. (http://wals.info)

Croft W. Tipología y Universales. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Tipología de lenguas y descripción sintáctica. 2da edición. Cambridge, 2007.

V. I. Belikov. Sobre los diccionarios "que contienen las normas de la lengua literaria rusa moderna cuando se utiliza como lengua estatal de la Federación de Rusia". 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Lingüística informática y tecnologías intelectuales: basado en los materiales de la Conferencia Internacional anual “Diálogo”. vol. 1-11. - M.: Editorial Nauka, de la Universidad Estatal Rusa de Humanidades, 2002-2012. (Artículos sobre lingüística computacional, http://www.dialog-21.ru).

Corpus Nacional de la Lengua Rusa: 2006-2008. Nuevos resultados y perspectivas. / Rep. ed. V. A. Plungyan. - San Petersburgo: Nestor-Historia, 2009.

Novedad en lingüística extranjera. vol. XXIV, Lingüística computacional / Comp. B. Yu. M.: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: libro de texto. M.: Academia, 2009.

Corpus Nacional de la Lengua Rusa: 2003-2005. Colección de artículos. M.: Indrik, 2005.

Para contactos:

Centro Educativo y Científico de Lingüística Computacional del Instituto de Lingüística de la Universidad Estatal Rusa de Humanidades


1. Actividades para formalizar conocimientos sobre el lenguaje natural en sus diferentes niveles con fines de uso en tecnologías informáticas. 2. Un área del conocimiento que resuelve problemas de comunicación entre una persona y una computadora en lenguaje natural. 3. Una amplia gama de uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones y áreas problemáticas.


La inteligencia artificial es una rama de la informática cuyo objetivo es desarrollar sistemas informáticos capaces de realizar funciones tradicionalmente consideradas intelectuales: comprensión del lenguaje natural, inferencia lógica, utilización del conocimiento acumulado, aprendizaje, planificación de acciones, etc.






3. Construcción de algoritmos para el análisis lingüístico - desarrollo de algoritmos para el análisis de textos en lenguaje natural en todos los niveles del lenguaje: fonémico, morfémico, morfológico, sintáctico, pragmático. Construyendo un árbol de dependencias sintácticas (proyecto de procesamiento automático de textos)


4. Lingüística de corpus: se ocupa del desarrollo, creación y uso de corpus textuales (lingüísticos). Página de inicio del sitio web del Corpus Nacional de la Lengua Rusa


5. La traducción automática es una dirección de investigación científica relacionada con la construcción de sistemas automáticos para traducir textos de un lenguaje natural a otro. Página de inicio del sitio Traductor de Google


6. Resúmenes automáticos: creación de programas para la presentación comprimida de textos en lenguaje natural. Servicio para la construcción de un resumen en el sitio web de Visual World.


7. Recuperación de información de texto completo: desarrollo de sistemas de recuperación de información con análisis lingüístico de los textos del conjunto de información y solicitudes de los usuarios. Página de inicio del sistema de búsqueda de información Yandex.











software de lingüística estadística lingüística

Historia del desarrollo de la lingüística computacional.

El proceso de formación y formación de la lingüística moderna como ciencia del lenguaje natural representa un largo desarrollo histórico del conocimiento lingüístico. El conocimiento lingüístico se basa en elementos que se formaron en el proceso de actividades indisolublemente ligadas al desarrollo de la estructura del habla oral, el surgimiento, mayor desarrollo y mejora de la escritura, el aprendizaje de la escritura, así como la interpretación y decodificación de textos.

El lenguaje natural como objeto de la lingüística ocupa un lugar central en esta ciencia. En el proceso de desarrollo del lenguaje, las ideas al respecto también cambiaron. Si anteriormente no se concedía especial importancia a la organización interna del lenguaje, y se consideraba principalmente en el contexto de su relación con el mundo exterior, entonces, a partir de finales del siglo XIX y principios del XX, se asignó un papel especial al interno. estructura formal de la lengua. Fue durante este período que el famoso lingüista suizo Ferdinand de Saussure desarrolló los fundamentos de ciencias como la semiología y la lingüística estructural, y los expuso en detalle en su libro "Un curso de lingüística general" (1916).

Al científico se le ocurrió la idea de considerar el lenguaje como un mecanismo único, un sistema integral de signos, que a su vez permite describir el lenguaje matemáticamente. Saussure fue el primero en proponer un enfoque estructural del lenguaje, a saber: una descripción del lenguaje mediante el estudio de las relaciones entre sus unidades. Por unidades, o “signos”, entendía una palabra que combina significado y sonido. El concepto propuesto por el científico suizo se basa en la teoría del lenguaje como un sistema de signos que consta de tres partes: lenguaje (del francés langue), habla (del francés parole) y actividad del habla (del francés langue).

El propio científico definió la ciencia que creó, la semiología, como “una ciencia que estudia la vida de los signos en el marco de la vida de la sociedad”. Dado que el lenguaje es un sistema de signos, en busca de una respuesta a la pregunta de qué lugar ocupa la lingüística entre otras ciencias, Saussure argumentó que la lingüística es parte de la semiología. En general, se acepta que fue el filólogo suizo quien sentó las bases teóricas de una nueva dirección en la lingüística, convirtiéndose en el fundador y "padre" de la lingüística moderna.

El concepto propuesto por F. de Saussure se desarrolló aún más en los trabajos de muchos científicos destacados: en Dinamarca, L. Hjelmslev, en la República Checa, N. Trubetskoy, en los EE. UU., L. Bloomfield, Z. Harris, N. Chomsky. En cuanto a nuestro país, aquí la lingüística estructural comenzó su desarrollo aproximadamente al mismo tiempo que en Occidente, a principios de los siglos XIX y XX. - en las obras de F. Fortunatov e I. Baudouin de Courtenay. Cabe señalar que I. Baudouin de Courtenay trabajó en estrecha colaboración con F. de Saussure. Si Saussure sentó las bases teóricas de la lingüística estructural, entonces se puede considerar a Baudouin de Courtenay la persona que sentó las bases para la aplicación práctica de los métodos propuestos por el científico suizo. Fue él quien definió la lingüística como una ciencia que utiliza métodos estadísticos y dependencias funcionales, y la separó de la filología. La primera experiencia en la aplicación de métodos matemáticos en lingüística fue la fonología, la ciencia de la estructura de los sonidos de una lengua.

Cabe señalar que los postulados propuestos por F. de Saussure lograron reflejarse en los problemas de la lingüística relevantes a mediados del siglo XX. Fue durante este período cuando se produjo una clara tendencia hacia la matematización de la ciencia del lenguaje. En casi todos los países grandes comienza el rápido desarrollo de la ciencia y la tecnología informática, que a su vez requirió bases lingüísticas cada vez más nuevas. El resultado de todo esto fue la rápida convergencia de las ciencias exactas y las humanidades, así como la interacción activa de las matemáticas y la lingüística, que encontraron aplicación práctica en la solución de problemas científicos urgentes.

En los años 50 del siglo XX, en la intersección de ciencias como las matemáticas, la lingüística, la informática y la inteligencia artificial, surgió una nueva dirección de la ciencia: la lingüística informática (también conocida como lingüística automática o procesamiento automático de textos en lenguaje natural). Las principales etapas del desarrollo de esta dirección se desarrollaron en el contexto de la evolución de los métodos de inteligencia artificial. Un poderoso impulso para el desarrollo de la lingüística informática fue la creación de las primeras computadoras. Sin embargo, con la llegada de una nueva generación de computadoras y lenguajes de programación en los años 60, comienza una etapa fundamentalmente nueva en el desarrollo de esta ciencia. Cabe señalar también que los orígenes de la lingüística computacional se remontan a los trabajos del famoso lingüista estadounidense N. Chomsky en el campo de la formalización de la estructura del lenguaje. Los resultados de su investigación, obtenidos en la intersección de la lingüística y las matemáticas, formaron la base para el desarrollo de la teoría de los lenguajes formales y las gramáticas (gramáticas generativas o generativas), que se utiliza ampliamente para describir tanto naturales como artificiales. lenguajes, en particular lenguajes de programación. Para ser más precisos, esta teoría es una disciplina completamente matemática. Puede considerarse uno de los primeros en una dirección de la lingüística aplicada como la lingüística matemática.

Los primeros experimentos y primeros desarrollos en lingüística computacional se relacionan con la creación de sistemas de traducción automática, así como sistemas que modelan las habilidades lingüísticas humanas. A finales de los años 80, con la llegada y el desarrollo activo de Internet, se produjo un rápido crecimiento en el volumen de información textual disponible en formato electrónico. Esto ha llevado al hecho de que las tecnologías de recuperación de información han pasado a una etapa cualitativamente nueva de su desarrollo. Surgió la necesidad de procesar automáticamente textos en lenguaje natural y aparecieron tareas y tecnologías completamente nuevas. Los científicos se enfrentan al problema de procesar rápidamente un enorme flujo de datos no estructurados. Para encontrar una solución a este problema se ha dado gran importancia al desarrollo y aplicación de métodos estadísticos en el campo del procesamiento automático de textos. Fue con su ayuda que fue posible resolver problemas como dividir textos en grupos unidos por un tema común, resaltar ciertos fragmentos en el texto, etc. Además, el uso de métodos de estadística matemática y aprendizaje automático permitió resolver los problemas de reconocimiento de voz y creación de motores de búsqueda.

Los científicos no se detuvieron ante los resultados obtenidos: continuaron fijándose nuevas metas y objetivos, desarrollando nuevas técnicas y métodos de investigación. Todo esto llevó a que la lingüística comenzara a actuar como una ciencia aplicada, combinando varias otras ciencias, entre las que el papel principal correspondía a las matemáticas con su variedad de métodos cuantitativos y la capacidad de utilizarlos para una comprensión más profunda de los fenómenos. siendo estudiado. Así inició su formación y desarrollo la lingüística matemática. Por el momento, se trata de una ciencia bastante “joven” (existe desde hace unos cincuenta años), sin embargo, a pesar de su “pequeña edad”, representa un campo de conocimiento científico ya establecido con muchos logros exitosos.



¿Te gustó el artículo? ¡Comparte con tus amigos!