Tesauros. principios lingüísticos para la construcción de un tesauro Crear un tesauro sobre un tema determinado

Bajo Tesauro Se entiende como un componente complejo de un tipo de diccionario, en el que todos los significados del diccionario están interconectados por relaciones semánticas que reflejan las relaciones básicas de conceptos en el área temática de conocimiento descrita. En el pasado, el término tesauro designaba principalmente diccionarios que presentaban el vocabulario de una lengua con la máxima integridad con ejemplos de su uso en los textos.

El tesauro incluye lexemas, relacionado con las cuatro partes del discurso: adjetivo, sustantivo, verbo y adverbio. Las descripciones correspondientes a cada parte del discurso tienen una estructura diferente.

Las principales relaciones del tesauro son:

  • sinonimia– la conexión entre palabras de la misma parte del discurso, diferentes en sonido y ortografía, pero que tienen el mismo significado léxico o muy similar, por ejemplo: caballería - caballería, valiente - valiente;
  • antonimia- la conexión entre palabras de la misma parte del discurso, de diferente sonido, que tienen significados directamente opuestos: verdad - mentira, bien - mal;
  • hiponimia/hiperonimia. Hiperónimo– una palabra con un significado más amplio, que expresa un concepto general y genérico, el nombre de una clase (conjunto) de objetos (propiedades, atributos). hipónimo– una palabra con un significado más restringido que nombra un objeto (propiedad, atributo) como elemento de una clase (conjunto). Estas relaciones son transitivas y asimétricas. Un hipónimo hereda todas las propiedades de un hiperónimo. Son relaciones centrales para describir sustantivos;
  • meronimia/partinimia– Relación “PARTE-TODO”. Dentro de esta relación destacan las relaciones “ser un elemento” y “estar hecho de”. La relación se define sólo para sustantivos;
  • consecuencia (esta relación conecta los verbos);
  • razón (también definida para los verbos).

Tesauro de ejemplo:

Choza - casa campesina de madera [hiperónimo]: edificio residencial [merónimo]: asentamiento rural [sinónimo]: casa

Todas las relaciones crean una red jerárquica compleja de conceptos, y saber dónde se ubica un concepto en esta red es una parte importante del conocimiento sobre ese concepto. Las propiedades de las relaciones son diferentes al describir diferentes partes del discurso.

En diferentes sistemas, un diccionario de sinónimos puede realizar diferentes funciones:

  • una fuente de conocimiento especializado en un área temática amplia o limitada, una forma de describir y organizar la terminología del área temática;
  • herramienta de búsqueda en sistemas de recuperación de información;
  • una herramienta para la indexación manual de documentos en sistemas de recuperación de información (el llamado diccionario de control);
  • herramienta de indexación automática de texto.

Los tesauros como diccionarios conceptuales comenzaron con Roger (o Roget, un físico inglés), quien sistematizó el vocabulario del idioma inglés en grupos. Cada grupo está representado por el nombre de un concepto (“categorías”, de las cuales al principio había mil; se trata de palabras ordinarias ordenadas alfabéticamente, por ejemplo AFIRMACIÓN... AGENCIA...), seguido de sus sinónimos por partes de la oración (sustantivos, verbos, adjetivos, adverbios), antónimos y luego listas de palabras relacionadas (hay muchas de ellas, y algunas son referencias a nombres de otras categorías, en cuya entrada del diccionario aparece la lista de "parientes lejanos" puede continuar, por ejemplo, desde AGENCIA... ver NEGOCIOS). Desde la publicación del tesauro de Roger en 1852. y sus reimpresiones todavía están en curso en diferentes formas y para diferentes usuarios, el diccionario de sinónimos se actualiza constantemente con nuevo vocabulario y conexiones, pero el nombre del creador de la primera versión permanece detrás de todas las opciones. El valor de este tesauro reside en su naturalidad, en el hecho de que es una descripción de todo el vocabulario de la lengua, y no sólo de la terminología, y también en el hecho de que puede utilizarse en sistemas de recuperación de información como medio para aumentar El poder semántico del sistema.

Los tesauros siguen siendo hasta el día de hoy la forma más aceptada de describir el conocimiento de un área temática, adecuada a la percepción humana. Ejemplos de tesauros extranjeros modernos son WordNet y EuroWordNet.

El tesauro en idioma inglés WordNet apareció en 1990. y comenzó a participar activamente en diversas áreas del procesamiento automático de textos. WordNet cubre alrededor de 100 mil unidades diferentes (casi la mitad de ellas son frases), organizadas en 70.000 conceptos.

Actualmente se está desarrollando el tesauro multilingüe EuroWordNet. Inicialmente, para cuatro idiomas (danés, italiano, español e inglés americano), se desarrolla una red de significados de palabras, conectada por relaciones semánticas y que permite encontrar palabras de diferentes idiomas que tienen un significado similar. A diferencia del tesauro de Roger y la red WordNet, que fueron creados para describir el sistema léxico y conceptual del idioma inglés, EuroWordNet se creó principalmente para resolver problemas prácticos de procesamiento automático de grandes cantidades de texto. Las tareas más importantes que se supone deben resolverse con la ayuda de este tesauro son las siguientes:

  • suministro de recuperación de información multilingüe;
  • aumentar la integridad de la recuperación de información;
  • formular una solicitud en lenguaje natural;
  • indexación semántica de documentos, etc.

Además de estas relaciones, también se introducen relaciones temáticas que conectan conceptos de un área temática. También se propone introducir notas especiales sobre las relaciones entre conceptos, denotando la disyunción o conjunción de relaciones. Si un determinado concepto en la red tiene varias relaciones con el mismo nombre, entonces pueden ser disyuntivas, es decir, una de estas relaciones está realmente realizada, o conjuntivas, es decir, todas estas relaciones son válidas para el concepto.

Los institutos nacionales han creado más de cien tesauros específicos de la industria que cumplen con un determinado estándar estatal para diccionarios de este tipo. Se denominan - IRT - tesauros de recuperación de información. De todas las posibles relaciones semánticas entre conceptos, en ellos se fijan tres: sinónimo, genérico (que suele incluir la relación “PARTE-TODO”) y “todos los demás”, también llamados asociativos.

Los IPT estándar están destinados principalmente a la indexación manual de documentos, así como a formular y variar consultas durante las búsquedas. Existen tesauros no estándar que establecen la tarea de sistematización selectiva de la terminología en un campo específico del conocimiento; esto es especialmente cierto para nuevas áreas temáticas. Existe una tendencia creciente a enriquecer los tesauros con definiciones de términos, lo cual es importante para distinguir la ambigüedad de los términos, especialmente en el caso de disciplinas relacionadas y cuando se va más allá de los límites de áreas temáticas limitadas.

3.1. Concepto de diccionario de sinónimos

Tesauro (del griego θήσαϋροξ - tesoro, stock) o diccionario ideográfico (del griego idea - concepto, representación, idea y gráfico - escribir, describir) - en lingüística moderna: 1) un tipo especial de diccionario de vocabulario general o especial, que contiene relaciones semánticas entre unidades léxicas; 2) un diccionario para buscar una palabra basándose en su conexión semántica con otras palabras; 3) una determinada forma de organizar (disponer) palabras en el diccionario; 4) una forma de organizar la composición léxica, que permite “modelar el mundo” económicamente.

En el primer significado original: depósito, tesoro, el término tesauro fue utilizado por L.V. Shcherba en el artículo "Experiencia de lexicografía general" (tercera oposición: tesauro, un diccionario ordinario (explicativo o de traducción)). El científico escribe: “Cuando decimos tesauro, hoy en día nos referimos más a menudo a “Thesaurus linguae latinae”, una iniciativa de cinco academias alemanas que comenzó en 1900 y que hasta ahora, con omisiones, sólo llegaba a la letra M. Rasgo característico de este tipo de diccionario consiste en que contienen absolutamente todas las palabras que aparecen al menos una vez en un idioma determinado, y que bajo cada palabra se dan absolutamente todas las citas de textos disponibles en un idioma determinado. La base de la oposición anterior - tesauro - un diccionario ordinario (explicativo o de traducción) - es la oposición de "material lingüístico" y "sistema lingüístico", conceptos que intenté fundamentar en mi artículo "Sobre el triple aspecto de los fenómenos lingüísticos y sobre experimentos en lingüística”.

El segundo significado de este término está asociado con el conocido diccionario-tesauro "Tesauro de palabras y expresiones en inglés" de P.M. Roger (Tesauro de palabras y frases en inglés de Roget, 1852) y su continuación, el diccionario de O.V.

En esta interpretación, el término tesauro denota una determinada forma de organizar y disponer la composición léxica en el diccionario (ver la tercera acepción del término).

El cuarto significado del término tesauro está asociado con el reconocimiento universal de este método de organización de la composición léxica, que permite “modelar el mundo” económicamente. Desde este punto de vista, un diccionario de sinónimos es "una ordenación sistemática del vocabulario de cualquier campo científico o técnico, y en la forma más general: vocabulario literario general y, además, todo el vocabulario de un idioma determinado".

Según Yu.N. Karaulova, un tesauro de lenguaje general, que fija en la estructura y relaciones de sus títulos, secciones, zonas y áreas las amplias posibilidades de conexión no verbal de ideas, garantiza una explicación de los valores humanos.

UN. Baranov y D.O. Dobrovolsky en el prefacio "De los editores" a su "Diccionario-tesauro de modismos rusos modernos" le da al tesauro la siguiente definición: un tipo especial de diccionario que se diferencia de otros (en particular, explicativo, bilingüe, etc.) en la forma. de organizar el material lingüístico. En un tesauro, las unidades lingüísticas no se presentan en orden alfabético, como en un diccionario normal, sino que se agrupan según su significado.

LP Krysin llama al tesauro (diccionario ideográfico) un tipo especial de diccionario explicativo, un diccionario "por el contrario". “Si en un diccionario explicativo, escribe el científico, la “entrada” de una entrada del diccionario es una palabra, y el contenido de la entrada del diccionario es la interpretación del significado de esta palabra, entonces en un diccionario ideográfico la “entrada” es el significado, la idea (de ahí el nombre de este tipo de diccionario: ideográfico) y el contenido de una entrada del diccionario es una lista de palabras que expresan un significado determinado. Y si un diccionario explicativo es una herramienta indispensable para comprender un texto, entonces se puede utilizar un diccionario ideográfico para generar un texto: muy a menudo una persona quiere expresar un determinado pensamiento, pero no puede encontrar las palabras adecuadas para ello; un diccionario ideográfico facilita estas búsquedas. Hay dos tipos principales de tesauros:

tesauro lingüístico: un diccionario que contiene una lista de palabras en lenguaje natural seleccionadas como resultado de un análisis significativo de textos y sistematizadas de acuerdo con el sistema de clasificación aceptado;

Tesauro estadístico: un diccionario de recuperación de información que contiene una lista de palabras seleccionadas como resultado del análisis estadístico de textos sobre un tema específico y agrupadas en entradas del diccionario según la frecuencia de coexistencia de estas palabras en los mismos textos.

Los tesauros de recuperación de información (TRI) facilitan la búsqueda de información durante su procesamiento automático. IPT revela al máximo las relaciones semánticas entre unidades léxicas. Como se indica en GOST sobre IPT, "un tesauro de recuperación de información monolingüe es un diccionario controlado y cambiante de unidades léxicas, basado en el vocabulario de un lenguaje natural, que muestra relaciones semánticas entre unidades léxicas y destinado al procesamiento y recuperación de información".

La unidad básica de IPT son los términos descriptivos. La parte alfabética, léxico-semántica del IPT es un conjunto de artículos descriptores.

Los diccionarios descriptivos tienen como objetivo describir completamente el vocabulario de un determinado campo y registrar todos los usos del mismo; registran todos los casos relevantes disponibles. Un ejemplo típico de diccionario descriptivo es el "Diccionario explicativo de la gran lengua rusa viva" de V.I. Dahl (la primera edición en cuatro volúmenes se publicó en 1863-1866). El objetivo de su creador no era estandarizar el idioma, sino describir completamente toda la diversidad del habla gran rusa, incluidas sus formas dialectales vernáculas.

Cada entrada del diccionario de descriptores comienza con un descriptor, en el que los sinónimos de este descriptor, así como otras unidades léxicas asociadas con el descriptor principal mediante relaciones asociativas o específicas de género, se detallan a continuación dentro del artículo GOST.

Por tanto, los tesauros, especialmente en formato electrónico, son una de las herramientas eficaces para describir áreas temáticas individuales.

Rara vez se encuentra un diccionario de sinónimos en su forma pura. En los tesauros reales, la idea original es simplificada o extraña, pero potencialmente necesaria, se agrega información al usuario. Los más famosos hoy en día son el "Diccionario semántico ruso" de Yu.N. Karaulova, “Diccionario de nombres idénticos” N.Yu. Shvedova, “Diccionario temático de la lengua rusa” de L.G. Smekhova y otros.

Resumen. Término del tesauro L.V. Shcherba lo utilizó en relación con un diccionario que registraba, si era posible, todos los contextos en los que aparece una palabra determinada. Un rasgo característico de los tesauros es que enumeran todas las palabras que aparecen en un idioma determinado al menos una vez, y debajo de cada palabra se dan todas las citas de textos disponibles en ese idioma. El contenido de un diccionario de sinónimos es material lingüístico, y un diccionario normal es material lingüístico y un sistema lingüístico (términos de L.V. Shcherba).

Esta característica se complementa con conexiones cruzadas de varios tipos, a menudo paradigmáticas (sinónimas o antonímicas), que indican similitud u oposición de significados. Además, diversos tipos de asociaciones. conexiones (es decir, conexiones de sintagma).

Así, la tarea de un tesauro (diccionario ideográfico) es dar una idea de la organización semántica de una determinada sección transversal de material lingüístico, mostrando los principales campos semánticos, su estructura interna y conexiones externas. Un tesauro es una demostración clara de la naturaleza sistémica de una lengua, lo que permite ver muchos tipos de relaciones que conectan unidades lingüísticas individuales y grupos de unidades.

3.2. La historia de la representación del conocimiento conceptual sobre el mundo en forma de tesauro.

La necesidad de ordenar las palabras según la similitud, contigüidad y analogía de sus significados se ha sentido a lo largo de la historia observable del pensamiento humano.

Para rastrear los orígenes de la idea de representar el conocimiento conceptual sobre el mundo en forma de tesauro, nos ayudará recurrir a la historia de la compilación de tesauros (diccionarios ideográficos).

Así, en los albores de la civilización, cuando la gente podía expresar sus pensamientos por escrito sólo con la ayuda de ideogramas y símbolos, el único diccionario posible era probablemente aquel en el que las palabras estaban ordenadas en grupos temáticos. Para un lexicógrafo de esa época era simplemente difícil encontrar otro criterio para clasificar palabras que no fueran las relaciones que existen en la realidad misma.

Desafortunadamente, no tenemos evidencia de si los pueblos que utilizaron la escritura ideográfica realmente tenían tales diccionarios. Entre los intentos más antiguos de clasificación ideográfica que conocemos se encuentra el Attikai Lexeis del gramático griego, director de la Biblioteca de Alejandría, Aristófanes de Bizancio (fallecido en 180 a. C.).

En el siglo II. norte. mi. Aparece la obra principal “Onomasticon”, compilada sobre material de la lengua griega por el lexicógrafo y sofista Julius Pollux (nombre real Polydeuces), originario de la ciudad egipcia de Naucratis. Yu. Pollux escribió varias obras, pero sólo nos ha llegado "Onomasticon" (Pollux Yu. Onomasticon. M., 1956).


Onomasticon consta de 10 libros. Los libros son esencialmente tratados separados y contienen las palabras más importantes relacionadas con un tema en particular. Así, el primer libro habla de dioses y reyes; en el segundo, sobre las personas, su vida y su estructura fisiológica; en el tercero, sobre parentesco y relaciones civiles, etc. Las palabras incluidas en el diccionario van acompañadas de breves interpretaciones. En los tiempos modernos, el diccionario se publicó por primera vez en 1502 en Venecia.

Entre los siglos II y III. norte. mi. Se publicó el maravilloso diccionario sánscrito “Amarakosha” (Amarakosha. París, 1839). Su autor es el antiguo poeta, gramático y lexicógrafo indio Amara Sina, a quien llamaron "una de las nueve perlas que adornan el trono de Vikramaditya". Amarakosha traducido al ruso significa el tesoro de Amara. El diccionario contiene 10 mil palabras. Para recordar mejor la interpretación de los significados de las palabras, las entradas del diccionario se construyen en forma de poemas. Todo el material del diccionario está dividido en 3 libros. Cada libro incluye varios capítulos y el capítulo, a su vez, si es necesario, se divide en varias secciones. El primer libro está dedicado al cielo, los dioses y todo lo que está directamente relacionado con ellos. El segundo libro contiene palabras relacionadas con la tierra, los asentamientos, las plantas, los animales y los humanos (primero, el hombre es considerado como un ser vivo y luego como un ser social; toda la estructura de castas de la sociedad contemporánea del autor aparece ante nuestros ojos; sacerdotes , como depositarios de Dios, están en lo más alto , y debajo están los militares y los reyes, aún más abajo están los terratenientes, y en lo más bajo están los artesanos, malabaristas, sirvientes, etc.). El tercer libro es estrictamente lingüístico, como se desprende de los títulos de sus seis capítulos.

El diccionario llegó a ser conocido por los científicos europeos sólo a finales del siglo XVIII, cuando se publicó su primera parte en Roma en 1798. Fue publicado íntegramente con traducción al inglés en 1808 por el erudito inglés en sánscrito G.T. Colebrooke (NT Colebrooke). En 1839 apareció su traducción al francés, realizada por A.L. Delonchamps (A.L. Deslongchamps). Un mayor desarrollo de la idea de clasificación semántica del vocabulario está asociado con el problema del llamado idioma mundial.

Resumen. Ésta, en términos más generales, es la primera etapa en el desarrollo de la tradición de clasificación ideográfica del vocabulario. Esta etapa puede denominarse la prehistoria de los diccionarios ideográficos. Ahora es recomendable pasar a la clasificación moderna de diccionarios de sinónimos.

Es fácil ver cuán diferentes son las obras descritas de los diccionarios alfabéticos. Si en los diccionarios alfabéticos la presentación de las palabras está regulada por un instrumento tan convencional y altamente neutral como el alfabeto, entonces, al construir un diccionario ideográfico, la cosmovisión del propio lexicógrafo se vuelve decisiva.

3.3. Principios de clasificación de diccionarios-tesauros.

Como ya se mostró anteriormente, el problema de compilar una clasificación de tesauros no es nuevo y durante varias décadas ha atraído la atención de varios lingüistas nacionales y extranjeros (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinsky, etc. ). El resultado de la investigación en esta área fue la creación de clasificaciones alternativas de estas obras lexicográficas. Una de las clasificaciones más recientes se basa en los siguientes criterios: a) el tipo de conexiones semánticas entre unidades de vocabulario; 2) volumen del vocabulario; 3) generalización del vocabulario; 4) desarrollo del significado de los lexemas; 5) calificación gramatical y estilística de lexemas; 6) demostración del funcionamiento de lexemas; 7) número de idiomas representados; 8) el tipo de medios semióticos utilizados para semantizar los lexemas. Esta clasificación se basa en las clasificaciones creadas previamente por O.M. Karpova e I. Burkhanov (Burchanov I. Sobre la descripción ideográfica de aspectos estilística y pragmáticamente relevantes de los significados léxicos. Londres, 1996); La terminología utilizada en la clasificación se introduce en el aparato lexicográfico.


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Los criterios de clasificación fueron formulados por O.M. Kárpova. Al mismo tiempo, C. Marello distingue tres tipos de tesauros:

acumulativas, que son agrupaciones de palabras sin definir sus significados;

definitivo, interpretando cada unidad léxica de un grupo de palabras;

Tesauros bilingües y multilingües para viajeros (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Los tesauros acumulativos no solo brindan la oportunidad de encontrar una palabra más comprensible, precisa y estilísticamente correcta en una situación de estar en un determinado campo semántico, sino que también se convierten en la base para la formación de bancos de datos informáticos temáticos.

Los tesauros definitivos pueden incluir, junto con definiciones de significado, información etimológica y citas de obras literarias, lo que muestra la orientación enciclopédica directa de este tipo de tesauro. Además, los diccionarios de este tipo introducen al usuario en el sistema de conceptos necesario, explican la esencia, las similitudes y diferencias de los conceptos, sus conexiones paradigmáticas y sintagmáticas y, en ocasiones, proporcionan información sobre la pronunciación, la gramática, la formación de palabras y otras posibilidades de unidades léxicas que denotan estos conceptos.

Los tesauros bilingües y multilingües para viajeros se suelen crear según apartados temáticos: números, comida, transporte, hoteles, etc. con equivalentes de traducción de dos o más idiomas.

Para mostrar los tipos de diccionarios de sinónimos existentes de la forma más completa posible, se crea una clasificación de varios niveles. En primer lugar, según el tipo de conexiones semánticas entre unidades de vocabulario, los tesauros se dividen en tres grandes clases:

1. Tesauro asociativo (terminología de Yu.N. Karaulov

2. Tesauro análogo (terminología de V.V. Morkovkin

3. Tesauro ideográfico (ideológico) (terminología de L.V. Shcherba, V.V. Morkovkin. Los tres tipos de tesauros anteriores reflejan los siguientes tipos de conexiones semánticas de lexemas, respectivamente:

1. Conexiones semántico-sintácticas, a partir de las cuales
Las palabras se combinan en grupos o pares, predeterminados en su aparición y existencia por conexiones dobles: semánticas y sintácticas. Las conexiones semánticas entre palabras se establecen principalmente entre verbos y adjetivos que realizan una función predicativa en una oración y sustantivos, por ejemplo:

a) entre una acción y el órgano (instrumento) con el que se realiza: agarrar - una mano, ver - un ojo, nadar - un barco, etc.;

b) entre verbos de acción que requieren un sujeto y un sujeto: ladrar - un perro, relinchar - un caballo, etc.; c) entre verbos y una determinada adición gramatical, que los primeros requieren: cortar - leña, comer - comida, etc.

Por tanto, un tesauro asociativo es un diccionario-tesauro que organiza unidades léxicas en función de las conexiones semánticas y sintácticas que existen entre ellas y ordena grupos de acuerdo con la forma gráfica de las palabras centrales.

2. Conexiones léxico-semánticas. La agrupación con este tipo de conexión se produce según la característica principal de las palabras: el significado léxico. Al mismo tiempo, también se tienen en cuenta las conexiones léxico-gramaticales, mediante las cuales se realizan los significados individuales de las palabras.

Así, un tesauro analógico es un libro de referencia lexicográfico, cuya principal unidad de macroestructura es el grupo léxico-semántico; los grupos están sistematizados en orden alfabético de dominantes semánticos.

3. Conexiones temáticas o temáticas, donde la combinación de palabras en un grupo se produce debido a la similitud o similitud de funciones de los objetos y procesos denotados por las palabras: objetos
artículos para el hogar, partes del cuerpo, tipos de ropa, edificios, etc.

Por tanto, un tesauro ideográfico es una obra lexicográfica que representa unidades léxicas como parte de grupos temáticos (temáticos) y los organiza en una estructura jerárquica diseñada para representar el conocimiento conceptualizado sobre el mundo.

En el marco del mismo criterio, subdividimos aún más los tipos. Así, el tesauro ideográfico está representado por los siguientes 4 tipos:


En realidad un tesauro ideográfico.

Diccionario temático.

Diccionario sistemático.

Diccionario temático-sistemático


El tesauro ideográfico en sí es un tipo especial de diccionario ideográfico, cuya macroestructura está organizada de acuerdo con un mapa sinóptico a priori superpuesto a la composición léxica de la lengua. A diferencia de otros tipos de diccionarios ideográficos, el tesauro ideográfico en sí se caracteriza por una estructura de clasificación lógica y estrictamente ordenada creada sobre la base de una taxonomía científica, incluso si el vocabulario general está sujeto a una descripción lexicográfica (New Webster "Thesaurus. Landoll, 1991).

Un diccionario temático es un tipo especial de tesauro ideográfico, cuya principal unidad de macroestructura es un grupo temático, incluidos los lexemas, unidos en función de la clasificación de sus denotaciones (referentes) y considerados desde el punto de vista del cumplimiento de un tema especifico.

Un diccionario sistemático es un tipo especial de tesauro ideográfico cuya estructura de clasificación pretende representar las relaciones semánticas reales que existen entre las unidades léxicas de una lengua. En esencia, la estructura de clasificación representa la clasificación léxico-gramatical del vocabulario, es decir, su estructura paradigmática, descrita desde el punto de vista de la subordinación y la composición.

Un diccionario temático-sistemático es un tipo especial de diccionario ideográfico, que es una combinación de diccionario temático y sistemático.

Resumen. La clasificación considerada de tesauros lingüísticos incluye los siguientes tipos de diccionarios: tesauro analógico (terminología de V.V. Morkovkin); tesauro ideográfico (ideológico) (terminología de L.V. Shcherba y V.V. Morkovkin); asoc. tesauro (terminología de Yu.N. Karaulov). A continuación se presentará pop. Se revelan tesauros y sus características.

3.4. Tesauros populares y sus características.

El más famoso de los diccionarios-tesauro disponibles, al que este término debe su existencia, se creó a partir del material del idioma inglés; Este es un tesauro reimpreso constantemente por P.M. Tesauro de palabras y frases en inglés de Roger Roget (1852).

Es importante señalar que el autor del Tesauro de palabras y expresiones en inglés aprovechó al máximo la experiencia disponible en ese momento. “El principio que me guió a la hora de clasificar palabras”, escribe P.M. Roger, es el mismo que se utiliza para clasificar a los individuos en diversos campos de la historia natural. Por tanto, las secciones que he resaltado corresponden a las familias naturales de la botánica y la zoología, y las series de palabras están cimentadas por las mismas relaciones que unen las series naturales de plantas y animales."

PM. Roger creía que una clasificación convincente de las palabras según su significado es imposible hasta que los objetos de la realidad llamados estas palabras se estudien y organicen adecuadamente. Por ello, comienza su trabajo dividiendo el campo conceptual de la lengua inglesa en cuatro grandes clases: relaciones abstractas, espacio, materia y espíritu (mente, voluntad, sentimientos). Estas clases se dividen a su vez en varios géneros, que a su vez se dividen en un cierto número de especies.

Entre las deficiencias del diccionario ideográfico de P.M. Los científicos atribuyen a Roger lo siguiente: 1) una nomenclatura no del todo convincente de las principales clases conceptuales; 2) la lógica abstracta prevalece sobre las conexiones naturales de las palabras; 3) relativa incomodidad de uso (esta deficiencia se ha corregido en gran medida en ediciones posteriores).

En la lexicografía rusa moderna existen varios diccionarios que deberían clasificarse como diccionarios-tesauro (diccionarios ideográficos). Éste, por ejemplo, fue creado bajo el liderazgo de Yu.N. Karaulova “Diccionario semántico ruso”, “Diccionario semántico ruso” editado por N.Yu. Shvedova, “Diccionario temático de la lengua rusa” de L.G. Sayakhova, D.M. Khasanova y V.V. Morkovkina, “Diccionario de grupos léxico-semánticos de verbos rusos”, ed. E.V. Kuznetsova, “Diccionario ideográfico de la lengua rusa” O.S. Baranova, “La conceptosfera del mundo interior del hombre en lengua rusa” de V.I. Ubiyko, un diccionario educativo completo "Bases léxicas de la lengua rusa" bajo la dirección de V.V. Morkovkina.

Conozcamos algunos de ellos.

Diccionario-tesauro de modismos rusos modernos”, editado por A.N. Baranova y D.O. Dobrovolsky incluye cuatro partes principales: 1) sinopsis; 2) leyenda; 3) el cuerpo principal del Diccionario-Tesauro; 4) punteros. El propósito de la Sinopsis es dar una idea general de la estructura del cuerpo principal del Tesauro. Enumera todos los taxones con subtaxones y las referencias paradigmáticas correspondientes. El cuerpo principal del Diccionario Tesauro es una colección de entradas de diccionario, agrupadas en grupos (taxones) y subgrupos (subtaxones) de acuerdo con el significado de los modismos descritos en ellos. Cada artículo contiene un modismo y ejemplos de su uso en ruso moderno. Sinopsis, Leyenda e Índices son partes de servicio del Diccionario-tesauro mencionado anteriormente y brindan al usuario la oportunidad de trabajar de manera rápida y eficiente. La leyenda se utiliza en los casos en que no se necesitan ejemplos del uso de modismos, porque reproduce toda la información excepto los ejemplos. De hecho, este es el vocabulario del Diccionario. Las unidades del vocabulario son lemas. El lema en este caso representa el modismo en su forma original (diccionario) e incluye, si es posible, todas sus variantes significativas. Por ejemplo, el modismo quedarse quieto es parte del lema marcar el tiempo, quedarse quieto, patinar en el lugar.

El diccionario contiene dos sugerencias. Al final del libro hay un artículo "Concepto teórico del diccionario-tesauro de la ideomática rusa moderna", que analiza en detalle las características científicas de este proyecto.

"Diccionario semántico ruso", creado bajo la dirección de Yu.N. Karaulova incluye 10 mil palabras rusas, que se dividen en 1600 grupos conceptuales. La selección de grupos se basa en la repetición de elementos de interpretación de palabras en diccionarios explicativos: por ejemplo, “acción”, “propiedad”, “herramienta”, etc.

“Diccionario semántico ruso”, creado bajo la dirección del académico N.Yu. Shvedova, se basa en principios ligeramente diferentes, característicos de la elaboración de diccionarios ideográficos y explicativos. En primer lugar, todas las palabras del idioma se dividen aquí en cuatro clases: 1) unidades indicadoras (pronombres), 2) denominación (palabras nocionales), 3) conectores reales (conjunciones, preposiciones, verbos de enlace), 4) clasificación (palabras modales). , partículas, interjecciones). En segundo lugar, dentro de cada clase, todas las palabras se distribuyen según las partes del discurso. En tercer lugar, dentro de cada parte del discurso, los conjuntos y subconjuntos se identifican en función de la proximidad temática o, por el contrario, la oposición de los significados de las palabras.

DUDEN es un libro con imágenes (dibujos) en el lado izquierdo (según diferentes software) con partes numeradas (hasta la más pequeña). En el lado derecho, esta lista numerada va acompañada de títulos (incluso en dos idiomas). Por ejemplo, los equipos ferroviarios, las estaciones y las vías se dibujan en una página completa. A la derecha están los nombres de flechas, semáforos, muletas, etc.

“Diccionario temático de la lengua rusa” L.G. Sayakhova, D.M. Khasanova y V.V. Morkovkina contiene 25 mil unidades léxicas, agrupadas en tres grandes clases: "Hombre", "Sociedad", "Naturaleza", que se ramifican gradualmente en subclases más pequeñas. Por ejemplo, en la clase "Humano" hay subclases "Cuerpo y organismo humano", "Vida humana", "Apariencia, apariencia de una persona", "Apariencia emocional de una persona", etc. Cada una de las subclases, a su vez, es dividido en otros aún más específicos: “ Mundo emocional de una persona" - "Propiedades mentales de una persona" - "Temperamento", "Carácter" - "Rasgos generales de carácter", etc. El significado y uso de las palabras pertenecientes a cada clase se ilustran con las frases más comunes. Por ejemplo, la palabra "risa", que pertenece al subgrupo "expresión de sentimientos, emociones" de la clase "Hombre", va acompañada de una indicación de combinaciones con esta palabra como risa alegre, risa alegre, risa de niño, estallido. en risas, etc.

Resumen. Una de las herramientas eficaces para describir áreas temáticas individuales, especialmente en formato electrónico, son los tesauros.

El término tesauro se ha utilizado ampliamente en lingüística para designar un tipo especial de diccionario, que refleja en un grado u otro la "imagen del mundo", el "modelo lingüístico del mundo" (según Yu.N. Karaulov). El tesauro como “tesoro” ha crecido en su alcance semántico y ha recibido un nuevo significado. Comenzaron a llamarlo diccionario que no sólo absorbe todas las riquezas léxicas de una lengua, sino que las organiza de una determinada manera lógico-sistémica. En un diccionario de sinónimos, las palabras se combinan en grupos y esta unificación se produce sobre la base de la capacidad de una palabra en particular para transmitir un determinado concepto.

El diccionario de sinónimos siempre ha sido considerado en lingüística como una especie de sistema universal que garantiza el almacenamiento del conocimiento colectivo (para una sociedad en particular) sobre el mundo en forma verbal. A diferencia de otros diccionarios, en un diccionario de sinónimos este conocimiento se almacena en una forma estructurada que refleja nuestras ideas sobre la "estructura del mundo".

Los tesauros más famosos y populares en la actualidad son el Tesauro de Roger en inglés, Diccionario ideográfico de la lengua rusa de O.V. Baranova, Diccionario semántico ruso Yu.N. Karaulova, diccionario semántico ruso del académico N.Yu. Shvedova, DUDEN, Diccionario temático de la lengua rusa L.G. Sayakhova, D.M. Khasanova y V.V. Morkovkina.

N. V. Lukashevich

[correo electrónico protegido]

BV Dobrov

Centro de Investigación en Computación de la Universidad Estatal de Moscú. M.V.Lomonósov;

Centro ANO para la investigación de la información

[correo electrónico protegido]

Palabras clave: diccionario de sinónimos, recuperación de información, procesamiento automático de textos,

La gran mayoría de las tecnologías que trabajan con grandes colecciones de textos se basan en métodos estadísticos y probabilísticos. Esto se debe al hecho de que los recursos léxicos que podrían usarse para procesar colecciones de textos utilizando métodos lingüísticos deben tener un volumen de decenas de miles de entradas de diccionario y una serie de propiedades importantes que deben monitorearse específicamente al desarrollar el recurso. En el informe, examinamos los principios básicos del desarrollo de recursos léxicos para el procesamiento automático de grandes colecciones de textos utilizando el ejemplo del tesauro en idioma ruso para el procesamiento de textos por computadora RuTez, creado en 1997, que actualmente es una red jerárquica de más de 42 mil conceptos. . Describimos el estado actual del tesauro basándonos en una comparación de su composición léxica y el corpus de textos del Sistema de Información Universitario RUSIA (www.cir.ru): 400 mil documentos. Se analizan ejemplos del uso de sinónimos en varias aplicaciones automáticas de procesamiento de textos.

  1. Introducción

Actualmente, millones de documentos están disponibles en formato electrónico, se han creado miles de sistemas de información y bibliotecas electrónicas. Al mismo tiempo, los sistemas de información que utilizan recursos léxicos y terminológicos para la búsqueda se calculan en fracciones de porcentaje. Esto se debe a los graves problemas que plantea la creación de recursos lingüísticos para el procesamiento automático de colecciones modernas de documentos electrónicos.

En primer lugar, estas colecciones suelen ser muy grandes; el recurso debe incluir descripciones de miles de palabras y términos. En segundo lugar, las colecciones son un conjunto de documentos de diferentes estructuras con diversas estructuras sintácticas, lo que dificulta el procesamiento automático de oraciones de texto. Además, la información importante suele distribuirse entre diferentes frases del texto.

Todo esto plantea gravemente la cuestión de qué debería ser un recurso lingüístico que, por un lado, sería útil para el procesamiento y la búsqueda automáticos en colecciones electrónicas y, por otro, podría crearse en un tiempo previsible y mantenerse con relativamente poco dinero. esfuerzo.

En este artículo veremos los principios básicos del desarrollo de recursos léxicos para el procesamiento automático de grandes colecciones de texto. Estos principios se examinarán utilizando el ejemplo del tesauro en idioma ruso creado por el Centro de Investigación de la Información de ANO desde 1997 para el procesamiento de textos por computadora RuTez. RuTez es actualmente una red jerárquica de más de 42 mil conceptos, que incluye más de 95 mil palabras, expresiones y términos rusos. Describiremos el estado actual del tesauro basándonos en una comparación de su composición léxica y el vocabulario del corpus textual del Sistema de Información Universitario RUSIA, apoyado por el Centro de Investigación en Computación de la Universidad Estatal de Moscú. M.V. Lomonosov y ANO TSII. UIS RUSIA (www.cir.ru) contiene 400 mil documentos sobre temas sociopolíticos (alrededor de 3 GB de textos, 200 millones de palabras). El artículo también analizará ejemplos del uso de sinónimos en varias aplicaciones de procesamiento automático de textos.

  1. Principios para desarrollar un recurso lingüístico

para tareas de recuperación de información

Para garantizar un procesamiento automático eficaz de documentos electrónicos (indexación automática, categorización, comparación de documentos), es necesario crear una base para su comparación: una lista de lo que se menciona en el documento. Para que un índice de este tipo sea más eficaz que un índice palabra por palabra, es necesario superar la diversidad léxica del texto: sinónimos, polisemia, partes del discurso, estilística y reducirlo a un invariante, un concepto que se convierte en la base para comparar diferentes textos. Por tanto, la base de un recurso lingüístico deben ser los conceptos y las expresiones lingüísticas: palabras, términos, deben convertirse únicamente en entradas de texto que inicializan el concepto correspondiente.

Para poder comparar conceptos diferentes pero similares es necesario establecer relaciones entre ellos. Tradicionalmente, los recursos lingüísticos para el procesamiento automático de textos en lenguaje natural utilizaban ciertos conjuntos de relaciones semánticas, como parte, fuente, razón etcétera. Sin embargo, cuando trabajamos con colecciones de textos grandes y heterogéneas, debemos entender que con el estado actual de la tecnología de procesamiento de textos, un sistema informático no será capaz de detectar de manera confiable estas relaciones en el texto para poder realizar los procedimientos que tenemos asociados. estas u otras relaciones. Por tanto, las relaciones entre conceptos deben, en primer lugar, describir ciertas propiedades invariantes que no dependen o dependen débilmente del tema de un texto particular en el que se menciona el concepto.

La función principal de esta relación es responder a la siguiente pregunta:

si se sabe que el texto está dedicado a discutir C1, y C2 está relacionado

actitudRcon C1, ¿podemos decir que el tema del texto?(*)

relacionado con C2?

A la hora de crear un recurso lingüístico para procesamiento automático, es importante determinar qué propiedades de los conceptos C1 y C2 nos permiten establecer relaciones (*) correctas entre ellos.

Así, por ejemplo, no importa sobre qué textos se escriban abedules, siempre podemos decir que estas letras tratan sobre árboles. Pero a pesar de la popularidad y la frecuente discusión sobre la relación. árbol como parte bosques, muy pocos textos sobre árboles son textos sobre bosques. Tenga en cuenta que el problema no está relacionado con el nombre de la relación. Entonces el claro es parte del bosque, y los textos sobre claros son textos sobre bosques.

La invariancia de las relaciones en relación con el espectro de posibles temas de los textos del área temática está determinada en gran medida por propiedades más profundas que las reflejadas por los nombres de las relaciones, a saber, sus propiedades cuantificadoras y existenciales. Por tanto, las propiedades cuantificadoras de las relaciones describen si todos los ejemplos de un concepto tienen una relación determinada, si esta relación persiste durante todo el ciclo de vida del ejemplo. Problema con el uso de la relación árbolbosque Precisamente se debe a que no todos los árboles específicos se encuentran en el bosque, pero el claro no puede estar fuera del bosque.

Un ejemplo de una descripción de las propiedades existenciales de las relaciones: ¿se sigue de la existencia del concepto C1 la existencia del concepto C2 (por ejemplo, la existencia del concepto COCHERA requiere la existencia de un concepto AUTOMÓVIL) o la existencia de los ejemplos C1 depende de la existencia de los ejemplos C2 (tan específicos INUNDACIÓN inseparable de un ejemplo específico RÍOS). La discusión en el texto del concepto dependiente C2, especialmente dependiente del ejemplo, sugiere que el texto también está relacionado con el concepto principal C1.

Consideremos la relación entre conceptos. BOSQUE y ÁRBOL en detalles. De hecho, parte del concepto BOSQUE es ÁRBOL EN EL BOSQUE, mientras que hay ÁRBOL INDEPENDIENTE,ÁRBOL EN EL JARDÍN etc. En cualquier caso, es necesario romper la relación de subordinación del concepto. ÁRBOL concepto BOSQUE.

Por otro lado, BOSQUE es una especie COLECCIONES DE ÁRBOLES, no existe sin árboles (así como JARDÍN). Así, el concepto BOSQUE debe estar en relación con el concepto ÁRBOL. Comenzando con un análisis de las necesidades de problemas de aplicación específicos, llegamos a la conclusión de que es importante describir las propiedades profundas de las relaciones que antes se reflejaban muy poco en los recursos lingüísticos, pero que son de suma importancia para las tareas de procesamiento automático. de grandes colecciones de textos y, posiblemente, para muchas otras tareas.

Ahora modelamos la descripción del cuantificador y las propiedades existenciales de los conceptos con un conjunto de relaciones de tesauro tradicionales ARRIBA-ABAJO (66% de todas las relaciones), PARTE-TODO (30% de las relaciones), ASOCIACIÓN (4%), en combinación con un cierto conjunto de modificadores adicionales (el 20% de las relaciones están marcadas). Nótese que las relaciones PARTE-TODO y ASOCIACIÓN se interpretan teniendo en cuenta la regla (*). En total, se describen alrededor de 160 mil conexiones directas entre conceptos, lo que, teniendo en cuenta la transitividad de las relaciones, da un número total de conexiones diferentes de más de 1350 mil conexiones, es decir, en promedio, cada concepto está conectado con otros 30. .

  1. Tesauro RuTez: estructura general

El tesauro RuTez es una red jerárquica de conceptos correspondientes a los significados de palabras individuales, expresiones de texto o series sinónimas. Así, los elementos principales de un tesauro son los conceptos, las expresiones lingüísticas, las relaciones entre expresiones lingüísticas y conceptos, y las relaciones entre conceptos.

El tesauro combina en un solo sistema tanto el conocimiento lingüístico (descripciones de lexemas, modismos y sus conexiones, tradicionalmente relacionados con el conocimiento léxico y semántico) como el conocimiento sobre términos y relaciones dentro de las áreas temáticas, tradicionalmente relacionados con el campo de actividad de los terminólogos, descrito en tesauros de recuperación de información. Como subáreas temáticas, el tesauro describe áreas temáticas como economía, legislación, finanzas y relaciones internacionales, que son tan importantes para la vida humana cotidiana que tienen una representación léxica significativa en los diccionarios explicativos tradicionales. En ellos, lo léxico y lo terminológico están fuertemente interconectados e interactúan fuertemente entre sí.

Las expresiones lingüísticas son lexemas individuales (sustantivos, adjetivos y verbos), grupos nominales y verbales. Por lo tanto, el tesauro no incluye actualmente adverbios ni palabras funcionales como expresiones lingüísticas. Los grupos de varias palabras pueden incluir términos, modismos y funciones léxicas ( influencia mi).

Para cada expresión lingüística se describe lo siguiente:

Su polisemia es una conexión con uno o más conceptos, lo que significa que una determinada expresión lingüística puede servir como expresión textual de este concepto. Atribuir una expresión lingüística a conceptos diferentes es también una indicación implícita de su polisemia;

Su composición morfológica (parte del discurso, número, caso);

Funciones de escritura (por ejemplo, con mayúscula), etc.

Cada concepto del tesauro tiene un nombre único, una lista de expresiones lingüísticas con las que se puede expresar ese concepto en el texto y una lista de relaciones con otros conceptos.

Generalmente se elige una de sus expresiones de texto inequívocas como nombre único para un concepto. Pero el nombre de un concepto también puede estar formado por un par de sus expresiones textuales ambiguas: sinónimos, escritos separados por comas y que lo definen sin ambigüedades (por ejemplo, el concepto GRUESO). Una expresión textual ambigua del nombre de un concepto también se puede proporcionar con una marca o un fragmento abreviado de interpretación, por ejemplo, concepto. MULTITUD (GRUPO DE PERSONAS).

  1. Ejemplo de entrada de diccionario

Elegimos como ejemplo la entrada del diccionario para el concepto BOSQUE, correspondiente a uno de los significados de la palabra bosque. Esta entrada del diccionario es interesante porque incluye diferentes tipos de conocimientos, tradicionalmente clasificados en conocimientos léxicos (semánticos) y conocimientos enciclopédicos (conocimientos sobre el área temática, terminología).

Sinónimos para el concepto BOSQUE(13 en total):

bosque(METRO), zona forestal, entorno forestal,

bosque, barrio del bosque, paisaje forestal,

zona forestal, zona boscosa, zona boscosa,

área de recursos forestales, pequeño bosque,

variedad de bosques.

A continuación conceptos con sinónimos:

SELVA(selva);

PARQUE FORESTAL(jardín de la ciudad, zona verde,

zona verde, parque forestal,

gestión forestal, parque forestal

cinturón, parque(METRO), zona del parque);

SILVICULTURA;

BOSQUE DE HOJAS(bosque de hojas blandas, de hojas duras

bosque);

ARBOLEDA(robledal);

BOSQUE DE CONÍFERAS (bosque de coníferas, bosque de coníferas oscuro)

Conceptos-partes con sinónimos:

ROMPEVIENTOS(ganancia inesperada, ganancia inesperada);

CORTE(área de corte);

CULTURA FORESTAL(especies forestales, silvicultura

cultura);

TIERRAS FORESTALES (tierras forestales; tierras cubiertas

bosque; tierras forestales, territorio forestal;

terreno boscoso, boscoso

área);

PLANTACIONES FORESTALES(plantaciones forestales, plantaciones forestales,

repoblación forestal);

BORDE DEL BOSQUE(borde, borde);

SUBFLORES(sotobosque);

PROSEKA;

MADERA SECA(cosa vieja).

Aquí los símbolos (M) reflejan una nota sobre la ambigüedad de la entrada de texto.

Concepto BOSQUE También tiene otras relaciones, las llamadas relaciones de dependencia (en la versión moderna se llaman ASC 2 - asociación asimétrica): INCENDIO FORESTAL(incendio forestal, incendio en el bosque; USO FORESTAL (uso forestal, uso de áreas del fondo forestal); SILVICULTURA; CIENCIA FORESTAL (ciencia forestal). Como ya se señaló en el párrafo 2, el concepto de BOSQUE depende del concepto de ÁRBOL, que en el tesauro se denota mediante la relación ASC 1.

Concepto total BOSQUE está directamente relacionado con otros 28 conceptos, teniendo en cuenta la transitividad de las relaciones, con 235 conceptos (en total más de 650 entradas de texto).

  1. Evaluación del estado actual.

Tesauro de lengua rusa RuTez

5.1. Composición léxica

Actualmente, la red de tesauros incluye más de 95 mil expresiones lingüísticas, de las cuales 61 mil son monopalabras.

Este volumen de trabajo nos obligó a decidir qué palabras y expresiones lingüísticas debían incluirse en las descripciones del Tesauro. El deseo natural era ver cómo estaban representadas en el tesauro las palabras más frecuentes en el idioma ruso. Para ello se utilizó la colección de textos del Sistema de Información Universitario de RUSIA (400 mil documentos). La colección contiene documentos oficiales de diversos órganos de la Federación de Rusia (55 mil documentos desde 1992), así como material de prensa desde 1999 (periódicos Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, revista Expert y otros), materiales de investigación científica. revistas ("Boletín de la Universidad de Moscú", "Revista sociológica"). Se hizo una comparación entre la lista de lemas incluidos en el Tesauro y la lista de los 100.000 lemas más frecuentes en la colección de textos (frecuencia superior a 25).

La marca de polexema de la lista mostró que entre estos cien mil lemas, 35 mil están descritos en RuTez, solo unos 7 mil lexemas merecen inclusión en el Tesauro, el resto son variantes lemáticas de varios nombres propios. Por tanto, la reposición ha dejado de ser una tarea prioritaria y se realiza de forma paulatina, empezando por las palabras más frecuentes. Se supone que tan pronto como esta lista se agote en su mayor parte, se realizará otra comparación con la matriz de texto del sistema de información, se seleccionarán nuevos lexemas con una frecuencia superior a 25 y, a continuación, se reducirá el umbral de visualización. . La presencia de una gran cantidad de ejemplos de texto en la colección de texto le permite responder rápidamente a las "innovaciones léxicas" (por ejemplo, instalación,éxito de taquilla, hermoso mundo, suspenso) e incluirlos en los lugares apropiados del sistema jerárquico del Tesauro.

El trabajo constante con una colección de textos actual brinda oportunidades únicas para verificar el significado y la calidad de las descripciones léxicas propuestas en los diccionarios. Por ejemplo, una frecuencia inusualmente alta de uso de la palabra madre ver(más de 400 veces). La verificación de la matriz mostró que la palabra se usa a menudo como sinónimo de la palabra. Moscú, mientras que los diccionarios explicativos suelen marcar esta palabra como obsoleta. Otro ejemplo de una palabra de uso frecuente (más de 300 veces) marcada como obsoleta en los diccionarios es la palabra feliz.

5.2 Descripción del significado de las palabras

La comparación con la colección de texto muestra que muchas de las palabras de frecuencia en la matriz están bien representadas en el Tesauro en al menos uno de sus significados (generalmente básicos). Nuestra principal tarea en la actualidad es descubrir en qué medida el Tesauro representa la variedad de significados de las palabras polisemánticas en el idioma ruso.

Como es sabido, a menudo diferentes fuentes de diccionarios dan un conjunto diferente de significados para palabras polisémicas, resaltan matices de significado y el mismo tipo de polisemia se puede describir de manera diferente para diferentes palabras, incluso en el mismo diccionario. Por lo tanto, la tarea de describir de manera consistente y representativa los significados de los lexemas es una tarea importante para los creadores de cualquier recurso de vocabulario.

Sin embargo, si el recurso está destinado al procesamiento automático, entonces la tarea de una descripción equilibrada de los valores se vuelve mucho más importante. Una inflación excesiva del valor puede dar como resultado la incapacidad del sistema informático para seleccionar el valor deseado, lo que a su vez da como resultado una reducción significativa en el rendimiento del sistema automático de procesamiento de textos. Entonces, una de las desventajas del recurso WordNet como recurso para el procesamiento automático de textos es el número excesivo de significados descritos para algunas palabras (en WordNet 1.6: 53 significados para correr, 47 para jugar etcétera.). Estos significados son difíciles de distinguir incluso para los humanos cuando anotan textos semánticamente. Está claro que el sistema informático tampoco puede hacer frente a la elección del valor adecuado. Por ello, diferentes autores proponen diferentes formas de combinar valores para mejorar la calidad del procesamiento.

Al mismo tiempo, opera el factor opuesto: si los significados realmente difieren en su conjunto de conexiones de diccionario (en nuestro caso, conexiones de diccionario de sinónimos) - no se pueden unir en una unidad (un concepto) - esto también conducirá a un deterioro en la calidad del procesamiento automático.

Tomemos un ejemplo de las palabras. escuela Y iglesia, cada uno de los cuales puede considerarse como una organización y como un edificio.

Cada organización escolar tiene un edificio (la mayoría de las veces uno). Todas las partes del edificio escolar (aulas, pizarrones) están relacionadas con escuela cómo una organización. No existen tipos específicos de edificios escolares. Por lo tanto la descripción escuelas Como edificios, no es apropiado separarlos en un concepto separado. Sin embargo, la descripción de tal concepto colectivo ESCUELA como organización y como edificio debe tener una relación especialmente diseñada con el concepto EDIFICIO. Al describir tales relaciones en el Tesauro, se utiliza una marca en la relación: el modificador "A" ("aspecto"; durante el análisis automático, se requiere "confirmación" por otros conceptos para tener en cuenta esta relación).

ESCUELA

MÁS ALTO INSTITUCIÓN EDUCATIVA

ARRIBA A EDIFICIO PUBLICO

Significados correspondientes de la palabra. iglesia no tan cerca. Iglesias Como organización, puede tener una gran cantidad de edificios de iglesias en diferentes lugares, y también tiene muchos otros edificios. Construcción de iglesias está estrechamente relacionado con la religión y la confesión, pero puede cambiar de afiliación organizaciones de la iglesia. organización de la iglesia Y construcción de iglesias tienen diferentes subespecies. Es por eso IGLESIA (ORGANIZACIÓN) Y IGLESIA (EDIFICIO) se presentan en RuTez como conceptos diferentes.

La importante divergencia en las conexiones de los tesauros se correlaciona de manera interesante con la capacidad de las denotaciones correspondientes a los significados de existir separadamente unas de otras. Por lo tanto, un edificio de iglesia no deja de existir e incluso puede llamarse iglesia incluso cuando cambia su uso, a diferencia de un edificio de escuela.

El proceso de verificación de la representación de los valores en el Tesauro está en constante marcha, comenzando por los lemas más frecuentes. Para cada lexema de frecuencia se comprueba cómo se describen sus significados en los diccionarios explicativos, qué significados se utilizan en la colección y cómo se presentan en el Tesauro. Como resultado, se ha formado una lista de 10.000 lexemas, cuya ambigüedad aún requiere un análisis o una descripción adicional. La lista se obtuvo en base a 30 mil de los lemas más frecuentes.

Cabe señalar que en el Tesauro el problema de la polisemia se elimina parcialmente debido al hecho de que se pueden describir conexiones entre diferentes significados de una palabra y, por lo tanto, se puede seleccionar de forma predeterminada el concepto más alto en la jerarquía. Definitivamente fue discutido en el texto. Por ejemplo, la palabra foto tiene tres significados: fotografía como campo de actividad, fotografía como imagen fotográfica, fotografía como estudio fotográfico:

FOTOGRAFÍA(fotografiando, foto de negocios, ..., foto )

PARTE IMAGEN FOTOGRÁFICA

(foto, fotografía, foto )

PARTE ESTUDIO FOTOGRÁFICO (foto ).

Por lo tanto, si no fue posible averiguar qué significado se usó la palabra foto, el valor predeterminado es asumir que se tomó una fotografía (de un proceso, resultado o ubicación), lo cual es suficiente para muchas aplicaciones de procesamiento automático de texto.

  1. Aplicación del tesauro RuTez

para procesamiento automático de textos

Desde 1995, la terminología sociopolítica RuTez (tesauro sociopolítico) se ha utilizado activa y exitosamente para diversas aplicaciones del procesamiento automático de textos, como la indexación conceptual automática, la rubricación automática utilizando varios rubricadores, la anotación automática de textos, incluido el idioma inglés. unos. El tesauro sociopolítico (27 mil conceptos, 62 mil entradas de texto) es una herramienta de búsqueda básica en el sistema de búsqueda UIS RUSIA (www.cir.ru).

Todo el vocabulario del tesauro RuTez se utiliza en los procedimientos de categorización automática de textos mediante rubricadores jerárquicos complejos. En la tecnología existente, cada categoría se describe como una expresión booleana de términos, tras lo cual la fórmula original se expande a lo largo de la jerarquía del tesauro. La expresión booleana resultante puede incluir ya cientos y miles de conjunciones y disyunciones.

Pongamos como ejemplo un fragmento de una descripción utilizando conceptos de tesauro (y expresiones lingüísticas después de ampliar la fórmula) de la rúbrica “Imagen de una mujer” de la rúbrica SOFIST 2, utilizada por VTsIOM para clasificar los cuestionarios de encuestas de opinión pública:

(MUJER[N]

|| CHICA[N]

|| PARIENTE [L] (abuela, nieta, prima,

hija, cuñada, madre, madrastra, nuera, hijastra, ...))

(RASGO DE CARÁCTER[L] (ahorrador, desalmado, olvidadizo,

frívolo, burlón, intolerante, sociable, ...)

|| IMAGEN [E] (presentación, apariencia, aspecto,

apariencia, aspecto, imagen, mirada)

|| AGRADABLE [L] (..., interesante, hermosa, linda,

atractivo, lindo, atractivo, ...)

|| DESAGRADABLE[L] (antipático, grosero, desagradable, ...)

|| APRECIAR[L] (reverenciar, adorar, adorar,

adorar, adorar,...)

|| PREFERIR[N]

El símbolo "E" denota expansión completa a lo largo de la jerarquía del tesauro, el símbolo "L" - según las relaciones entre especies ("ABAJO"), el símbolo "N" - no se expande.

Se están llevando a cabo investigaciones para desarrollar una tecnología combinada para la categorización automática de textos, combinando conocimientos de tesauros y procedimientos de aprendizaje automático.

Se están explorando las cuestiones del uso de un tesauro para ampliar una consulta formulada en lenguaje natural (actualmente, solo se utiliza la parte sociopolítica del tesauro para ampliar una consulta terminológica en el sistema de recuperación de información del UIS RUSIA) y la búsqueda de respuestas a preguntas en grandes colecciones de texto.

7. Conclusión

El artículo presenta los principios básicos del desarrollo de recursos lingüísticos para el procesamiento automático de grandes colecciones de textos. El recurso lingüístico creado, el Tesauro de la lengua rusa RuTez, está diseñado para su uso en aplicaciones de procesamiento automático de textos como indexación conceptual de documentos, rubricación automática según rubricadores jerárquicos complejos y expansión automática de consultas en lenguaje natural.

Este trabajo cuenta con el apoyo parcial de la subvención número 00-04-00272a de la Fundación Humanitaria Rusa.

Literatura

  1. Lukashevich N.V., Saliy A.D., Representación del conocimiento en el sistema de procesamiento automático de textos //NTI, Ser.2. 1997. No. 3. P. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Sistema de información RUSIA //NTI, Ser.2. 1995. No. 3. P. 18-20.
  3. Winston M., Chaffin R., Herman D., Una taxonomía de relaciones parte-todo // Ciencia cognitiva. 1987. No. 11. pág. 417‑444.
  4. Priss U.E., La formalización de WordNet mediante métodos de análisis de conceptos relacionales // WordNet. Una base de datos léxica electrónica/Ed. por C. Fellbaum. Cambridge, Massachusetts, Londres, Inglaterra: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., Una ontología formal de propiedades // Actas del taller ECAI-00 sobre aplicaciones de ontologías y métodos de resolución de problemas. Berlín: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Algunos principios ontológicos para diseñar recursos léxicos de nivel superior // First Int. Conf. sobre Evaluación y Recursos Lingüísticos. 1998.

  1. Lukashevich N.V., Dobrov B.V., Modificadores de relaciones conceptuales en tesauros para indexación automática // NTI, Ser.2. 2000, núm. 4, págs. 21-28.
  2. Gran diccionario explicativo de la lengua rusa / Ed. S.A. Kuznetsova. San Petersburgo: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Diccionario explicativo de la lengua rusa - 3ª edición. M.: Az, 1996.
  4. Apresyan Yu.D., Obras seleccionadas, volumen I. Semántica léxica: 2ª ed. M.: Escuela “Lenguas de la cultura rusa”, Ed. Firma "Literatura Oriental" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross y K. Miller, Cinco artículos sobre WordNet, CSL Report 43. Laboratorio de Ciencias Cognitivas, Universidad de Princeton, 1990.
  6. Chugur, J. Gonzalo y F. Verdjeo, Distinciones de sentido en aplicaciones de PNL // Actas de “OntoLex-2000”: Ontologías y bases de conocimiento léxico. Sofía: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Resumen temático estructural basado en tesauros en sistemas de información multilingües // Revisión de traducción automática. 2000. No. 11. pág. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tesauro de lengua rusa para el procesamiento del lenguaje natural.

de grandes colecciones de textos

Natalia V. Loukachevitch, Boris V. Dobrov

Palabras clave: diccionario de sinónimos, procesamiento del lenguaje natural, recuperación de información

En nuestra presentación consideramos los principios fundamentales del desarrollo de recursos léxicos para el procesamiento automático de grandes colecciones de textos y describimos la estructura del Tesauro de la lengua rusa, que se desarrolla desde 1997 especialmente como una herramienta para el procesamiento automático de textos. Ahora el Tesauro es una red jerárquica de 42 mil conceptos. Describimos la etapa actual del desarrollo del Tesauro en comparación con los 100.000 lemas más frecuentes de la colección de textos del Sistema de Información Universitario de RUSIA (www.cir.ru), incluidos 400.000 documentos. También consideramos el uso del Tesauro en diferentes aplicaciones de procesamiento automático de textos.

La sección es muy fácil de usar. Simplemente ingrese la palabra deseada en el campo provisto y le daremos una lista de sus significados. Me gustaría señalar que nuestro sitio proporciona datos de diversas fuentes: diccionarios enciclopédicos, explicativos y de formación de palabras. Aquí también puedes ver ejemplos del uso de la palabra que ingresaste.

El significado de la palabra diccionario de sinónimos.

diccionario de sinónimos en el diccionario de crucigramas

Diccionario explicativo de la lengua rusa. S.I.Ozhegov, N.Yu.Shvedova.

Tesauro

[te], -a, m.

    Un diccionario de una lengua que pretende reflejar plenamente todo su vocabulario.

    Un diccionario o conjunto de datos que cubre completamente términos y conceptos de algún tipo. campo especial.

    adj. diccionario de sinónimos, -aya, -oe.

Nuevo diccionario explicativo de la lengua rusa, T. F. Efremova.

Tesauro

    Diccionario de algún tipo lengua, representando su vocabulario en su totalidad.

    Un conjunto completo y sistematizado de datos sobre algo. un campo de conocimiento que permite a una persona o a una computadora navegar en él (en informática).

Diccionario enciclopédico, 1998

Tesauro

TESAURO (del griego thesauros - tesoro)

    un diccionario en el que las palabras de una lengua se presentan de la forma más completa posible con ejemplos de su uso en el texto (es totalmente factible sólo para lenguas muertas).

    Diccionario en el que se ordenan temáticamente palabras relacionadas con cualquier campo del conocimiento y se muestran las relaciones semánticas (género-especie, sinónimos, etc.) entre unidades léxicas. En los tesauros de recuperación de información, las unidades léxicas de texto se reemplazan por descriptores.

Tesauro

(del griego thesaurós ≈ tesoro, tesoro), conjunto de unidades semánticas de una lengua con un sistema de relaciones semánticas (ver Semántica) especificadas en ellas. T. en realidad determina la semántica de un idioma (lenguaje nacional, el idioma de una ciencia específica o un lenguaje formalizado para un sistema de control automatizado). Inicialmente, T. fue considerado como un diccionario monolingüe, en el que las relaciones semánticas se determinan agrupando palabras en títulos temáticos. Por ejemplo, English T. (autor P. M. Roget), publicado en 1962 (primera edición en 1852), contiene 1.040 títulos, en los que se distribuyen unas 240.000 palabras. El índice (clave) de este T. contiene una lista alfabética de palabras que indican los títulos y subtítulos a los que pertenece cada palabra. Existen textos lingüísticos generales tradicionales (descripciones de los sistemas semánticos de idiomas individuales) para inglés, francés y español. Los diccionarios monolingües que definen expresiones de los parámetros semánticos básicos de cada palabra están muy cerca de T., por ejemplo, el diccionario de idioma ruso de S. I. Ozhegov.

En los años 70 siglo 20 Los sistemas de recuperación de información se han generalizado. En estos sistemas, se identifican unidades léxicas especiales: descriptores, que se pueden utilizar para buscar automáticamente información documental. Cada palabra de tal T. está asociada con un descriptor sinónimo (ver Sinonimia), y las relaciones semánticas se indican explícitamente para los descriptores: género ≈ especie, parte ≈ ​​todo, objetivo ≈ medios, etc. Por lo general, se acostumbra distinguir entre relaciones asociativas y específicas de género (jerárquicas). Así, el "Tesauro de recuperación de información en informática", publicado en la URSS en 1973, para cada descriptor proporciona una entrada de diccionario, donde se indican por separado palabras clave sinónimas, descriptores genéricos, específicos y asociativos. Para una mejor orientación en las conexiones asociativas entre descriptores, se adjuntan a esta T mapas semánticos de clases temáticas. Durante la recuperación automatizada de información, se buscan documentos cuyo índice contenga no solo descriptores de consulta, sino también aquellos descriptores que tienen ciertas relaciones semánticas con ellos. A veces es útil resaltar en un vocabulario relaciones asociativas específicas que son específicas de un área temática determinada: enfermedad ≈ patógeno, dispositivo ≈ propósito (o valor medido), etc. La posición de una unidad léxica (palabra, frase) en un vocabulario caracteriza su significado en el idioma; El conocimiento del sistema de relaciones semánticas en el que entra una palabra determinada (incluidas las categorías en las que está incluida) nos permite juzgar el significado de esta palabra.

En un sentido amplio, T. se interpreta como una descripción del sistema de conocimiento sobre la realidad que posee un portador de información individual o un grupo de portadores. Este medio puede realizar las funciones de un receptor de información adicional, por lo que su T también cambia. La T original determina las capacidades del receptor al recibir información semántica. En psicología y en el estudio de sistemas con inteligencia artificial se consideran las propiedades de los individuos que se manifiestan en la percepción y comprensión de la información. En sociología y teoría de la comunicación, se estudian las propiedades de la comunicación de individuos y grupos, que garantizan la posibilidad de un entendimiento mutuo basado en la comunidad de comunicación. En estas situaciones, la comunicación debe incluir declaraciones complejas y sus conexiones semánticas, que determinan el acervo. de información disponible para un sistema complejo. En realidad, T. contiene no solo información sobre la realidad, sino también metainformación (información sobre información), lo que permite recibir nuevos mensajes.

Iluminado.: Cherny A.I., Metodología general para la construcción de tesauros, “Información científica y técnica. Ser. 2", 1968, ╧5; Varga D., Metodología para la elaboración de tesauros de información, trad. [del húngaro], M., 1970; Shreider Yu. A., Tesauros de informática y semántica teórica, “Información científica y técnica. Ser. 2", 1971, ╧ Z.

Yu. A. Schrader.

Wikipedia

Tesauro

Tesauro, en un sentido general - terminología especial, más estricta y específicamente - un diccionario, colección de información, corpus o código, que cubre completamente conceptos, definiciones y términos de un campo especial de conocimiento o campo de actividad, que debe contribuir a la corrección léxica, comunicación corporativa; en lingüística moderna: un tipo especial de diccionario que indica relaciones semánticas (sinónimos, antónimos, parónimos, hipónimos, hiperónimos, etc.) entre unidades léxicas. Los tesauros son una de las herramientas más eficaces para describir áreas temáticas individuales.

A diferencia de un diccionario explicativo, un tesauro permite identificar el significado no solo a través de una definición, sino también correlacionando una palabra con otros conceptos y sus grupos, por lo que puede usarse para llenar las bases de conocimiento de los sistemas de inteligencia artificial.

En el pasado el término Tesauro Se designaron principalmente diccionarios que representan el vocabulario del idioma con la máxima integridad con ejemplos de su uso en los textos.

también término Tesauro utilizado en teoría de la información para denotar la totalidad de toda la información que posee el sujeto.

En psicología, el tesauro de un individuo se caracteriza por la percepción y comprensión de la información. La teoría de la comunicación también considera el tesauro general de un sistema complejo a través del cual interactúan sus elementos.

Tesauro (desambiguación)

Tesauro:

  • Un tesauro es un diccionario, una colección de información que cubre conceptos, definiciones y términos de un campo especial de conocimiento o campo de actividad.
  • El Tesauro de Roger es uno de los primeros diccionarios ideográficos de la historia y el más famoso en la actualidad.

Ejemplos del uso de la palabra tesauro en la literatura.

Para la percepción y la co-creación, un cierto óptimo Tesauro, no pequeño, pero tampoco demasiado grande.

Con una cantidad ilimitada de información entrante, superando significativamente Tesauro, su valor no depende de esta cantidad y está enteramente determinado Tesauro ohm

La versatilidad y el carácter sistemático del arte conducen a una percepción desigual de la obra en su conjunto: a la percepción de algunos aspectos del verso Tesauroóptimo, para otros es insuficiente o demasiado grande.

Porque Tesauro crece y cambia, volver a familiarizarse con el trabajo puede significar obtener nueva información valiosa.

El deseo de un niño de releer muchas veces su cuento de hadas favorito es comprensible: Tesauro está creciendo rápidamente y su capacidad de cocreación y fantasía asociativa es especialmente grande.

Este aspecto del asunto es más cambiante y subjetivo que Tesauro, y en busca de una valoración estética objetiva de una obra conviene reducirla al mínimo.

el penetra Tesauro poeta y aborda la traducción Tesauro de un lector de lengua extranjera.

Lo más importante es determinar qué tan grande es tu Tesauro, T.

No, es sólo que su propio equipaje es escaso, no está desarrollado, su Tesauro está en su infancia, y si no entiende que Tesauro Si se aumenta, entonces, en cualquier caso, esta mujer tendrá dificultades con él.

Rico Tesauro, basado en el conocimiento verdadero, permite que una persona, en comunicación con otra persona, incluso en la comunicación más cercana con la persona más cercana, reaccione correctamente ante cualquier cosa que suceda.

Es obvio que la caída en el valor de la información con el aumento Tesauro debe depender de la relación Tesauro a la cantidad de información recibida.

Evidentemente, el valor óptimo de la información artística corresponde a la proximidad. Tesauro lector y Tesauro poeta.

Podemos decir que la cocreación, como la creatividad, requiere inspiración, es decir, inclusión. Tesauro en el sentido amplio de la palabra.

Esta repetición interna de imágenes y sonidos brillantes, sin dejar de estar dentro del marco de lo existente Tesauro, lo enriquece con el mismo momento estético de repetición.

En este punto Tesauro Nabokov y Prishvin deben considerarse antípodas de Platonov, y Marina Tsvetaeva puede considerarse similar a él.

, antónimos, parónimos, hipónimos, hiperónimos, etc.) entre unidades léxicas. Los tesauros son una de las herramientas más eficaces para describir áreas temáticas individuales.

En el pasado el término Tesauro Se designaron principalmente diccionarios que representan el vocabulario del idioma con la máxima integridad con ejemplos de su uso en los textos.

también término Tesauro utilizado en teoría de la información para denotar la totalidad de toda la información que posee el sujeto.

En psicología, el tesauro de un individuo se caracteriza por la percepción y comprensión de la información. La teoría de la comunicación también considera el tesauro general de un sistema complejo a través del cual interactúan sus elementos.

Historia

Uno de los primeros tesauros se llama "Diccionario de sinónimos" de Filón de Biblos. Una correspondencia más precisa del término es Amara-kosha, escrito en sánscrito en forma poética en el siglo VI. El primer diccionario de sinónimos en inglés moderno fue creado por Peter Mark Roger en 1805. Fue publicado en 1852 y se ha utilizado sin reimpresión desde entonces.

En la década de 1970, los tesauros comenzaron a utilizarse activamente para tareas de recuperación de información. En dichos tesauros, las palabras se asignan a descriptores a través de los cuales se establecen conexiones semánticas.

Tesauros

ver también

Escribe una reseña sobre el artículo "Tesauro"

Notas

Extracto que caracteriza el Tesauro.

- ¡Qué dandy estás hoy! – dijo Nesvitsky, mirando su nuevo manto y su mantilla.
Denisov sonrió, sacó de su bolso un pañuelo que olía a perfume y se lo metió en la nariz a Nesvitsky.
- ¡No puedo, voy a trabajar! Salí, me lavé los dientes y me perfumé.
La figura digna de Nesvitsky, acompañado por un cosaco, y la determinación de Denisov, agitando su sable y gritando desesperadamente, tuvieron tal efecto que se apretujaron hacia el otro lado del puente y detuvieron a la infantería. Nesvitsky encontró a un coronel en la salida, a quien necesitaba transmitir la orden y, habiendo cumplido sus instrucciones, regresó.
Habiendo despejado el camino, Denisov se detuvo a la entrada del puente. Casualmente reteniendo al semental que corría hacia el suyo y pateando, miró al escuadrón que avanzaba hacia él.
A lo largo de las tablas del puente se escucharon sonidos transparentes de cascos, como si varios caballos galoparan, y el escuadrón, con los oficiales al frente, cuatro en fila, se estiró a lo largo del puente y comenzó a emerger por el otro lado.
Los soldados de infantería detenidos, apiñados en el barro pisoteado cerca del puente, miraban a los húsares limpios y elegantes que pasaban ordenadamente junto a ellos con ese sentimiento especial y hostil de alienación y ridículo que suele encontrarse en varias ramas del ejército.
- ¡Chicos inteligentes! ¡Ojalá fuera en Podnovinskoe!
- ¿De qué sirven? ¡Solo conducen para lucirse! - dijo otro.
- ¡Infantería, no levantéis el polvo! - bromeó el húsar, bajo el cual el caballo, jugando, salpicó barro al soldado de infantería.
“Si te hubiera llevado con tu mochila a través de dos marchas, los cordones se habrían gastado”, dijo el soldado de infantería, secándose la suciedad de la cara con la manga; - ¡De lo contrario no es una persona, sino un pájaro posado!
“Si pudiera montarte a caballo, Zikin, si fueras ágil”, bromeó el cabo sobre el soldado delgado, encorvado por el peso de su mochila.
"Coge el garrote entre tus piernas y tendrás un caballo", respondió el húsar.

El resto de la infantería se apresuró a cruzar el puente, formando un embudo en la entrada. Finalmente pasaron todos los carros, la aglomeración disminuyó y el último batallón entró en el puente. Al otro lado del puente contra el enemigo sólo quedaron los húsares del escuadrón de Denisov. El enemigo, visible a lo lejos desde la montaña de enfrente, desde abajo, desde el puente, aún no era visible, ya que desde la hondonada por donde discurría el río, el horizonte terminaba en la elevación opuesta a no más de media milla de distancia. Delante había un desierto, a lo largo del cual se movían aquí y allá grupos de nuestros cosacos en viaje. De repente, en la colina opuesta de la carretera, aparecieron tropas con capuchas azules y artillería. Estos eran los franceses. La patrulla de cosacos se retiró al trote colina abajo. Todos los oficiales y soldados del escuadrón de Denisov, aunque intentaban hablar de los forasteros y mirar a su alrededor, no dejaban de pensar sólo en lo que había en la montaña y miraban constantemente los puntos en el horizonte que reconocían como tropas enemigas. Por la tarde el tiempo volvió a aclararse y el sol se puso brillante sobre el Danubio y las oscuras montañas que lo rodean. Estaba en silencio, y desde esa montaña se escuchaban ocasionalmente sonidos de bocinas y gritos del enemigo. No había nadie entre el escuadrón y los enemigos, salvo pequeñas patrullas. Un espacio vacío, trescientas brazas, los separaba de él. El enemigo dejó de disparar, y con mayor claridad se podía sentir esa línea estricta, amenazante, inexpugnable y esquiva que separa a las dos tropas enemigas.
“Un paso más allá de esta línea, que recuerda la línea que separa a los vivos de los muertos, y lo desconocido del sufrimiento y la muerte. ¿Y qué hay ahí? ¿quién está ahí? ¿Allí, más allá de este campo, y del árbol, y del techo iluminado por el sol? Nadie lo sabe y yo quiero saberlo; y da miedo cruzar esta línea, y quieres cruzarla; y sabes que tarde o temprano tendrás que cruzarla y descubrir qué hay al otro lado de la línea, así como es inevitable descubrir qué hay al otro lado de la muerte. Y él mismo es fuerte, sano, alegre e irritado, y está rodeado de gente tan sana e irritadamente animada”. Aunque no piense, todo el que está a la vista del enemigo lo siente, y este sentimiento da un brillo especial y una alegre nitidez de impresiones a todo lo que sucede en estos minutos.
El humo de un disparo apareció en la colina enemiga y la bala de cañón, silbando, voló sobre las cabezas del escuadrón de húsares. Los oficiales que estaban juntos se dirigieron a sus lugares. Los húsares empezaron a enderezar con cuidado sus caballos. Todo en el escuadrón quedó en silencio. Todos miraban al enemigo y al comandante del escuadrón, esperando una orden. Otra tercera bala de cañón pasó volando. Es evidente que disparaban contra los húsares; pero la bala, silbando con la misma rapidez, voló por encima de las cabezas de los húsares y golpeó en algún lugar detrás. Los húsares no miraban atrás, pero a cada sonido de una bala de cañón voladora, como si recibieran una orden, todo el escuadrón con sus rostros monótonamente variados, conteniendo la respiración mientras la bala de cañón volaba, se levantaba en los estribos y volvía a caer. Los soldados, sin volver la cabeza, se miraban de reojo, buscando con curiosidad la impresión de su camarada. En todos los rostros, desde Denisov hasta el clarín, cerca de los labios y la barbilla aparecía un rasgo común de lucha, irritación y excitación. El sargento frunció el ceño y miró a los soldados, como si amenazara con castigarlos. Junker Mironov se inclinaba con cada pase de la bala de cañón. Rostov, de pie en el flanco izquierdo sobre su pierna tocada pero visible Grachik, tenía la mirada feliz de un estudiante convocado ante una gran audiencia para un examen en el que confiaba en sobresalir. Miró clara y brillantemente a todos, como si les pidiera que prestaran atención a la calma con la que estaba bajo las balas de cañón. Pero también en su rostro apareció cerca de su boca el mismo rasgo de algo nuevo y severo, contra su voluntad.
-¿Quién se inclina ahí? ¡"Mig"ones de Yunkeg! ¡Hexog, mírame! - gritó Denisov, incapaz de quedarse quieto y girando sobre su caballo frente al escuadrón.
El rostro chato y de pelo negro de Vaska Denisov y toda su figura pequeña y golpeada con su mano nervuda (con dedos cortos cubiertos de pelo), en la que sostenía la empuñadura de un sable desenvainado, era exactamente la misma de siempre. especialmente por la noche, después de beber dos botellas. Sólo que estaba más rojo que de costumbre y, levantando su peluda cabeza, como los pájaros cuando beben, clavando sin piedad las espuelas en los costados del buen beduino con sus pequeños pies, él, como si cayera hacia atrás, galopó hacia el otro flanco del escuadrón y gritó con voz ronca que se examinaran las pistolas. Condujo hasta Kirsten. El capitán del cuartel general, sobre una yegua ancha y tranquila, cabalgaba a buen paso hacia Denisov. El capitán del Estado Mayor, con su largo bigote, estaba serio, como siempre, sólo que sus ojos brillaban más de lo habitual.
- ¿Qué? - le dijo a Denisov -, no llegará el momento de pelear. Ya verás, volveremos.
"Quién sabe lo que están haciendo", refunfuñó Denisov. "¡Ah! ¡G" esqueleto! - le gritó al cadete, notando su rostro alegre. - Bueno, esperé.
Y sonrió con aprobación, aparentemente regocijándose por el cadete.
Rostov se sintió completamente feliz. En ese momento apareció el jefe en el puente. Denisov galopó hacia él.
- ¡Su Excelencia! ¡Déjeme atacar! Los mataré.
"¿Qué tipo de ataques hay?", Dijo el jefe con voz aburrida, haciendo una mueca como si fuera una mosca molesta. - ¿Y por qué estás parado aquí? Verás, los flanqueadores se están retirando. Conduce al escuadrón de regreso.
El escuadrón cruzó el puente y escapó de los disparos sin perder un solo hombre. Siguiéndolo, el segundo escuadrón, que estaba en la cadena, cruzó y los últimos cosacos despejaron ese lado.
Dos escuadrones de pavlogrados, tras cruzar el puente, uno tras otro, regresaron a la montaña. El comandante del regimiento Karl Bogdanovich Schubert se acercó al escuadrón de Denisov y cabalgó a un ritmo no muy lejos de Rostov, sin prestarle atención, a pesar de que después del choque anterior sobre Telyanin, ahora se vieron por primera vez. Rostov, sintiéndose al frente bajo el poder de un hombre ante el cual ahora se consideraba culpable, no apartó los ojos de la espalda atlética, la nuca rubia y el cuello rojo del comandante del regimiento. A Rostov le pareció que Bogdánich sólo fingía no prestar atención y que ahora todo su objetivo era poner a prueba el coraje del cadete, y se enderezó y miró alegremente a su alrededor; Luego le pareció que Bogdanich cabalgaba deliberadamente cerca para demostrarle a Rostov su coraje. Luego pensó que su enemigo ahora enviaría deliberadamente un escuadrón en un ataque desesperado para castigarlo a él, a Rostov. Se pensaba que después del ataque se acercaría a él y le extendería generosamente la mano de la reconciliación, al herido.



¿Te gustó el artículo? ¡Compartir con tus amigos!