シソーラス。 シソーラス構築の言語原則 指定されたトピックに関するシソーラスを作成する

シソーラス辞書タイプの複雑なコンポーネントとして理解され、辞書のすべての意味は、説明された知識の主題領域における概念の基本的な関係を反映する意味関係によって相互に接続されています。 以前は、シソーラスという用語は主に、テキストでの使用例とともに言語の語彙を最大限の完全性で提供する辞書を指していました。

シソーラスには次のものが含まれます 語彙素、形容詞、名詞、動詞、副詞の 4 つの品詞に関連します。 各品詞に対応する説明は異なる構造を持っています。

シソーラスの主な関係は次のとおりです。

  • 同義語– 同じ品詞の、音や綴りが異なるが、同じまたは非常に類似した語彙的意味を持つ単語間のつながり。たとえば、騎兵 - 騎兵、勇敢 - 勇敢。
  • 反意語- 同じ品詞の、音の異なる、正反対の意味を持つ単語間のつながり: 真実 - 嘘、善 - 悪。
  • 下位名/上位名。 上位名称– 一般的で一般的な概念、オブジェクト (プロパティ、属性) のクラス (セット) の名前を表す、より広い意味を持つ単語。 仮名– オブジェクト (プロパティ、属性) をクラス (セット) の要素として命名する、より狭い意味の単語。 これらの関係は推移的で非対称です。 下位語は、上位語のすべてのプロパティを継承します。 それらは名詞を記述するための中心的な関係です。
  • メロニミー/パートニミー– 「部分と全体」の関係。 この関係の中で、「要素である」と「からなる」という関係が際立ちます。 この関係は名詞に対してのみ定義されます。
  • 結果 (この関係は動詞を結び付けます);
  • 理由 (動詞にも定義されます)。

シソーラスの例:

小屋 - 木造農民家 [ハイパーニム]: 住宅建物 [メニム]: 農村集落 [シノニム]: 家

すべての関係は、概念の複雑な階層ネットワークを作成します。このネットワークのどこに概念があるかを知ることは、その概念について知る上で重要です。 品詞が異なると、関係の特性も異なります。

異なるシステムでは、シソーラスは異なる機能を実行できます。

  • 狭いまたは広い主題領域における専門知識の源、主題領域の用語を説明および整理する方法。
  • 情報検索システムの検索ツール。
  • 情報検索システムにおける文書の手動索引付けのためのツール (いわゆる制御辞書)。
  • 自動テキストインデックス作成ツール。

概念的な辞書としてのシソーラスは、英語の語彙をグループに体系化した Roger (または Roget、イギリスの物理学者) によって始まりました。 各グループは、概念の名前 (「カテゴリ」。最初は 1,000 個ありました。これらは、アルファベット順に並べられた通常の単語です。たとえば、AFFIRMATION ... AGENCY ...) で表され、その後にその同義語が続きます。品詞(名詞、動詞、形容詞、副詞)、反意語、そして関連語のリスト(それらはたくさんあり、他のカテゴリの名前への参照もあり、辞書の項目には「遠い親戚」のリストが含まれています)たとえば、AGENCY から続行できます...「BUSINESS」を参照)。 1852 年に Roger のシソーラスが出版されて以来。 そしてその再版は今もさまざまな形で続けられ、さまざまなユーザーのために、シソーラスは新しい語彙や関連性で常に更新されていますが、最初のバージョンの作成者の名前はすべてのオプションの背後に残ります。 このシソーラスの価値は、その自然さ、用語だけでなく言語の語彙全体を説明しているという事実、そして情報検索システムで情報検索システムで使用できるという事実にあります。システムの意味論的な力。

シソーラスは、今日に至るまで、人間の認識に適した、主題分野の知識を説明する最も受け入れられた形式です。 現代の外国シソーラスの例としては、WordNet や EuroWordNet があります。

英語シソーラス WordNet は 1990 年に登場しました。 そして自動テキスト処理のさまざまな分野に積極的に関わり始めました。 WordNet は約 100,000 の異なる単位 (そのほぼ半分はフレーズ) をカバーし、70,000 の概念に編成されています。

EuroWordNet 多言語シソーラスは現在開発中です。 まず、4 つの言語 (デンマーク語、イタリア語、スペイン語、アメリカ英語) について、単語の意味のネットワークが開発され、意味論的な関係によって接続され、意味が似ている異なる言語の単語を見つけることができるようになります。 英語の語彙および概念システムを説明するために作成された Roger のシソーラスや WordNet ネットワークとは異なり、EuroWordNet は主に大量のテキストの自動処理という実際的な問題を解決するために作成されました。 このシソーラスの助けを借りて解決する必要がある最も重要なタスクは次のとおりです。

  • 多言語情報検索を提供する。
  • 情報検索の完全性を高める。
  • 自然言語でリクエストを作成する。
  • 文書のセマンティックインデックス作成など。

これらの関係に加えて、1 つの主題領域の概念を結び付ける主題関係も導入されます。 また、関係の分離または結合を示す、概念間の関係に関する特別な注記を導入することも提案されています。 ネットワーク内の特定の概念に同じ名前の複数の関係がある場合、それらは選言的、つまりこれらの関係の 1 つが実際に実現されるか、または結合的、つまりこれらすべての関係がその概念に対して有効である可能性があります。

国内の研究機関は、この種の辞書に関する特定の州基準を満たす 100 以上の業界固有のシソーラスを作成しました。 これらは - IRT - 情報検索シソーラスと呼ばれます。 概念間に考えられるすべての意味関係のうち、同義、総称 (通常は「部分と全体」の関係が含まれる)、および連想とも呼ばれる「その他すべて」の 3 つが固定されています。

標準 IPT は、主にドキュメントの手動インデックス付け、および検索時のクエリの作成と変更を目的としています。 特定の知識分野の用語を選択的に体系化するというタスクを設定する非標準シソーラスがあります。これは特に新しい主題分野に当てはまります。 用語の定義でシソーラスを充実させる傾向が高まっています。これは、特に関連分野の場合や狭い主題領域の境界を越える場合に、用語の曖昧さを区別するために重要です。

3.1. シソーラスの概念

シソーラス(ギリシャ語の θήσαϋροξ から - 宝、株)または表意文字辞書(ギリシャ語のアイデア - 概念、表現、アイデア、グラフフォ - 書く、記述する)から - 現代言語学: 1)一般語彙または特殊語彙の特別なタイプの辞書、これには、語彙単位間の意味上の関係が含まれます。 2) 他の単語との意味上のつながりに基づいて単語を検索するための辞書。 3) 辞書内の単語を整理する (配列する) 特定の方法。 4) 語彙構成を整理する方法。経済的に「世界をモデル化」できるようになります。

最初の本来の意味 - 保管庫、宝物、シソーラスという用語は L.V. によって使用されました。 Shcherbaの記事「一般辞書編集の経験」(3番目の反対:シソーラス - 通常の(説明または翻訳)辞書)。 科学者は次のように書いています。「今日、シソーラスというと、ドイツの 5 つのアカデミーが共同で設立した「Thesaurus linguae latinae」を意味することがほとんどです。このプロジェクトは 1900 年に始まり、現在まで M の文字のみが省略されています。特徴的な機能 このタイプの辞書これは、特定の言語で少なくとも 1 回出現する絶対にすべての単語が含まれていること、および各単語の下に、特定の言語で利用可能なテキストからの絶対にすべての引用が示されているという事実にあります。 上記の対立 - シソーラス - 通常の(説明または翻訳)辞書 - の基礎は、「言語資料」と「言語システム」の対立です。これらの概念は、私の記事「言語現象と言語の三重の側面について」で実証しようとしました。言語学の実験についてです。」

この用語の 2 番目の意味は、P.M. 著の広く知られている辞書シソーラス「Thesaurus of English Words and Expressions」に関連しています。 Roger (Roget's Thesaurus of English Words and Phrases、1852) とその続編、O.V. の辞書。

この解釈では、シソーラスという用語は、辞書内の語彙構成を整理および配置する特定の方法を示します (用語の 3 番目の意味を参照)。

シソーラスという用語の 4 番目の意味は、経済的に「世界をモデル化する」ことを可能にする、語彙構成を組織するこの方法の普遍的な認識に関連しています。 この観点から見ると、シソーラス辞書は「科学または技術分野の語彙を体系的に並べたものであり、最も一般的な形式では、一般的な文学語彙、さらには特定の言語の語彙全体」です。

Yu.Nさんによると、 一般言語シソーラスであるカラウロフは、その見出し、セクション、ゾーン、領域の構造と関係に、アイデアの非言語的なつながりの幅広い可能性を固定し、人間の価値観の説明を保証します。

A.N. バラノフとD.O. ドブロヴォルスキーは、彼の『現代ロシア語イディオムの辞書シソーラス』の序文「編集者から」の中で、シソーラスに次の定義を与えています。つまり、他の辞書(特に、説明辞書、対訳辞書など)とは異なる特別なタイプの辞書です。言語資料の整理。 シソーラスでは、言語単位は通常の辞書のようにアルファベット順に表示されず、その意味に基づいてグループ化されます。

LP クリシンはシソーラス(表意文字辞書)を特別な種類の説明辞書、「逆に」辞書と呼んでいます。 「説明辞書で科学者が、辞書項目への「項目」が単語であり、辞書項目の内容がこの単語の意味の解釈であるとすると、表意文字辞書では「項目」は次のようになります。意味、アイデア (したがって、このタイプの辞書の名前は表意文字です)、および辞書項目の内容は、特定の意味を表す単語のリストです。 そして、説明辞書がテキストを理解するために不可欠なツールである場合、表意文字辞書はテキストの生成に使用できます。非常に多くの場合、人は特定の考えを表現したいと考えていますが、これに適した単語が見つかりません。 表意文字辞書を使用すると、これらの検索が容易になります。 シソーラスには主に 2 つのタイプがあります。

言語シソーラス - テキストの有意義な分析の結果として選択され、受け入れられた分類システムに従って体系化された自然言語単語のリストを含む辞書。

統計シソーラス - 特定のトピックに関するテキストの統計分析の結果として選択され、同じテキスト内でのこれらの単語の共起頻度に基づいて辞書エントリにグループ化された単語のリストを含む情報検索辞書。

情報検索シソーラス (IRT) は、自動処理中の情報の検索を容易にします。 IPT は、語彙単位間の意味関係を最大限に明らかにします。 IPT に関する GOST に記載されているように、「単一言語情報検索シソーラスは、1 つの自然言語の語彙に基づいて、語彙単位間の意味論的な関係を表示し、情報の処理と検索を目的とした、制御され変化する語彙単位の辞書です。」

IPT の基本単位は記述子用語です。 IPT のアルファベット順、語彙意味論的な部分は、一連の記述子記事です。

説明辞書は、特定の分野の語彙を完全に説明し、その分野でのすべての用法を記録することを目的としています。 利用可能なすべての関連ケースを記録します。 説明的な辞書の典型的な例は、V.I. 著の「生きている偉大なロシア語の説明辞書」です。 Dahl (4 巻の初版は 1863 年から 1866 年に出版されました)。 その作成者の目標は、言語を標準化することではなく、言語の方言形式を含む、偉大なロシア語の音声の多様性全体を完全に記述することでした。

各記述子辞書エントリは記述子で始まり、この記述子の同義語、および属固有または結合関係によって主要な記述子に関連付けられている他の語彙単位が GOST 記事内で以下に示されています。

したがって、特に電子形式のシソーラスは、個々の主題分野を説明するための効果的なツールの 1 つです。

シソーラスが純粋な形で見つかることはほとんどありません。 実際のシソーラスでは、元のアイデアは簡略化されているか無関係ですが、潜在的に必要な情報がユーザーに追加されます。 現在最も有名なのは、Yu.N 著の「ロシア語意味辞典」です。 カラウロワ、「同名の辞書」N.Yu。 Shvedova、「ロシア語のテーマ辞典」L.G. スメホワら。

まとめ。 シソーラス用語 L.V. Shcherba は、可能であれば、特定の単語が出現するすべての文脈を記録する辞書と関連付けてこの用語を使用しました。 シソーラスの特徴は、特定の言語で少なくとも 1 回出現するすべての単語がリストされ、各単語の下にその言語で利用可能なテキストからのすべての引用が示されていることです。 シソーラス辞書の内容は言語資料であり、通常の辞書は言語資料および言語システム(L.V. Shcherba の用語)です。

この特徴は、意味の共通性または対立を示す、さまざまな種類の相互接続 (多くの場合パラダイム的 (同義または反意)) によって補完されます。 その他、各種協会。 接続 (つまり、構文接続)。

したがって、シソーラス (表意文字辞書) の役割は、主要な意味分野、その内部構造、および外部のつながりを示し、言語資料の特定の断面の意味論的構成のアイデアを与えることです。 シソーラスは言語の体系的な性質を明確に示したもので、個々の言語単位と単位のグループを結び付けるさまざまな種類の関係を確認できます。

3.2. 世界についての概念的な知識をシソーラスの形で表現する歴史

単語の意味の類似性、連続性、類推に従って単語を配置する必要性は、観察可能な人類の思考の歴史を通じて感じられてきました。

世界についての概念的な知識をシソーラスの形で表現するというアイデアの起源をたどるには、シソーラス (表意文字辞典) の編纂の歴史に目を向けることが役立ちます。

したがって、文明の黎明期、人々が表意文字と記号の助けを借りてのみ自分の考えを文字で表現できたとき、唯一可能な辞書はおそらく、単語をテーマごとにまとめたものでした。 当時の辞書編集者にとって、現実自体に存在する関係以外に単語を分類するための別の基準を見つけることは単純に困難でした。

残念ながら、表意文字を使用していた人々が実際にそのような辞書を持っていたかどうかの証拠はありません。 私たちに知られている表意文字分類の最も古い試みの中には、ギリシャの文法学者、アレクサンドリア図書館の館長、ビザンチウムのアリストパネス(紀元前 180 年に死亡)のアティカイ・レクセイスがあります。

2世紀に。 n. e. エジプトの都市ナウクラティス出身の辞書編纂者でソフィストのジュリアス・ポルックス(本名ポリュデウケス)がギリシャ語の資料を編集した主要著作『オノマスティコン』が登場する。 Yu. Pollux はいくつかの作品を書きましたが、私たちに届いたのは「Onomasticon」だけです (Pollux Yu. Onomasticon. M.、1956)。


オノマスティコンは10冊で構成されています。 本は基本的に独立した論文であり、特定のトピックに関連する最も重要な単語が含まれています。 したがって、最初の本は神と王について語っています。 2番目は、人々、その生活、生理学的構造についてです。 3番目では、親族関係や民事関係などについてです。辞書に含まれる単語には簡単な解釈が付いています。 現代では、この辞書は 1502 年にヴェネツィアで初めて出版されました。

2世紀から3世紀の間。 n. e. 素晴らしいサンスクリット語辞典『アマラコシャ』(アマラコ社、パリ、1​​839年)が出版されました。 その著者は古代インドの詩人、文法学者、辞書編纂者であり、「ヴィクラマディティヤの王座を飾る9つの真珠の1つ」と呼ばれたアマラ・シーナです。 アマラコシャはロシア語に翻訳され、アマラの宝庫を意味します。 辞書には 10,000 語が収録されています。 単語の意味の解釈をよりよく覚えておくために、辞書の項目は詩の形式で構成されています。 すべての辞書資料は 3 冊に分かれています。 各本には複数の章が含まれており、必要に応じてその章が複数のセクションに分割されます。 最初の本は、空、神々、そしてそれらに直接関係するすべてのものに捧げられています。 2 番目の本には、地球、集落、植物、動物、人間に関連する単語が含まれています (最初に人間は生き物として考えられ、次に社会的存在として考えられます。著者の現代社会のカースト構造全体が私たちの目の前に現れます。司祭)神の受託者としての人々が最上位におり、その下に軍人や王がおり、さらに下には地主がおり、最下位には職人、手品師、使用人などがいます。) 3 冊目の本は、6 章のタイトルから明らかなように、厳密に言語学に関するものです。

この辞書がヨーロッパの科学者に知られるようになったのは、18 世紀末になってからであり、その最初の部分が 1798 年にローマで出版されました。 この本は 1808 年に英国のサンスクリット学者 G.T. によって英語への翻訳付きで全文が出版されました。 コールブルック (N.T. コールブルック)。 1839 年に、A.L. によってそのフランス語訳が出版されました。 ドロンシャン(A.L. Deslongchamps)。 語彙の意味論的分類のアイデアのさらなる発展は、いわゆる世界言語の問題に関連しています。

まとめ。 最も一般的な言葉で言えば、これは語彙の表意文字による分類の伝統の発展における最初の段階です。 この段階は表意文字辞書の前史と言えます。 ここで、シソーラス辞書の現代的な分類に目を向けることをお勧めします。

説明されている作品がアルファベット辞書といかに異なるかは簡単にわかります。 アルファベット辞書において、単語の表示がアルファベットのような従来の非常に中立的な手段によって規制されている場合、表意文字辞書を構築する際には、辞書編纂者自身の世界観が決定的なものになります。

3.3. 辞書 - シソーラスの分類の原則

上ですでに示したように、シソーラスの分類を編纂するという問題は新しいものではなく、数十年にわたって国内外の多くの言語学者 (C. Marello、V.V. Morkovkin、L.P. Stupin、V.V. Dubichinsky など) の注目を集めてきました。 )。 この分野の研究の結果、これらの辞書編集作品の代替分類が作成されました。 最新の分類の 1 つは、次の基準に基づいています。 a) 語彙単位間の意味上のつながりのタイプ。 2)語彙の量。 3) 語彙の一般化。 4) 語彙素の意味の発展。 5) 語彙素の文法的および文体的修飾。 6) 語彙素の機能の実証。 7) 表現される言語の数。 8) 語彙素を意味化するために使用される記号論的手段の種類。 この分類は、O.M. によって以前に作成された分類に基づいています。 Karpova と I. Burkhanov (Burchanov I. On the Ideographic description of Stylistally and Pragmatically Relevant Aspects of Lexical Meanings. London, 1996); 分類に使用される用語は辞書編集装置に導入されます。


V.V. モルコフキン、Yu.N. カラウロフ、K.マレロ。 分類基準は O.M. によって策定されました。 カルポワ。 同時に、C. Marello は 3 種類のシソーラスを区別しています。

累積的。意味を定義せずに単語をグループ化したもの。

決定的な、単語グループの各語彙単位の解釈。

旅行者向けの二言語および多言語シソーラス (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083)。

累積シソーラスは、特定の意味論的分野に属する状況において、より理解しやすく、正確で、文体的に正しい単語を見つける機会を提供するだけでなく、テーマ別コンピューター データ バンクの形成の基礎にもなります。

決定的なシソーラスには、意味の定義に加えて、語源的な情報や文学作品からの引用が含まれており、このタイプのシソーラスの直接的な百科事典的な方向性が示されています。 さらに、このタイプの辞書は、ユーザーに必要な概念体系を紹介し、概念の本質、類似点と相違点、概念のパラダイム的および統語論的な接続を説明し、場合によっては発音、文法、語形成、およびその他の可能性に関する情報を提供します。これらの概念を表す語彙単位。

旅行者向けの二言語および多言語シソーラスは通常、数字、食べ物、交通機関、ホテルなどのテーマ別セクションに従って作成されます。 2 つ以上の言語に相当する翻訳を使用します。

既存のシソーラス辞書の種類をできるだけ完全に表示するために、複数レベルの分類が作成されます。 まず、語彙単位間の意味上のつながりの種類に応じて、シソーラスは 3 つの大きなクラスに分類されます。

1. 連想シソーラス (Yu.N. Karaulov による用語集)

2. 類似シソーラス (V.V. Morkovkin による用語解説)

3. 表意文字(イデオロギー)シソーラス(L.V. Shcherba、V.V. Morkovkin による用語。上記の 3 種類のシソーラスは、それぞれ次の種類の語彙素の意味的接続を反映しています。

1. 意味論と構文の関係、それに基づく
単語はグループまたはペアに結合され、意味論と構文という二重の関係によってその出現と存在が事前に決定されます。 単語間の意味的なつながりは、主に、文中で述語的な機能を果たす動詞と形容詞、および名詞の間で確立されます。次に例を示します。

a) 動作とそれを実行する器官(楽器)の間:手をつかむ、見る、目、泳ぐ、ボートなど。

b) 1 つの主語と主語を必要とする動作動詞の間: 吠える - 犬、隣人 - 馬など。 c) 動詞と特定の文法的付加の間。前者はそれを必要とします:chop - wood、eat - food など。

したがって、連想シソーラスは、語彙単位間に存在する意味論的および構文的なつながりに基づいて語彙単位を編成し、中心単語のグラフィック形式に従ってグループを配置する辞書シソーラスです。

2. 語彙意味論的な接続。 このタイプの接続を持つグループへのグループ化は、単語の主な特徴である語彙の意味に従って行われます。 同時に、単語の個々の意味が実現される形で、辞書と文法のつながりも考慮されます。

したがって、類推シソーラスは辞書編集的な参考書であり、そのマクロ構造の主単位は語彙意味論的なグループです。 グループは、意味論的な優位性のアルファベット順に体系化されています。

3. 主題または主題のつながり。単語が 1 つのグループに組み合わされる場合、その単語が示すオブジェクトおよびプロセスの機能の類似性または共通性によって発生します。オブジェクト
家庭用品、体の一部、衣服の種類、建物など。

したがって、表意文字シソーラスは、主題 (主題) グループの一部として語彙単位を表し、それらを世界についての概念化された知識を表すように設計された階層構造に編成する辞書編集作品です。

同じ基準の枠組み内で、タイプをさらに細分化します。 したがって、表意文字シソーラスは次の 4 種類で表されます。


実は表意文字シソーラスです。

テーマ別辞書。

体系的な辞書。

テーマ別体系辞典


表意文字シソーラス自体は特別なタイプの表意文字辞書であり、そのマクロ構造は、言語の語彙構成に重ねられたアプリオリな総観マップに従って編成されています。 他のタイプの表意文字辞書とは異なり、表意文字シソーラス自体は、一般的な語彙が辞書編集の対象となる場合でも、科学的分類法に基づいて作成された論理的で厳密に順序付けられた分類構造によって特徴付けられます (New Webster "Thesaurus. Landoll, 1991)"。

主題辞書は特殊なタイプの表意文字シソーラスであり、そのマクロ構造の主単位は語彙素を含む主題グループであり、その表示(指示語)の分類に基づいて統合され、規則への準拠の観点から考慮されます。特定のトピック。

系統辞書は、言語の語彙単位間に存在する実際の意味関係を表すことを目的とした分類構造をもつ特別なタイプの表意文字シソーラスです。 その核心となる分類構造は、語彙の語彙文法的分類、言い換えれば、従属と構成の観点から記述されたパラダイム構造を表します。

テーマ別体系辞書は、テーマ別辞書と体系別辞書を組み合わせた特別なタイプの表意文字辞書です。

まとめ。 言語シソーラスの考慮された分類には、次のタイプの辞書が含まれます。 表意文字(イデオロギー)シソーラス(L.V. Shcherba および V.V. Morkovkin による用語)。 准教授 シソーラス (Yu.N. Karaulov による用語)。 次にポップをご紹介します。 シソーラスとその特徴が明らかになります。

3.4. 人気のシソーラスとその特徴

入手可能な辞書の中で最も有名なシソーラスは、この用語自体がその存在のおかげであり、英語を素材として作成されました。 これは、P.M. によって常に再版されているシソーラスです。 Roger Roget の英語の単語とフレーズのシソーラス (1852)。

英語の単語と表現のシソーラスの著者が、その時までに得られた経験を最大限に活用したことに注意することが重要です。 「単語を分類するときに私を導いた原則」と P.M. は書いています。 ロジャーは、自然史のさまざまな分野で個人を分類する際に使用されるものと同じです。 したがって、私が強調したセクションは植物学と動物学の自然の系統に対応しており、一連の単語は、自然の一連の植物と動物を結び付けるのと同じ関係によって固められています。」

午後 ロジャーは、これらの言葉と呼ばれる現実の対象が適切に研究され、整理されるまで、その意味に応じた説得力のある言葉の分類は不可能であると信じていました。 したがって、彼は英語の概念領域を抽象的な関係、空間、物質、精神 (心、意志、感情) の 4 つの大きなクラスに分類することから仕事を始めます。 これらのクラスはさらにいくつかの属に分類され、さらにそれらの属が一定数の種に分類されます。

P.M.の表意文字辞書の欠点の中には、 科学者たちは、ロジャーの功績として次のことを考えています。 1) 主要な概念クラスの命名法が完全に説得力のあるものではない。 2) 抽象的な論理は、単語の自然なつながりよりも優先されます。 3) 使用上の相対的な不便さ (この欠点は後続の版で大幅に修正されました)。

現代ロシアの辞書編集には、辞書シソーラス (表意文字辞書) として分類されるべき辞書がいくつかあります。 たとえば、これは Yu.N のリーダーシップの下で作成されました。 カラウロワ「ロシア語意味辞書」、N.Yu編集「ロシア語意味辞書」。 Shvedova、「ロシア語のテーマ辞典」L.G. サヤコバ、D.M. カサノバとV.V. Morkovkina、「ロシア語動詞の語彙意味論的グループの辞書」編。 E.V. クズネツォワ、「ロシア語表意文字辞典」O.S. バラノワ、「ロシア語における人間の内なる世界の概念圏」V.I. Ubiyko、V.V.の指導による包括的な教育辞書「ロシア語の語彙の基礎」 モルコフキナ。

それらのいくつかを知ってみましょう。

現代ロシア語イディオムの辞書類語辞典」A.N. 編集 バラノバと D.O. Dobrovolsky には 4 つの主要な部分が含まれています。1) 概要。 2) 凡例。 3) 辞書シソーラスの本体。 4) ポインタ。 概要の目的は、シソーラスの本体の構造についての一般的なアイデアを提供することです。 すべての分類群を下位分類群および対応するパラダイム参照とともにリストします。 シソーラス辞書の本体は、辞書エントリのコレクションであり、そこに記述されているイディオムの意味に従ってグループ (分類群) とサブグループ (サブ分類群) にグループ化されています。 各記事には、現代ロシア語でのイディオムとその使用例が含まれています。 概要、凡例、索引は、前述の辞書シソーラスのサービス部分であり、ユーザーに迅速かつ効率的に作業する機会を提供します。 凡例は、イディオムの使用例が必要ない場合に使用されます。 例を除くすべての情報を再現します。 実際、これは辞書の語彙です。 語彙の単位は補題です。 この場合の補題は、イディオムを元の (辞書の) 形式で表し、可能であれば、その重要な変形をすべて含みます。 たとえば、イディオム「stand Still」は補題マーク time、stand Still、skid in place の一部です。

辞書には 2 つのポインターが含まれています。 この本の最後には、このプロジェクトの科学的特徴を詳細に分析した「現代ロシア語観念論の辞書の理論的概念」という記事があります。

Yu.N の指導の下で作成された「ロシア語意味辞書」 Karaulova には 10,000 のロシア語単語が含まれており、それらは 1600 の概念グループに分類されています。 グループの識別は、説明辞書で繰り返される単語解釈の要素 (たとえば、「アクション」、「プロパティ」、「ツール」など) に基づいて行われます。

学者N.Yuの指導の下で作成された「ロシア語意味辞書」。 Shvedova は、表意文字辞書と説明辞書の両方の編纂に特徴的なわずかに異なる原則に基づいています。 まず、ここでは言語のすべての単語が 4 つのクラスに分類されます: 1) 単位の指示 (代名詞)、2) 名前付け (概念的単語)、3) 実際の接続子 (接続詞、前置詞、接続動詞)、4) 分類 (様相単語) 、助詞、感動詞)。 次に、各クラス内で、すべての単語が品詞に従って配布されます。 第三に、各品詞内で、主題の近接性、または逆に単語の意味の対立に基づいてセットとサブセットが識別されます。

DUDEN は、左側に (さまざまなソフトウェアによる) 絵 (図面) があり、番号が付けられた部分 (最小値まで) が記載された本です。 右側には、この番号付きリストにタイトルが付いています (2 か国語の場合でも)。 例えば、鉄道設備や駅、線路などがページ全体に描かれています。 右側には、矢、手旗信号、松葉杖などの名前が表示されます。

「ロシア語テーマ辞典」L.G. サヤコバ、D.M. カサノバとV.V. Morkovkina には 25,000 の語彙単位が含まれており、「人間」、「社会」、「自然」という 3 つの大きなクラスにグループ化され、段階的に小さなサブクラスに分岐します。 たとえば、「人間」というクラスには、「人体と生物」、「人間の生活」、「人の外見、外観」、「人の感情的な外観」などのサブクラスがあります。それぞれのサブクラスは順番にさらに具体的なものに分けられます:「人の感情世界」-「人の精神的特性」-「気質」、「性格」-「一般的な性格特性」など。 各クラスに属する単語の意味と使用法は、最も一般的なフレーズによって説明されています。 たとえば、「男」クラスのサブグループ「感情、感情の表現」にある「笑い」という単語には、陽気な笑い、楽しい笑い、子供の笑い、爆発などのこの単語との組み合わせの兆候が伴います。笑いなどに。

まとめ。 個々の主題領域を、特に電子形式で説明するための効果的なツールの 1 つはシソーラスです。

シソーラスという用語は、言語学において長い間、「世界の全体像」、「世界の言語モデル」をある程度反映する特別なタイプの辞書を指すために広く使用されてきました(Yu.N. Karaulovによる)。 「宝物」としてのシソーラスは、その意味の範囲が拡大し、新しい意味を受け取りました。 彼らはそれを、言語の豊富な語彙をすべて吸収するだけでなく、それらをある論理体系的な方法で編成する辞書と呼び始めました。 シソーラス辞書では、単語がグループに結合されます。この統合は、特定の概念を伝える特定の単語の能力に基づいて行われます。

シソーラス辞書は、言語学において、世界に関する (特定の社会の) 集合的な知識を言語形式で確実に保存する一種の普遍的なシステムであると常に考えられてきました。 他の辞書とは異なり、シソーラス辞書では、この知識が「世界の構造」についての考えを反映する構造化された形式で保存されます。

現在最も有名で人気のあるシソーラスは、英語の Roger's Thesaurus、O.V. ロシア語表意文字辞典です。 Baranova、ロシア語意味辞書 Yu.N. カラウロヴァ、学者N.Yuのロシア語意味辞典。 Shvedova、DUDEN、ロシア語主題辞典 L.G. サヤコバ、D.M. カサノバとV.V. モルコフキナ。

NV・ルカシェヴィチ

[メールで保護されています]

B.V.ドブロフ

モスクワ州立大学リサーチ コンピューティング センター。 M.V.ロモノーソフ。

ANO情報研究センター

[メールで保護されています]

キーワード:シソーラス、情報検索、自動テキスト処理、

大規模なテキストのコレクションを処理するテクノロジーの大部分は、統計的および確率的手法に基づいています。 これは、言語的手法を使用してテキスト コレクションを処理するために使用できる語彙リソースには、数万の辞書エントリが必要であり、リソースの開発時に特に監視する必要がある多くの重要なプロパティが必要であるという事実によるものです。 この報告書では、コンピュータテキスト処理用のロシア語シソーラス RuTez の例を使用して、大規模なテキストコレクションの自動処理のための語彙リソース開発の基本原則を検討します。RuTez は 1997 年に作成され、現在 42,000 を超える概念の階層ネットワークです。 。 シソーラスの語彙構成とロシア大学情報システム (www.cir.ru) のテキスト コーパス (40 万件の文書) の比較に基づいて、シソーラスの現状について説明します。 さまざまな自動文書処理アプリケーションでのシソーラスの使用例について説明します。

  1. 導入

現在、何百万もの文書が電子形式で利用できるようになり、何千もの情報システムや電子ライブラリが作成されています。 同時に、検索に語彙や用語のリソースを使用する情報システムは、パーセント単位で計算されます。 これは、最新の電子文書のコレクションを自動処理するための言語リソースを作成することが重大な課題であるためです。

まず、これらのコレクションは通常非常に大きく、リソースには何千もの単語や用語の説明が含まれている必要があります。 第 2 に、コレクションはさまざまな構文構造を持つさまざまな構造のドキュメントのセットであるため、テキスト文を自動的に処理することが困難になります。 さらに、重要な情報はテキストの異なる文の間に分散されることがよくあります。

これらすべては、言語リソースとはどうあるべきかという問題を鋭く提起します。言語リソースは、一方では電子コレクションの自動処理と検索に役立ち、他方では予見可能な時間内に作成でき、比較的少ない労力で維持できるものであるべきです。努力。

この記事では、大規模なテキスト コレクションを自動処理するための語彙リソースを開発する基本原則を見ていきます。 これらの原則は、コンピュータ テキスト処理用に 1997 年から ANO 情報研究センターによって作成されたロシア語シソーラス RuTez の例を使用して検証されます。 RuTez は現在 42,000 を超える概念の階層ネットワークであり、これには 95,000 を超えるロシア語の単語、表現、用語が含まれています。 シソーラスの語彙構成と、モスクワ州立大学リサーチ コンピューティング センターの支援による大学情報システム RUSSIA のテキスト コーパスの語彙の比較に基づいて、シソーラスの現状について説明します。 M.V.ロモノーソフとANO TSII。 UIS RUSSIA (www.cir.ru) には、社会政治的トピックに関する 40 万件の文書 (約 3 GB のテキスト、2 億語) が含まれています。 この記事では、さまざまな自動ワープロ アプリケーションでのシソーラスの使用例についても説明します。

  1. 言語リソースを開発するための原則

情報検索タスク用

電子文書の効果的な自動処理 (文書の自動インデックス作成、分類、比較) を確実に行うには、比較の基礎、つまり文書内で言及されている内容のリストを構築する必要があります。 このような索引が単語ごとの索引よりも効果的であるためには、同義語、多義性、品詞、文体などのテキストの語彙的多様性を克服し、それを不変式に還元する必要があります。異なるテキストを比較するための基礎。 したがって、概念は言語リソースの基礎となるべきであり、言語表現、つまり単語や用語は、対応する概念を初期化するテキスト入力のみになります。

異なるが類似した概念を比較できるようにするには、それらの間に関係を確立する必要があります。 従来、自然言語によるテキストの自動処理のための言語リソースは、次のような特定の意味関係のセットを使用していました。 部分、出典、理由等々。 ただし、大規模で異質なテキストのコレクションを扱う場合、現在のワードプロセッサ技術では、コンピューター システムがテキスト内のこれらの関係を確実に検出して、関連する手順を実行することができないことを理解する必要があります。これらまたは他の関係。 したがって、概念間の関係は、まず、その概念が言及されている特定のテキストのトピックに依存しない、または弱く依存する特定の不変特性を記述しなければなりません。

この関係の主な機能は、次の質問に答えることです。

テキストが C1 についての説明に特化しており、C2 が関連していることがわかっている場合

態度RC1 では、テキストのトピックと言えますか?(*)

C2と関係あるの?

自動処理用の言語リソースを作成する場合、概念 C1 と C2 のどの特性によってそれらの間に正しい (*) 関係を確立できるかを判断することが重要です。

したがって、たとえば、どのような文章が書かれていても、 白樺、いつでも言えることは、この歌詞は 木。しかし、人気があり、関係について頻繁に議論されているにもかかわらず、 一部として 森林、木についての文章で森林についての文章はほとんどありません。 この問題は関係の名前とは関係がないことに注意してください。 それで 伐採は森の一部です、開拓地に関するテキストは森林に関するテキストです。

主題領域のテキストの考えられるトピックのスペクトルに対する関係の不変性は、主に、関係の名前によって反映されるものよりも深い性質、すなわちその数量詞と存在的性質によって決定されます。 したがって、関係の数量詞プロパティは、概念のすべての例が特定の関係を持っているかどうか、この関係が例のライフサイクル全体を通じて持続するかどうかを記述します。 リレーションの使用に関する問題 それはまさに、すべての特定の木が森の中にあるわけではないが、伐採は森の外ではできないという事実によるものです。

関係の存在特性の記述の例 - 概念 C1 の存在から概念 C2 の存在が帰結しますか (たとえば、概念の存在) ガレージ概念の存在が必要です 自動車)または例 C1 の存在は例 C2 の存在に依存します(非常に具体的です) 洪水特定の例から切り離せない 河川)。 従属概念 C2 のテキストでの議論、特に例に依存するものは、テキストが主概念 C1 にも関連していることを示唆しています。

概念間の関係を考えてみましょう 森と木詳細に。 実はコンセプトの一部 森の中の木、ある一方で、 自立する木,庭の木 etc. いずれにしても概念の従属関係を断ち切る必要がある コンセプト .

反対側では、 種です 木のコレクション、木なしでは存在しません(同様に) )。 したがって、コンセプトは、 コンセプトに関連している必要があります 。 特定のアプリケーション問題のニーズの分析から始めて、以前は言語リソースにはほとんど反映されていなかったが、自動処理のタスクにとっては最も重要な関係の深い特性を記述することが重要であるという結論に達しました。大規模なテキスト コレクションや、場合によっては他の多くのタスクにも使用できます。

ここで、伝統的なシソーラスの関係である ABOVE-BELOW (すべての関係の 66%)、PART-WHOLE (関係の 30%)、ASSOCIATION (4%) を組み合わせて、概念の数量詞と存在プロパティの記述をモデル化します。追加修飾子の特定のセット (関係の 20% がマークされます)。 PART-WHOLE および ASSOCIATION 関係は、規則 (*) を考慮して解釈されることに注意してください。 合計で約 16 万の概念間の直接的な接続が記述されており、関係の推移性を考慮すると、異なる接続の合計数は 135 万以上になります。つまり、平均して、各概念は 30 の他の概念と接続されています。 。

  1. RuTez シソーラス: 一般的な構造

RuTez シソーラスは、個々の単語、テキスト表現、または同義語シリーズの意味に対応する概念の階層ネットワークです。 したがって、シソーラスの主な要素は、概念、言語表現、言語表現と概念の間の関係、および概念間の関係です。

シソーラスは、伝統的に語彙、意味知識に関連する語彙素、イディオム、およびそれらの関係の説明という言語知識と、伝統的に用語学者の活動分野に関連する主題領域内の用語と関係についての知識の両方を単一のシステムに結合します。情報検索シソーラス。 このような主題の下位分野として、シソーラスは経済、立法、金融、国際関係などの主題分野を記述します。これらは人間の日常生活にとって非常に重要であるため、従来の説明辞書には重要な語彙表現が含まれています。 これらでは、語彙と用語が強く相互に関連しており、互いに強く相互作用します。

言語表現は、個々の語彙素 (名詞、形容詞、動詞)、名詞および動詞のグループです。 したがって、シソーラスには現在、言語表現としての副詞や機能語は含まれていません。 複数の単語グループには、用語、イディオム、語彙関数 ( 影響 e)。

それぞれの言語表現について次のように説明します。

その多義性は 1 つ以上の概念とのつながりであり、これは、特定の言語表現がこの概念のテキスト表現として機能できることを意味します。 言語表現をさまざまな概念に帰することは、その多義性を暗黙のうちに示すものでもあります。

その形態学的構成 (品詞、番号、格)。

書き方の特徴(大文字など)など。

各シソーラスの概念には、一意の名前、この概念をテキスト内で表現できる言語表現のリスト、および他の概念との関係のリストがあります。

通常、その明確なテキスト表現の 1 つが、概念の一意の名前として選択されます。 しかし、概念の名前は、そのあいまいなテキスト表現のペア、つまりコンマで区切って明確に定義する同義語によって形成されることもあります (たとえば、概念 厚い)。 概念の名前のあいまいなテキスト表現には、マークまたは解釈の短縮された断片を付けることもできます。たとえば、「概念」などです。 群衆(人々のグループ)。

  1. 辞書エントリの例

例として、概念の辞書エントリを選択しました。 、単語の意味の 1 つに対応します。 。 この辞書の項目が興味深いのは、伝統的に語彙 (意味) 知識と百科事典的知識 (主題領域、用語に関する知識) として分類されてきたさまざまな種類の知識が含まれているためです。

コンセプトの類義語 (合計 13):

森(M)、森林地帯、森林環境、

森林、森林地区、森林景観、

森林地帯、森林地帯、森林地帯、

森林資源地域、小さな森、

森林の配列。

以下の概念と同義語:

密林(密林);

森林公園(都市の庭園、緑地、

緑地、森林公園、

森林管理、森林公園

ベルト、パーク(M)、公園エリア);

林業;

落ち葉の森(軟葉樹林、硬葉樹林

森);

グローブ(樫の木立);

CONIFEROUS FOREST(針葉樹林、暗い針葉樹林)

同義語を含む概念部分:

WINDBREAK(棚ぼた、棚ぼた);

切断(切断領域);

森林文化(森林種、林業

文化);

FOREST LAND (森林土地; 覆われた土地)

森; 森林土地、森林領土。

森林に覆われた土地、森林に覆われた土地

エリア);

森林プランテーション(森林プランテーション、森林プランテーション、

植林);

森の端(エッジ、エッジ);

UNDERFLOWER(下草));

プロセカ;

ドライウッド(枯れた木).

ここで、記号 (M) はテキスト入力の曖昧さに関する注意を反映しています。

コンセプト また、他の関係、いわゆる依存関係 (最新バージョンでは、ASC 2 - 非対称関連付けと呼ばれます) もあります。 森林火災(森林火災、森林火災。 森林利用 (森林利用、森林基金エリアの利用); 林業; 森林科学 (森林科学)。 段落 2 ですでに述べたように、FOREST の概念は TREE の概念に依存しており、シソーラスでは関係 ASC 1 で示されています。

トータルコンセプト は、関係の推移性を考慮して、他の 28 の概念 (合計 650 を超えるテキスト入力) の 235 の概念と直接接続されています。

  1. 現状の評価

ロシア語シソーラス RuTez

5.1. 語彙構成

現在、シソーラス ネットワークには 95,000 を超える言語表現が含まれており、そのうち 61,000 は単一の単語です。

この膨大な作業により、シソーラスの説明にどのような単語や言語表現を含める必要があるかを決定する必要がありました。 自然な欲求は、ロシア語で最も頻繁に使用される単語がシソーラスでどのように表現されているかを確認することでした。 この目的のために、ロシア大学情報システムのテキストコレクション(40万文書)が使用されました。 このコレクションには、ロシア連邦のさまざまな機関からの公式文書 (1992 年以降 5 万 5,000 の文書) のほか、1999 年以降の報道資料 (新聞イズベスチヤ、ネザヴィシマヤ ガゼタ、コムソモリスカヤ プラウダ、アーギュメンティ イ ファクティ、エキスパート誌など)、科学機関の資料が含まれています。雑誌(「モスクワ大学紀要」、「社会学ジャーナル」)。 シソーラスに含まれる補題のリストと、テキスト コレクション内で最も頻繁に使用される 100,000 個の補題 (頻度が 25 を超える) のリストとの間で比較が行われました。

リストの補語素マーキングにより、これら 10 万個の見出し語のうち 35,000 個が RuTez で記述されており、シソーラスに含めるに値する語彙素は約 7,000 個だけで、残りはさまざまな固有名の見出し語の変形であることがわかりました。 したがって、補充は優先タスクではなくなり、最も頻繁に使用される単語から始めて徐々に実行されます。 このリストがほとんど使い尽くされるとすぐに、情報システムのテキスト配列との別の比較が行われ、頻度が 25 を超える新しい語彙素が選択されると想定されます。次に、閲覧閾値が引き下げられると想定されます。 。 テキスト コレクションには多数のテキスト例が含まれているため、「語彙の革新」に迅速に対応できます (たとえば、 インストール,大ヒット作, ボーモンド, スリラー) を作成し、シソーラス階層システムの適切な場所に含めます。

現在のテキスト コレクションを継続的に使用することで、辞書で提案されている語彙の説明の重要性と品質をチェックするまたとない機会が得られます。 たとえば、この単語の使用頻度が異常に高いなど、 マザー・シー(400回以上)。 配列を確認すると、その単語が実際にその単語の同義語としてよく使用されていることがわかりました。 モスクワ、説明的な辞書では、この単語が時代遅れであるとマークされていることがよくあります。 辞書で古いものとしてマークされている、頻繁に使用される (300 回以上) 単語のもう 1 つの例は、次のような単語です。 至福の.

5.2 単語の意味の説明

テキスト コレクションと比較すると、配列内の頻度単語の多くが、(通常は基本的な) 意味の少なくとも 1 つでシソーラスで適切に表現されていることがわかります。 シソーラスがロシア語の多義語の意味の範囲をどの程度表しているかを調べることが、現時点での私たちの主な課題です。

知られているように、多くの場合、異なる辞書ソースでは多義語の異なる意味が与えられ、意味の濃淡が強調され、同じ種類の多義語が同じ辞書内であっても異なる単語に対して異なる記述がされることがあります。 したがって、語彙素の意味を一貫して代表的に記述する作業は、あらゆる語彙リソースの作成者にとって重要な作業です。

ただし、リソースが自動処理を目的としている場合は、値のバランスの取れた記述のタスクがより重要になります。 過度の値のインフレにより、コンピュータ システムが目的の値を選択できなくなり、自動ワードプロセッサ システムのパフォーマンスが大幅に低下する可能性があります。 したがって、自動文書処理用のリソースとしての WordNet リソースの欠点の 1 つは、一部の単語について記述されている意味の数が多すぎることです (WordNet 1.6 では、53 の意味が含まれています)。 走る、47 遊ぶ等々。)。 これらの意味は、テキストに意味論的な注釈を付ける場合、人間にとってさえも区別するのが困難です。 コンピュータ システムも適切な値の選択に対応できないことは明らかです。 したがって、さまざまな作成者が、処理品質を向上させるために値を組み合わせるさまざまな方法を提案しています。

同時に、反対の要因が働きます。つまり、辞書接続のセット (この場合はシソーラス接続) で意味が実際に異なる場合、それらを 1 つの単位 (1 つの概念) に貼り付けることができません。これもまた、意味の低下につながります。自動処理の品質。

言葉の例を挙げてみましょう 学校そして 教会、それぞれは組織および建物として考えることができます。

各学校組織には建物 (ほとんどの場合は 1 つ) があります。 校舎のあらゆる部分(教室、黒板)は、 学校組織のあり方。 特定の校舎の種類はありません。 したがって、説明は 学校建築物として、別の概念に分離することは不適切です。 しかし、そのような集合的な概念の説明は、 学校組織として、そして建物として、コンセプトと特別に設計された関係がなければなりません。 建物。 シソーラスでそのような関係を記述する場合、関係に関するマーク、つまり修飾語「A」(「側面」。自動分析中、この関係を考慮するために他の概念による「確認」が必要です)が使用されます。

学校

より高い 教育機関

Aの上 公共の建物

対応する単語の意味 教会それほど近くない。 教会組織として、さまざまな場所に多数の教会の建物を持つことができ、また他の多くの建物も持つことができます。 教会建設宗教と告白に密接に関係していますが、所属が変わる可能性があります 教会組織. 教会組織そして 教会建設異なる亜種があります。 それが理由です 教会(組織)) そして 教会(建物) RuTez ではさまざまな概念として表示されます。

シソーラスの接続における大きな相違は、意味に対応する表示が互いに別々に存在する能力と興味深い形で相関しています。 したがって、教会の建物は、学校の建物とは異なり、用途が変わっても存在しなくなることはなく、教会とさえ呼ばれます。

シソーラス内の値の表現を検証するプロセスは、最も頻繁に使用される補題から始めて常に進行中です。 頻度語彙素ごとに、その意味が説明辞書でどのように記述されているか、コレクションでどのような意味が使用されているか、シソーラスでどのように表示されているかがチェックされます。 その結果、現在 10,000 の語彙素のリストが作成されていますが、そのあいまいさには依然として追加の分析または追加の説明が必要です。 このリストは、最も頻繁に使用される 30,000 の補題に基づいて取得されました。

シソーラスでは、単語の異なる意味の間でシソーラスの接続を記述できるため、多義性の問題が部分的に除去され、したがって階層内の最上位の概念がデフォルトで選択できることに注意してください。 それは間違いなく本文で議論されました。 たとえば、この言葉は、 写真「活動の場としての写真」、「写真画像としての写真」、「写真スタジオとしての写真」という3つの意味があります。

写真(撮影, 写真事業, ..., 写真 )

一部 写真画像

(写真, 写真, 写真 )

一部 フォトスタジオ (写真 ).

したがって、その単語がどのような意味で使用されているかを理解することができなかった場合は、 写真の場合、デフォルトでは、写真 (プロセス、結果、または場所) が撮影されたと想定されます。これは、多くの自動テキスト処理アプリケーションには十分です。

  1. RuTez シソーラスの適用

自動テキスト処理用

1995 年以来、社会政治用語 RuTez (社会政治シソーラス) は、自動概念索引付け、複数のルブリケーターを使用した自動ルブリケーション、英語を含むテキストの自動注釈など、自動テキスト処理のさまざまなアプリケーションに積極的に使用され、成功してきました。もの。 社会政治シソーラス (27,000 の概念、62,000 のテキスト項目) は、UIS RUSSIA 検索システム (www.cir.ru) の基本的な検索ツールです。

RuTez シソーラスのすべての語彙は、複雑な階層ルブリケーターを使用してテキストを自動的に分類する手順で使用されます。 既存のテクノロジーでは、各カテゴリは用語のブール表現として記述され、その後、元の式がシソーラス階層に沿って展開されます。 結果として得られるブール式には、すでに数百、数千の論理積と論理和が含まれている可能性があります。

例として、VTsIOM が世論調査アンケートを分類するために使用する SOFIST 2 ルブリケーターの「女性のイメージ」ルーブリックのシソーラス概念 (および公式を拡張した後の言語表現) を使用した記述の一部を示します。

(女性[N]

|| ガール[N]

|| 親戚 [L] (祖母、孫娘、いとこ、

娘、義理の妹、母親、継母、義理の娘、継娘、...))

(性格特性[L] (倹​​約家、無情、忘れっぽい、

軽薄、嘲笑、不寛容、社交的、...)

|| IMAGE [E] (プレゼンテーション、外観、外観、

外観、外観、イメージ、外観)

|| PLEASANT [L] (...、面白い、美しい、かわいい、

魅力的、かわいい、魅力的、...)

|| UNPLEASANT[L] (同情的でない、無礼な、意地悪な、...)

|| APPRECIATE[L] (尊敬する、崇拝する、崇拝する、

崇拝、崇拝、...)

|| 優先[N]

記号「E」はシソーラス階層に沿った完全な拡張を示し、記号「L」は種の関係に従って (「以下」)、記号「N」は拡張しないことを示します。

シソーラスの知識と機械学習手順を組み合わせた、自動テキスト分類のための複合テクノロジーを開発する研究が行われています。

自然言語で作成されたクエリを拡張するためにシソーラスを使用する問題が検討されています (現在、UIS RUSSIA の情報検索システムで用語クエリを拡張するためにシソーラスの社会政治的部分のみが使用されています)。大規模なテキストコレクション内の質問への回答。

7. 結論

この論文では、大規模なテキスト コレクションを自動処理するための言語リソースを開発する基本原則を示します。 作成された言語リソース - ロシア語 RuTez のシソーラス - は、文書の概念インデックス作成、複雑な階層ルブリケーターを使用した自動ルブリケーション、自然言語クエリの自動拡張などの自動テキスト処理アプリケーションでの使用を目的としています。

この研究は、ロシア人道財団助成金番号 00-04-00272a によって部分的に支援されています。

文学

  1. Lukashevich N.V.、Saliy A.D.、自動テキスト処理システムにおける知識の表現 //NTI、Ser.2。 1997. No. 3. P. 1-6。
  2. Zhuravlev S.V.、Yudina T.N.、情報システム RUSSIA //NTI、Ser.2。 1995. No. 3. P. 18-20。
  3. Winston M.、Chaffin R.、Herman D.、部分と全体の関係の分類 // 認知科学。 1987年。いいえ。 11. P. 417‑444。
  4. Priss U.E.、関係概念分析の方法による WordNet の形式化 // WordNet。 電子語彙データベース/編 C.フェルバウム著。 ケンブリッジ、マサチューセッツ、ロンドン、イギリス: MIT Press 1998。P. 179‑196。
  5. Guarino N.、Welty C.、プロパティの形式的オントロジー // オントロジーと問題解決方法のアプリケーションに関する ECAI-00 ワークショップの議事録。 ベルリン: 2000。P. 121-128。 (http://citeseer.nj.nec.com/guarino00formal.html)。

上位レベルの語彙リソースを設計するためのいくつかのオントロジー原則 // First Int. 会議 言語リソースと評価について。 1998年。

  1. Lukashevich N.V.、Dobrov B.V.、自動インデックス作成のためのシソーラスの概念関係の修飾子 // NTI、Ser.2。 2000 年、第 4 号、21 ~ 28 ページ。
  2. ロシア語大解説辞典 / 編 SA クズネツォワ。 サンクトペテルブルク: ノリント、1998 年。
  3. Ozhegov S.I.、Shvedova N.Yu.、ロシア語解説辞典 - 第 3 版。 M.: アズ、1996 年。
  4. Apresyan Yu.D.、厳選作品、第 1 巻。語彙意味論: 第 2 版。 M.: 学校「ロシア文化の言語」、編。 『東洋文学』RAS社、1995年。
  5. G. ミラー、R. ベックウィズ、C. フェルバウム、D. グロスおよび K. ミラー、WordNet に関する 5 つの論文、CSL レポート 43。プリンストン大学認知科学研究所、1990 年。
  6. Chugur、J. Gonzalo、F. Verdjeo、NLP アプリケーションにおける区別の区別 // 「OntoLex-2000」の議事録: オントロジーと語彙知識ベース。 ソフィア: OntoTextLab。 2000年。
  7. Loukachevitch N.、Dobrov B.、多言語情報システムにおけるシソーラスベースの構造テーマの概要 // 機械翻訳レビュー。 2000年。 11. P.10‑20。 (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm)。

自然言語処理用のロシア語シソーラス

大規模なテキストコレクションの

ナタリア・V・ルカチェビッチ、ボリス・V・ドブロフ

キーワード:シソーラス、自然言語処理、情報検索

私たちのプレゼンテーションでは、大規模なテキストコレクションを自動処理するための語彙リソースを開発する主な原則を検討し、特に自動テキスト処理用のツールとして 1997 年以来開発されたロシア語シソーラスの構造について説明します。 現在、シソーラスは 42,000 の概念の階層的なネットです。 私たちは、シソーラス開発の現在の段階を、ロシア大学情報システム (www.cir.ru) のテキスト コレクション (40 万件の文書を含む) の最も頻繁に使用される 10 万件の見出し語と比較しながら説明します。 また、自動テキスト処理のさまざまなアプリケーションでのシソーラスの使用についても検討します。

このセクションは非常に使いやすいです。 表示されたフィールドに希望の単語を入力するだけで、その意味のリストが表示されます。 私たちのサイトは、百科事典、説明辞書、語形成辞書など、さまざまなソースからデータを提供していることに注意してください。 ここでは、入力した単語の使用例も表示されます。

類語辞典という言葉の意味

クロスワード辞書のシソーラス

ロシア語の解説辞典。 S.I.Ozhegov、N.Yu.Shvedova。

シソーラス

[て]、-a、m(特殊)。

    すべての語彙を完全に反映することを目的とした言語の辞書。

    ある種の用語や概念を完全にカバーする辞書またはデータ本体。 特別なフィールド。

    形容詞 シソーラス、-aya、-oe。

ロシア語の新しい説明辞書、T. F. Efremova。

シソーラス

    ある種の辞書 言語、その語彙を完全に表現したもの。

    何かに関する完全に体系化されたデータのセット。 (コンピューター サイエンスにおいて) 人間またはコンピューターがそれをナビゲートできるようにする知識の分野。

百科事典、1998

シソーラス

THESAURUS (ギリシャ語の類義語辞典から - 宝物)

    言語の単語がテキスト内での使用例とともに可能な限り完全に示されている辞書 (これは死んだ言語に対してのみ完全に実行可能です)。

    あらゆる知識分野に関係する単語を主題別に整理し、語彙単位間の意味関係(属-種、同義語など)を示した辞書。 情報検索シソーラスでは、テキストの語彙単位が記述子に置き換えられます。

シソーラス

(ギリシャ語の類語辞典 ≈ 宝物、宝物庫に由来)、その中で指定された意味論的 (意味論を参照) 関係のシステムを持つ言語の意味論的単位のセット。 T. は実際に言語 (国語、特定の科学の言語、または自動制御システム用に形式化された言語) の意味論を決定します。 当初、T. は単言語辞書として考えられており、単語をテーマ別の見出しにグループ化することで意味関係が決定されます。 たとえば、1962 年に出版された English T. (著者 P. M. Roget) (初版 1852 年) には 1,040 の見出しが含まれており、その中に約 240,000 の単語が含まれています。 この T. へのインデックス (キー) には、各単語が属する見出しと小見出しを示す単語のアルファベット順のリストが含まれています。 英語、フランス語、スペイン語には、伝統的な一般言語テキスト (個々の言語の意味体系の説明) があります。 各単語の基本的な意味パラメータの表現を指定する単言語辞書は、T. に非常に近いものです。たとえば、S. I. Ozhegov によるロシア語辞書です。

70年代 20世紀 情報検索システムは、特殊な語彙単位である記述子を識別して、文書情報を自動的に検索するために使用されるようになりました。 このような T. の各単語は同義の記述子 (「同義語」を参照) に関連付けられており、記述子の意味関係が明示的に示されています: 属 ≈ 種、部分 ≈ 全体、目標 ≈ 手段など。通常はこれらを区別するのが通例です。属固有の (階層的) 関係と関連関係。 したがって、1973 年にソ連で出版された「コンピュータ サイエンスにおける情報検索シソーラス」では、各記述子に対して辞書エントリが提供され、同義のキーワード、一般的、特定的、および連想的な記述子が個別に示されています。 記述子間の結合接続をより適切に方向付けるために、テーマ別クラスの意味マップがこの T に添付されます。 自動情報取得中に、インデックスにクエリ記述子だけでなく、クエリ記述子と特定の意味関係にある記述子も含まれるドキュメントが検索されます。 病気 ≈ 病原体、デバイス ≈ 目的 (または測定値) など、特定のテーマ領域に固有の語彙内の特定の連想関係を強調すると便利な場合があります。 語彙内の語彙単位 (単語、フレーズ) の位置言語におけるその意味を特徴づけます。 特定の単語が含まれる意味関係のシステム (その単語が含まれるカテゴリーを含む) を知ることで、この単語の意味を判断できるようになります。

広い意味では、T. は、個々の情報伝達者または伝達者のグループが所有する現実に関する知識システムの記述として解釈されます。 この媒体は追加情報の受信者の機能を実行でき、その結果、その T も変化し、意味情報を受信するときの受信者の能力が決まります。 心理学や人工知能を備えたシステムの研究では、情報の認識と理解に現れる個人の特性が考慮されます。 社会学とコミュニケーション理論では、コミュニケーションの共通性に基づいて相互理解の可能性を確保する、個人とグループのコミュニケーションの特性を研究します。このような状況では、コミュニケーションには、ストックを決定する複雑なステートメントとその意味的つながりが含まれる必要があります。複雑なシステムで利用できる情報の量。 実はT.には現実に関する情報だけでなく、メタ情報(情報に関する情報)も含まれており、それによって新たなメッセージを受け取ることが可能となります。

直訳: Cherny A.I.、シソーラス構築のための一般的な方法論、「科学的および技術的な情報。 サー。 2」、1968、╧5; Varga D.、情報シソーラスを作成するための方法論、トランス。 [ハンガリー語から]、M.、1970年。 Shreider Yu. A.、コンピューターサイエンスと理論的意味論のシソーラス、「科学および技術情報。 サー。 2」、1971 年、╧ Z.

ユウ・A・シュレーダー。

ウィキペディア

シソーラス

シソーラス、一般的な意味では - 特別な用語、より厳密かつ具体的には - 辞書、情報の集合体、コーパスまたはコードであり、正確な語彙に貢献する特別な知識分野または活動分野の概念、定義、および用語を完全に網羅しています。企業コミュニケーション。 現代言語学において - 語彙単位間の意味関係 (同義語、反意語、同義語、下位語、上位語など) を示す特別なタイプの辞書。 シソーラスは、個々の主題分野を説明するための最も効果的なツールの 1 つです。

説明辞書とは異なり、シソーラスを使用すると、定義だけでなく、単語を他の概念やそのグループと関連付けることによって意味を特定できるため、人工知能システムの知識ベースを埋めるために使用できます。

過去にはこの用語 シソーラスほとんどの場合、テキストでの使用例とともに言語の語彙を最大限の完全性で表現する辞書が指定されました。

また、用語 シソーラス情報理論において、主体が持つすべての情報の全体を表すために使用されます。

心理学では、個人のシソーラスは情報の認識と理解によって特徴付けられます。 コミュニケーション理論では、要素が相互作用する複雑なシステムの一般シソーラスも考慮します。

シソーラス (曖昧さ回避)

シソーラス:

  • シソーラスは辞書であり、特別な知識分野または活動分野の概念、定義、用語を網羅する情報のコレクションです。
  • Roger's Thesaurus は、歴史上最初の辞書の 1 つであり、現在最も有名な表意文字辞書です。

文学におけるシソーラスという単語の使用例。

知覚と共創のために、ある最適な シソーラス、小さくはありませんが、大きすぎません。

流入する情報量は無制限で、 シソーラス、その値はこの量に依存せず、完全に決定されます。 シソーラスオーム

芸術の多様性と体系的な性質により、作品全体の認識が不均一になります。詩のいくつかの側面の認識については、 シソーラス最適な場合もあれば、不十分な場合や大きすぎる場合もあります。

なぜなら シソーラス成長し、変化していく中で、作品を再認識することは、新たな貴重な情報を獲得することを意味します。

大好きなおとぎ話を何度も読み返したいという子供の願望は理解できます。 シソーラスは急速に成長しており、共同創造と連想ファンタジーの能力は特に優れています。

問題のこの側面は、より変化しやすく主観的です。 シソーラス、そして作品の客観的な美的評価を求めて、それは最小限に抑えられるべきです。

彼は浸透します シソーラス詩人と翻訳者に宛てて シソーラス外国語の読者より。

最も重要なことは、サイズを決定することです シソーラス、T.

いや、ただ彼自身の荷物が少なく、未熟なだけだ。 シソーラスまだ初期段階にあり、彼がそれを理解していない場合は、 シソーラス増加する必要がある場合、いずれにせよ、この女性は彼と一緒に苦労するでしょう。

リッチ シソーラス真の知識に基づいて、人は、最も近い人との最も密接なコミュニケーションを含め、他の人とのコミュニケーションにおいて、何が起こっても正しく反応できるようになります。

情報の価値は増加に伴い低下するのは明らかです。 シソーラス関係に依存する必要があります シソーラス受け取る情報量に応じて。

明らかに、芸術的情報の最適な値は近接性に対応します。 シソーラス読者と シソーラス詩人。

共創には創造性と同様、インスピレーション、つまりインクルージョンが必要であると言えます。 シソーラス言葉の広い意味で。

既存の枠内でありながら、明るい映像と明るいサウンドを内面的に繰り返す。 シソーラス、同じ美的瞬間の繰り返しでそれを豊かにします。

この時点で シソーラスナボコフとプリシュヴィンはプラトーノフの対蹠者とみなされるべきであり、マリーナ・ツヴェターエワはプラトーノフに似ていると考えることができる。

、反意語、同義語、下位語、上位語など)語彙単位間の区別。 シソーラスは、個々の主題分野を説明するための最も効果的なツールの 1 つです。

過去にはこの用語 シソーラスほとんどの場合、テキストでの使用例とともに言語の語彙を最大限の完全性で表現する辞書が指定されました。

また、用語 シソーラス情報理論において、主体が持つすべての情報の全体を表すために使用されます。

心理学では、個人のシソーラスは情報の認識と理解によって特徴付けられます。 コミュニケーション理論では、要素が相互作用する複雑なシステムの一般シソーラスも考慮します。

最初のシソーラスの 1 つは、ビブロスのフィロによる「同義語辞典」と呼ばれるものです。 この用語に正確に対応するのは、6 世紀にサンスクリット語で詩的な形で書かれた『アマラ・コーシャ』です。 最初の現代英語類義語辞典は、1805 年にピーター マーク ロジャーによって作成されました。 1852年に出版され、それ以来再版されることなく使用されています。

1970 年代に、シソーラスは情報検索タスクに積極的に使用され始めました。 このようなシソーラスでは、単語が記述子にマッピングされ、それを通じて意味上のつながりが確立されます。

シソーラス

こちらも参照

記事「シソーラス」についてレビューを書く

ノート

シソーラスの特徴を示す抜粋

- 今日のあなたはなんてダンディなんでしょう! – ネスヴィツキーは、新しいマントとサドルパッドを見ながら言いました。
デニソフは微笑み、カートから香水の匂いがしたハンカチを取り出し、ネスヴィツキーの鼻に突っ込んだ。
- 無理です、仕事に行きます! 外に出て歯を磨き、香水をつけました。
コサックを従えたネスヴィツキーの威厳ある姿と、サーベルを振って必死に叫ぶデニソフの決意は、橋の向こう側に体を寄せて歩兵を足止めするほどの効果をもたらした。 ネスヴィツキーは出口で大佐を見つけ、彼に命令を伝える必要があり、彼の指示を履行して戻った。
道路を空けたデニソフは橋の入り口で立ち止まった。 自分のほうに突進して蹴りを入れてくる牡馬を何気なく抑えながら、彼は自分に向かってくる戦隊を眺めた。
まるで数頭の馬が疾走しているかのような透明なひづめの音が橋の板に沿って聞こえ、士官を前に四列に並べた戦隊が橋に沿って伸び、反対側から姿を現し始めた。
橋の近くで踏み固められた泥の中に群がり、足を止めた歩兵たちは、軍のさまざまな部門が通常遭遇する特別な疎外感と嘲笑という特別な非友好的な感情を抱きながら、きれいで粋な軽騎兵が調和して通り過ぎていくのを眺めた。
- 賢い人たちよ! それがポドノヴィンスコエにあれば!
- 何が良いのですか? 彼らはショーのために運転しているだけです! -別の人が言いました。
- 歩兵よ、埃をかぶるな! -軽騎兵は冗談を言い、その下で馬が遊んで歩兵に泥をはねかけました。
「もし私があなたをリュックサックで二回も行進させていたら、靴紐は擦り切れていたでしょう」と歩兵は袖で顔の汚れを拭きながら言った。 - そうでなければ、それは人ではなく、鳥が座っています。
「ジキン、君が敏捷だったら馬に乗せてあげられたらなあ」と伍長はバックパックの重みでかがみこんでいるやせた兵士について冗談を言った。
「棍棒を足の間に挟めば馬が手に入るよ」軽騎兵は答えた。

残りの歩兵は橋を急いで渡り、入り口で漏斗を形成した。 ついにすべての荷車が通過し、衝突は少なくなり、最後の大隊が橋に入った。 デニソフの戦隊の軽騎兵だけが橋の向こう側に残って敵に対抗した。 敵は、反対側の山から、下から、橋から遠くに見えていましたが、川が流れる渓谷からは、地平線が0.5マイルも離れていない反対側の標高で終わっていたため、まだ見えませんでした。 前方には砂漠があり、それに沿ってあちこちで旅行中のコサックのグループが移動していました。 突然、道の反対側の丘に、青い頭巾をかぶった軍隊と大砲が現れました。 これらはフランス人でした。 コサックのパトロール隊は下り坂を小走りで去った。 デニソフの戦隊の士官全員は、部外者について話したり周囲を見回そうとしたにもかかわらず、山の上に何があるのか​​だけを考えることをやめず、敵の軍隊であると認識した地平線上の点を常に見つめていました。 午後には天気も回復し、ドナウ川とそれを囲む暗い山々に太陽が明るく沈みました。 静かで、その山からは時折角笛の音や敵の叫び声が聞こえてきました。 小規模な巡回を除いて、戦隊と敵の間には誰もいなかった。 三百尋の何もない空間が彼らと彼を隔てていた。 敵は射撃をやめ、敵の両軍を隔てる厳格で脅威的で難攻不落でとらえどころのない境界線がよりはっきりと感じられた。
「この線を一歩越えると、生者と死者を隔てる線、そして未知の苦しみと死を彷彿とさせます。 そしてそこには何があるのでしょうか? そこには誰がいますか? この野原の向こう、木々、そして太陽に照らされた屋根はあるだろうか? 誰も知りません、そして私は知りたいです。 そして、この一線を越えるのは怖いし、越えたいと思うのです。 そして、死の向こう側に何があるのか​​を知ることが避けられないのと同じように、遅かれ早かれそれを越えて一線の向こう側に何があるのか​​を見つけなければならないことをあなたは知っています。 そして彼自身も強く、健康で、陽気でイライラしており、そのような健康でイライラするほど活発な人々に囲まれています。」 たとえ彼が考えていなくても、敵の視界に入ったすべての人はそれを感じます、そしてこの感覚は、この数分間に起こるすべてのものに特別な輝きと楽しい印象の鮮明さを与えます。
砲弾の煙が敵の丘に現れ、砲弾が笛を吹きながら軽騎兵中隊の頭上を飛んだ。 一緒に立っていた警官たちはそれぞれの場所に向かいました。 軽騎兵たちは慎重に馬をまっすぐにし始めた。 戦隊内のすべてが沈黙した。 誰もが前方の敵と中隊の指揮官を見つめ、指示を待っていました。 また3発目の砲弾が飛んできた。 彼らが軽騎兵に向けて発砲していたことは明らかである。 しかし砲弾は均等に速く笛を吹きながら軽騎兵の頭上を飛び、背後のどこかに命中した。 軽騎兵は振り返らなかったが、まるで命令されているかのように砲弾が飛んでいく音ごとに、単調に変化に富んだ顔を持つ中隊全体が、砲弾が飛んでいる間息を殺し、あぶみで立ち上がり、再び倒れた。 兵士たちは振り向かずにお互いを横目で見つめ、仲間の印象を不思議そうに探していた。 デニソフからラッパ手まで、どの顔にも、唇と顎の近くに、闘争、苛立ち、興奮の共通の特徴が現れました。 軍曹は眉をひそめ、兵士たちを見回し、あたかも罰を与えると脅しているかのようだった。 ユンカー・ミロノフは砲弾が通過するたびにかがんだ。 ロストフは、足が触れているものの目立つグラチクの上で左脇腹に立っており、自分が優れていると確信している試験のために大勢の聴衆の前に呼び出された学生のような幸せな表情をしていた。 彼はまるで砲弾の下でいかに冷静に立っているかに注意を払うかのように、皆をはっきりと明るく見つめました。 しかし、彼の顔にも、彼の意志に反して、何か新しくて厳しいものと同じ特徴が口の近くに現れました。
-そこでお辞儀をしているのは誰ですか? ユンケグ「ミグオン」! ヘクソッグ、見てください! - デニソフは叫び、立ち止まることができず、戦隊の前で馬の上で回転しました。
バスカ・デニソフの鼻の低い黒髪の顔と、引き抜かれたサーベルの柄を握る筋張った(短い指が髪の毛で覆われている)手で打ちのめされた小柄な姿全体は、いつもとまったく同じだった。特に夕方、ボトルを2本飲んだ後。 彼はいつもより赤くなっただけで、酒を飲む鳥のように毛むくじゃらの頭を上に上げ、小さな足で容赦なく善良なベドウィンの脇腹に拍車を押し込み、まるで後ろに倒れるかのように、ベドウィンの反対側の側面に疾走した。戦隊に向かってピストルを調べろとしわがれた声で叫んだ。 彼はキルスティンのところまで車で行きました。 本部の船長は、幅広で落ち着いた牝馬に乗って、デニソフに向かって速いペースで馬を走らせた。 長い口ひげを生やした参謀長は、いつものように真剣な表情で、目だけがいつもより輝いていた。
- 何? - 彼はデニソフに言った、 - 戦いにはならないだろう。 わかるでしょう、戻ります。
「彼らが何をしているのか誰にも分からない」デニソフは「ああ、G!」とつぶやいた。 -彼は士官候補生の陽気な顔に気づいて叫びました。 - さて、待っていました。
そして彼は満足そうな笑みを浮かべ、どうやら士官候補生を見て喜んでいるように見えた。
ロストフは完全に幸せを感じた。 この時、酋長が橋の上に現れた。 デニソフは彼に向かって疾走した。
- 閣下! 攻撃させてください! 私が彼らを殺します。
「どんな攻撃があるんだろう」と署長はうんざりした声で言った、まるで迷惑なハエにでもされたかのように顔をしかめた。 - それで、なぜここに立っているのですか? フランカーが後退していることがわかります。 中隊を率いて戻ってください。
中隊は一人の命も失うことなく橋を渡り、銃撃を逃れた。 彼に続いて、鎖にいた第2戦隊が渡河し、最後のコサックがその側を追い払った。
パブログラード住民の2個中隊が次々に橋を渡り、山に戻った。 連隊司令官カール・ボグダノヴィッチ・シューベルトはデニソフの戦隊に車で近づき、前回のテリャニンをめぐる衝突の後、彼らは今回初めて顔を合わせたにもかかわらず、ロストフに何の注意も払わずに、ロストフからそう遠くない速度で走った。 ロストフは、今では自分が有罪であると考えている男の力で自分が前線にいると感じながら、連隊長の運動的な背中、金髪のうなじ、赤い首から目を離さなかった。 ロストフにはボグダニッチが不注意を装っているだけで、今の彼の目的は士官候補生の勇気を試すことであるように思えた。そして彼は背筋を伸ばして元気よく周りを見回した。 そのとき彼には、ボグダニッチがロストフに勇気を示すために意図的に馬に近づいているように見えた。 それから彼は、敵が今度はロストフを懲らしめるために、意図的に中隊を送り込んで決死の攻撃を仕掛けてくるだろうと考えた。 攻撃の後、彼は負傷した彼に近づき、寛大に和解の手を差し伸べると思われていた。



記事は気に入りましたか? 友達とシェアしましょう!