小嶋秀樹 | 授業情報 | 研究室
日本語 | English
CareBots Project | Myutanz Project | BeatBots Project
計算言語学(computational linguistics)
【単語間の意味的な類似度】

2つの英単語 w, w' 間の類似度σ(w, w') は,意味的な関連度に応じて 0〜1 の値(関連が強ければ大きな値)をとります.この類似度σは,英語辞書から自動生成した意味ネットワーク上の活性伝搬によって計算されます.

σ ( waiter, restaurant )  = 0.175699
σ ( computer, restaurant ) = 0.003268
σ ( red, orange ) = 0.264262
σ ( red, blood ) = 0.111443
σ ( green, blood ) = 0.002268
σ ( dig, spade ) = 0.116200
σ ( fly, spade ) = 0.003431

具体的には,英語辞書(LDOCE)の見出し語をノードとし,語義定義に現われる単語をリンクに変換します.この意味ネットワーク上で,ノードw から〈エネルギー〉を伝搬させ,ノードw' が受け取った〈エネルギー〉を観察し,その値を類似度σとしています.(下図は,この活性伝搬の様子を,縦軸を〈エネルギー〉・横軸を時間として表わしたものです.)

図:意味ネットワークのノードredから活性が伝搬していく様子

この類似度σは,テキスト言語学でいう lexical cohesion にあたるものです.これによってテキストの意味を数量化し,コンピュータによる意味処理,に信号処理や統計処理の手法を応用できるようにしました.

おもな論文・著書──

【テキスト=セグメンテーション】

〈テキスト=セグメンテーション〉とは,ベタ書きのテキスト(ニュース記事や物語などの文章)を意味段落に区切っていくことです.区切りを見つける方法はいろいろ考えられますが,上記の〈単語間の意味的な類似度〉を利用した方法を考案しました.

図:LCPがテキストの意味段落境界で極小値をとる様子

原理は簡単です.テキスト(単語列)の上を移動する〈窓〉を用意します.この〈窓〉からは(一定語数の)部分列が見えます.この部分列に含まれる各単語間の平均類似度Σを計算し,その窓の位置にプロットすることで,グラフ(赤線)──LCP (Lexical Cohesion Profile) と呼びます──が得られます.〈窓〉が意味段落の内部にあればグラフは高い値を保ちます.〈窓〉が意味段落の境界上にあれば,その〈窓〉から見える部分列は意味的な一貫性を失うため,グラフは極小値をもつようになります.つまり,グラフの極小点から,テキストの意味的な区切りを見つけられるわけです.

おもな論文・著書──

【単語間の文脈依存的な類似度】

単語間の類似度は文脈によって変化します.たとえば,bus から何を連想するかを考えた場合,エンジニアは engine や wheel を連想し,旅行者は tourist や timetable を連想するでしょう.そこで,文脈を単語集合 C として与え,その文脈の意味的な分布を考慮して,C から意味的に関連した単語を連想する手法を考えました.

たとえば以下の例にあるように,文脈 C = {bus, car, railway} としたとき,この手法によって C から連想された単語群(連想度順にソート)には,motor や wheel や engine などの単語がみられます.

{bus, car, railway} →
car, bus, motor, carriage, motor, passenger, vehicle, garage, road, inside, wheel, engine, ...
{bus, scenery, tour} →
bus, scenery, tour, abroad, tourist, passenger, make, everywhere, garage, set, machinery, something, timetable, ...
{read, magazine, paper} →
paper, read, magazine, newspaper, print, book, print, wall, something, article, specialist, that, ...
{read, machine, memory} →
machine, memory, read, computer, remember, someone, have, that, instrument, feeing, that, what, ...

おもな論文・著書──