3 PDF

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 26

⾃然⾔語処理

第3回「形態素解析(2)」

Yoko Nishihara (c) 2018- 51


前回の復習
■ ⾔語の階層的構成
– ⽂章à⽂à単語(形態素)
■ 形態素解析
– 何をするか
■ ⽂字の並び(である⽂)を形態素あるいは語に分割す

■ 語(や形態素)の品詞,活⽤形,基本形を明らかにす

■ 制約適⽤処理︓考えられる候補を全て列挙する
■ 単語辞書、連接可否表、ラティス

Yoko Nishihara (c) 2018- 52


復習︓制約適⽤処理の結果

にあっ
動詞
たべもの 体質 (似合う)
名詞 名詞 た
(⾷べ物) (たいしつ) に 助動詞
⽂頭 が 動詞 ⽂末
助詞 (似る) あっ
たべ もの 体 質 動詞
動詞 名詞 名詞 名詞 (合う)
(⾷べる) (物) (からだ) (しつ) に
助詞

候補が複数個あるので、2段階⽬の処理を⾏い絞り込む

Yoko Nishihara (c) 2018- 53


本⽇の内容
■ 選好適⽤処理(形態素解析の2段階⽬の処理)
– 最⻑⼀致法
– 形態素数最⼩法
– ⽂節数最⼩法
– コスト最⼩法
■ コスト最⼩法
– 単語コスト
– 連接コスト

Yoko Nishihara (c) 2018- 54


選好適⽤処理(形態素解析の2段階⽬)
■ 複数の候補がある場合に、もっともらしい形態素の並びを絞り込む
■ 形態素の並びとして優先される規則を⽤いる
■ (1) 最⻑⼀致法
– ⽂字数の多い語を優先(縦型探索)
■ (2) 形態素数最⼩法
– 語数の少ない解を優先
■ (3) ⽂節数最⼩法
– ⽂節数(=⾃⽴語数)の少ない解を優先
■ (4) コスト最⼩法
– 語の品詞,語の連接それぞれにコストを設け,その和の⼩さい解を
優先
– コストの定義により,形態素数最⼩法や⽂節数最⼩法と類似の振る
舞い

Yoko Nishihara (c) 2018- 55


(1) 最⻑⼀致法
■ ⽂字数の多い語を優先する
– 要は、⼀単語が⻑い⽅が良いとする⽅法

体質
「体」よりも「体質」の⽅が
名詞
(たいしつ) 良いとする

体 質
名詞 名詞
(からだ) (しつ)

Yoko Nishihara (c) 2018- 56


演習︓「てれびがおおきい」
■ (1) てれび が おおきい
■ (2) て れび が おお きい

■ 最⻑⼀致法では(1)が優先される
■ (1) の形態素の平均⻑は︖
■ (2) の形態素の平均⻑は︖

Yoko Nishihara (c) 2018- 57


(2)形態素数最⼩法
■ 語数の少ない解を優先
– 要は、⼀⽂中の単語数が少ない⽅が良いとする⽅法
– 「たべもの が 体質 に あっ た」○
– 「たべ もの が 体 質 に あっ た」︖

Yoko Nishihara (c) 2018- 58


演習︓「てれびがおおきい」
■ (1) てれび が おおきい
■ (2) て れび が おお きい

■ 形態素数最⼩法では、どちらが優先されるか︖
■ (1)と(2)の形態素数は何個か︖

Yoko Nishihara (c) 2018- 59


(3) ⽂節数最⼩法
■ ⽂節数(=⾃⽴語数)の少ない解を優先
– ⽂節数を語数に置き換えれば、(2)の形態素数
最⼩法と同じ
■ ⾃⽴語とは何だったか︖
– 単語︓⾃⽴語(名詞、動詞など)と付属語
(助詞、助動詞)

Yoko Nishihara (c) 2018- 60


例︓「てれびがおおきい」
■ (1) てれび が おおきい = テレビ が ⼤きい
■ (2) て れび が おお きい = ⼿ れび が おお
きい

■ ⽂節数最⼩法では、どちらが優先されるか︖
■ (1)と(2)の⽂節数はそれぞれ何個か︖

Yoko Nishihara (c) 2018- 61


上の(1)から(3)の⽅法では判断が難しい例
■ 「ここではきものをぬぐ」@⽞関や下駄箱
■ (1) ここ では きもの を ぬぐ
■ (2) ここ で はきもの を ぬぐ

■ 最⻑⼀致法、形態素数最⼩法、⽂節数最⼩法のいずれで
も差がつかない
■ ⽂脈から考えると、(2)が妥当そう
■ 妥当さを何らかの数値で表現したい

Yoko Nishihara (c) 2018- 62


(4) コスト最⼩法
■ 語の品詞,語の連接それぞれにコストを設け,その和の
⼩さい解を優先
– ラティス内の語と語をつなぐ連接に数値を与えて、
その和を求める
にあっ
動詞
たべもの 体質 (似合う)
名詞 名詞 た
(⾷べ物) (たいしつ) に 助動詞
⽂頭 が 動詞 ⽂末
助詞 (似る) あっ
たべ もの 体 質 動詞
動詞 名詞 名詞 名詞 (合う)
(⾷べる) (物) (からだ) (しつ) に
助詞

Yoko Nishihara (c) 2018- 63


単語コストと連接コスト
■ 単語コスト(尤度)
– ある単語の現れにくさ(やすさ)
■ 連接コスト(尤度)
– ある単語(のクラス)とある単語(のクラス)が連接す
ることの尤もらしくなさ(尤もらしさ)
にあっ
動詞
体質
名詞
(似合う)
コスト = 尤度の逆数
(たいしつ) に
動詞
コスト最⼩ = 尤度最⼤
(似る) あっ
体 質 動詞
名詞 名詞 (合う)
(からだ) (しつ) に
助詞

Yoko Nishihara (c) 2018- 64


単語コストと連接コストの例
$30
にあっ
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10

単語コスト︓単語辞書に記述
連接コスト︓連接可否⾏列に記述

Yoko Nishihara (c) 2018- 65


コストの逆数が尤度

単語尤度付き単語辞書
見出し 品詞 品詞細分類 活⽤形 基本形 読み 単語尤度
頭 名詞 ⼀般 --- 頭 あたま 0.6
薬 名詞 ⼀般 --- 薬 くすり 0.6
頭痛 名詞 ⼀般 --- 頭痛 ずつう 0.4
でなおし 名詞 ⼀般 --- 出直し でなおし 0.3
飲み薬 名詞 ⼀般 --- 飲み薬 のみぐすり 0.4
でる 動詞 ⾃⽴ 終⽌形 出る でる 0.6
でなおす 動詞 ⾃⽴ 終⽌形 出直す でなおす 0.4
なおす 動詞 ⾃⽴ 終⽌形 治す なおす 0.6
飲む 動詞 ⾃⽴ 終⽌形 飲む のむ 0.6
で 動詞 ⾃⽴ 連⽤形 出る でる 0.6
でなおし 動詞 ⾃⽴ 連⽤形 出直す でなおす 0.4
なおし 動詞 ⾃⽴ 連⽤形 治す なおす 0.6
飲み 動詞 ⾃⽴ 連⽤形 飲む のむ 0.6
で 助詞 格助詞 --- で で 0.8
を 助詞 格助詞 --- を を 0.8
た 助動詞 --- 終⽌形 た た 0.8
Yoko Nishihara (c) 2018- 66
連接尤度付き連接可否⾏列

⽂ 名 動 助 助 助 助
末 詞 詞 動 詞 詞 詞

:
右側 格 係 接
左側 助 助 続
詞 詞 助

コストの逆数が尤度
⽂頭 0.8 0.4
名詞 0.3 0.6 0.2 0.8 0.8
動詞:終⽌形 0.8 0.6 0.6
動詞︓連⽤形 0.2 0.5 0.4 0.8
助動詞:終⽌形 0.8 0.6 0.6
助詞:︓格助詞 0.8 0.8 0.5

Yoko Nishihara (c) 2018- 67


コスト最⼩(尤度最⼤)法の
コスト計算⽅法
■ その1︓左から右へと順に数値を⾜し合わ
せ、最も値が低くなるパスを選ぶ(⼈⼿に
よる⽅法)
■ その2︓ヴィタビ・アルゴリズム(計算機
にやらせる⽅法)

Yoko Nishihara (c) 2018- 68


⼈⼿によるコスト最⼩法の計算例

$30
にあっ
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10

Yoko Nishihara (c) 2018- 69


⽇本語のかな漢字変換では、ひらがなを
対象とした形態素解析が⾏われている
■ ライブ変換 = かな漢字変換 + 学習機能

■ かな漢字変換
– 1. ひらがなで⼊⼒
– 2. 変換キーをおす
– 3. 変換結果を選ぶ
■ ひらがなでにゅうりょく
■ à ひらがな で にゅうりょく
■ à ひらがな で ⼊⼒

Yoko Nishihara (c) 2018- 70


ヴィタビ・アルゴリズムとは
■ 観測された事象系列を結果として⽣じる隠された状態の
尤もらしい並びを探す動的計画法アルゴリズムの⼀つ
– 隠れマルコフモデル(HMM)に基づく

Yoko Nishihara (c) 2018- 71


ヴィタビ・アルゴリズムを⽤いた
コスト計算⽅法
■ ラティス構造の各ノード(単語)に対し、⽂頭からその
ノードまでの経路の合計コスト最⼩値と実際の経路を順
次求めていく

にあっ
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10
Yoko Nishihara (c) 2018- 72
定式化

■ あるノードまでのコスト最⼩値をC(w)とし、その1個前までのノードをw’とする。
■ このとき、その単語wまでの最⼩コストC(w)は以下の式で求められる。
■ C(w) = min 𝐶 𝑤 " + 𝑐𝑜𝑠𝑡 𝑤 " , 𝑤 + 𝑐𝑜𝑠𝑡(𝑤)
!"

1個前のノードw’までの経路コスト ノードw’とwの接続コスト ノードw⾃⾝のコスト

■ 1個前のノードw’までの経路コストと接続コストの和が最⼩となるものに、
ノードw⾃⾝のコストを⾜した場合、その合計コストは最⼩となる
■ ラティス構造の前⽅から順に上式を適⽤し、最終的に得られる経路を⽂頭から
たどると形態素解析の結果が得られる

Yoko Nishihara (c) 2018- 73


ヴィタビ・アルゴリズムを⽤いた
コスト計算⽅法の例(1)
■ Step. 1:
– w’=⽂頭
– w1 = たべもの, w2 = たべ
– C w1 = min { 𝐶 𝑤 " +
# !
𝑐𝑜𝑠𝑡 " } + 𝑐𝑜𝑠𝑡 𝑤1 = 0 + 10 + 30 = 40
𝑤 , 𝑤1
にあっ
$30
– C w2 = min "
{𝐶 𝑤 + $40 $40 動詞 $10
#
たべもの ! 体質 (似合う)
$10 " $10 $10 $10
𝑐𝑜𝑠𝑡 𝑤 , 𝑤2 } + 𝑐𝑜𝑠𝑡 𝑤2 = 0 + 30 +
名詞 20
$40 = 50
名詞
$30
(たいしつ) た
$10
(⾷べ物) $10
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10
Yoko Nishihara (c) 2018- 74
ヴィタビ・アルゴリズムを⽤いた
コスト計算⽅法の例(2)
■ Step. 2:
– w’=たべ
– w1 = もの
– C w1 = min 𝐶 𝑤 " + 𝑐𝑜𝑠𝑡 𝑤 " , 𝑤1 + 𝑐𝑜𝑠𝑡 𝑤1 = 50 + 40 +
# !
20 = 110
にあっ
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10
Yoko Nishihara (c) 2018- 75
ヴィタビ・アルゴリズムを⽤いた
コスト計算⽅法の例(3)
■ Step. 3:
– w1’=たべもの, w2’=もの
■ C(w1’)=40, C(w2’)=110
– w=が
– C w = min 𝐶 𝑤 " + 𝑐𝑜𝑠𝑡 𝑤 " , 𝑤1 + 𝑐𝑜𝑠𝑡 𝑤1 = 40 + 10 +
# !
にあっ
10 = 60
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10
Yoko Nishihara (c) 2018- この段階で、この部分の経路は可能性がなくなる 76

You might also like