Professional Documents
Culture Documents
3 PDF
3 PDF
3 PDF
第3回「形態素解析(2)」
にあっ
動詞
たべもの 体質 (似合う)
名詞 名詞 た
(⾷べ物) (たいしつ) に 助動詞
⽂頭 が 動詞 ⽂末
助詞 (似る) あっ
たべ もの 体 質 動詞
動詞 名詞 名詞 名詞 (合う)
(⾷べる) (物) (からだ) (しつ) に
助詞
候補が複数個あるので、2段階⽬の処理を⾏い絞り込む
体質
「体」よりも「体質」の⽅が
名詞
(たいしつ) 良いとする
体 質
名詞 名詞
(からだ) (しつ)
■ 最⻑⼀致法では(1)が優先される
■ (1) の形態素の平均⻑は︖
■ (2) の形態素の平均⻑は︖
■ 形態素数最⼩法では、どちらが優先されるか︖
■ (1)と(2)の形態素数は何個か︖
■ ⽂節数最⼩法では、どちらが優先されるか︖
■ (1)と(2)の⽂節数はそれぞれ何個か︖
■ 最⻑⼀致法、形態素数最⼩法、⽂節数最⼩法のいずれで
も差がつかない
■ ⽂脈から考えると、(2)が妥当そう
■ 妥当さを何らかの数値で表現したい
単語コスト︓単語辞書に記述
連接コスト︓連接可否⾏列に記述
単語尤度付き単語辞書
見出し 品詞 品詞細分類 活⽤形 基本形 読み 単語尤度
頭 名詞 ⼀般 --- 頭 あたま 0.6
薬 名詞 ⼀般 --- 薬 くすり 0.6
頭痛 名詞 ⼀般 --- 頭痛 ずつう 0.4
でなおし 名詞 ⼀般 --- 出直し でなおし 0.3
飲み薬 名詞 ⼀般 --- 飲み薬 のみぐすり 0.4
でる 動詞 ⾃⽴ 終⽌形 出る でる 0.6
でなおす 動詞 ⾃⽴ 終⽌形 出直す でなおす 0.4
なおす 動詞 ⾃⽴ 終⽌形 治す なおす 0.6
飲む 動詞 ⾃⽴ 終⽌形 飲む のむ 0.6
で 動詞 ⾃⽴ 連⽤形 出る でる 0.6
でなおし 動詞 ⾃⽴ 連⽤形 出直す でなおす 0.4
なおし 動詞 ⾃⽴ 連⽤形 治す なおす 0.6
飲み 動詞 ⾃⽴ 連⽤形 飲む のむ 0.6
で 助詞 格助詞 --- で で 0.8
を 助詞 格助詞 --- を を 0.8
た 助動詞 --- 終⽌形 た た 0.8
Yoko Nishihara (c) 2018- 66
連接尤度付き連接可否⾏列
⽂ 名 動 助 助 助 助
末 詞 詞 動 詞 詞 詞
詞
:
右側 格 係 接
左側 助 助 続
詞 詞 助
詞
コストの逆数が尤度
⽂頭 0.8 0.4
名詞 0.3 0.6 0.2 0.8 0.8
動詞:終⽌形 0.8 0.6 0.6
動詞︓連⽤形 0.2 0.5 0.4 0.8
助動詞:終⽌形 0.8 0.6 0.6
助詞:︓格助詞 0.8 0.8 0.5
$30
にあっ
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10
■ かな漢字変換
– 1. ひらがなで⼊⼒
– 2. 変換キーをおす
– 3. 変換結果を選ぶ
■ ひらがなでにゅうりょく
■ à ひらがな で にゅうりょく
■ à ひらがな で ⼊⼒
にあっ
$30 $40 $40 動詞 $10
たべもの 体質 (似合う)
$10 $10 $10 $10
名詞 名詞 $10
(⾷べ物) $10 (たいしつ) $40$30 た
$40 に $60$20 助動詞
⽂頭 が ⽂末
$20 $20 助詞 $30 $20 $30 $40 動詞
(似る) あっ
たべ もの 体 質 動詞 $10
動詞 名詞 $10 $10 名詞 名詞 $10 (合う)
$30 (⾷べる) (物) (からだ) (しつ) に
$40 $10 助詞
$10
$10
Yoko Nishihara (c) 2018- 72
定式化
■ あるノードまでのコスト最⼩値をC(w)とし、その1個前までのノードをw’とする。
■ このとき、その単語wまでの最⼩コストC(w)は以下の式で求められる。
■ C(w) = min 𝐶 𝑤 " + 𝑐𝑜𝑠𝑡 𝑤 " , 𝑤 + 𝑐𝑜𝑠𝑡(𝑤)
!"
■ 1個前のノードw’までの経路コストと接続コストの和が最⼩となるものに、
ノードw⾃⾝のコストを⾜した場合、その合計コストは最⼩となる
■ ラティス構造の前⽅から順に上式を適⽤し、最終的に得られる経路を⽂頭から
たどると形態素解析の結果が得られる