2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar

第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar

时间:2022-12-30 10:28:39

相关推荐

第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar

目录

解析中的歧义

大纲

概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)

使用 PCFG 随机生成

一棵树的可能性有多大?

PCFG parsing

CYK for PCFGs

概率 CYK:检索解析

算法

Limitations of CFG

CFG 问题 1:较差的独立性假设

解决方案:父母条件

CFG 问题 2:缺乏词汇条件

协调歧义

解决方案:中心词词法化

中心词词法化

最后

解析中的歧义

• 上下文无关文法为语言分配层次结构

‣ 公式化为生成语言中的所有字符串

‣ 预测给定字符串的结构

• 产生歧义问题——哪个更好?

• 概率CFG!

大纲

• Basics of Probabilistic CFGs (PCFGs)

• PCFG parsing

• Limitations of CFG

概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)

• 相同的符号集:

‣ 终结符:单词比如书籍

‣ 非终结符:NP 或 NN 等句法标签

• 相同的制作(规则)

‣ LHS 非终结符 → RHS 符号的有序列表

• 此外,存储每个产生式的概率,如下:

• 概率值表示有条件

‣ P(LHS → RHS)

‣ P(RHS | LHS)

• 因此他们:

‣ 必须为正值,介于 0 和 1 之间

‣ 必须为给定的 LHS 求和为 1

使用 PCFG 随机生成

几乎与 CFG 相同,但有一点不同:

1.以S开头,句号

2. 选择一个以 S 作为 LHS 的规则

‣ 根据P(RHS | LHS)随机选择一个RHS

例如,S → VP

‣ 应用此规则,例如,将 VP 替换S

3. 对字符串中的每个非终结符重复步骤 2(此处为 VP)

4.当没有非终端剩余时停止

给我们一棵树,和以前一样,用一句话作为产出

一棵树的可能性有多大?

• 给定一棵树,我们可以计算它的概率

‣ 分解为每个产生式的概率

有对应的每个产生式的概率表,查表计算即可获得树的概率

PCFG parsing

• 在我们查看之前

‣ CYK

‣ 未加权文法 (CFG)

‣ 查找所有可能的树

• 但通常有 1000 个,许多完全是荒谬的

• 我们能解出最可能的树吗?

CYK for PCFGs

• CYK 查找一个句子的所有树; 我们想要最好的树

• 概率CYK 遵循与标准 CYK 类似的流程

• 将语法转换为乔姆斯基范式 (CNF)

‣ 其中 NP+NP 是新符号。

概率 CYK:检索解析

• 解析表右上角的 S 表示成功

• 保留指向最佳分析的反向指针

• 要获取解析,请按照每个匹配项的指针返回

• 通过删除新的非终结符从 CNF 转换回来

算法

Limitations of CFG

CFG 问题 1:

较差的独立性假设

• 改写独立做出的决策,而捕捉全局结构通常需要相互依赖。

• NP → DT NN [0.28]

• NP → PRP [0.25]

• 独立于树其余部分的规则的概率

• 无法在 PCFG 概率中表示这种上下文差异

• NP → PRP 作为主语应该上升到 0.91

• NP → DT NN 作为宾语应该是 0.66

• 解决方案:添加一个条件来表示 NP 是主语还是宾语

解决方案:父母条件

• 通过将父亲节点符号合并到每个符号中,使非终结符更加明确

• NP^S 代表主语位置(左)

• NP^VP 表示宾语位置(右)

CFG 问题 2:

缺乏词汇条件

• 对树中的单词缺乏敏感性

• 介词短语 (PP) 附属歧义

‣ 工人将麻袋倒入垃圾箱 Worker dumped sacks into a bin

歧义在于,是要讲麻袋倒入垃圾箱,还是要去倒在垃圾箱中的麻袋,这是由介词短语所导致的

协调歧义

• dogs in houses and cats

歧义在于,句子是说:在房间里的狗 和 猫 还是说, 在房间和猫里的 狗

• 从语义上来说,狗比房子更适合和猫并列(狗不能在猫里面!)

解决方案:中心词词法化

• 用父节点符号记录中心词

‣ 成分中最显着的孩子,通常是 NP 中的名词,VP 中的动词等

‣ VP → VBD NP PP :

VP(dumped) → VBD(dumped) NP(sacks) PP(into)

中心词词法化

• 将主词纳入产生式规则中,以捕捉词之间最重要的联系

‣ 捕获短语中心词之间的相关性

‣ PP(into): VP(dumped) vs. NP(sacks)

• 语法符号库存大幅增加!

‣ 很多产生式规则过于具体,很少见

‣ 学习更多内容以避免稀疏问题(例如,零概率)

最后

• PCFG 被广泛使用,并且有高效的解析器可用。

‣ 柯林斯解析器、伯克利解析器、斯坦福解析器

‣ 都使用某种形式的词汇化

• 但还有其他语法形式

‣ 词法函数语法

‣ Head-driven(中心词驱动) 短语结构语法

‣ 下一篇:依赖语法!

好热~~~,哈哈,辛苦各位的观看,有问题评论区留言交流哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。