本章介绍了语言处理中的基本工具 —— 正则表达式,并展示了如何执行基本的文本规范化任务,包括分词和词规范化、分句和词干提取。我们还介绍了用于重要的比较字符串的最小编辑距离算法。下面是我们对这些主要内容的总结:
- 正则表达式语言是一种强大的模式匹配工具。
- 正则表达式中的基本操作包括符号的连接、逻辑或(disjunction)(
[]
、|
和.
)、计数器(*
、+
和{n,m}
)、锚点(^
、$
)和优先运算符((,)
)。 - 分词和词规范化一般通过简单正则表达式替换或有限自动机的级联来完成。
- Porter 算法是一种简单而有效的方法,可以进行词干提取、删除词缀。它的精度不高,但对某些任务可能会很有用。
- 两个字符串之间的最小编辑距离是指将一个字符串转成另一个字符串所需的最少操作次数。最小编辑距离可以通过动态规划来计算,同时也可以得出两个字符串的对齐方式。