数据结构与算法:字符串匹配算法
编程语言提供的字符串查找函数,它们的底层就是依赖的字符串匹配算法。
BF算法
BF 算法中的 BF 是 Brute Force 的缩写,中文叫作暴力匹配算法,也叫朴素匹配算法。从名字可以看出,这种算法的字符串匹配方式很“暴力”,当然也就会比较简单、好懂,但相应的性能也不高。
它的主要思想是在主串中,检查起始位置分别是 0、1、2….n-m 且长度为 m 的 n-m+1 个子串,看有没有跟模式串匹配的,时间复杂度是 O(n*m)。
但在实际的开发中,它却是一个比较常用的字符串匹配算法。为什么这么说呢?原因有两点:
- 实际的软件开发中,大部分情况下,模式串和主串的长度都不会太长。而且每次模式串与主串中的子串匹配的时候,当中途遇到不能匹配的字符的时候,就可以就停止了,不需要把 m 个字符都比对一下。所以,尽管理论上的最坏情况时间复杂度是 O(n*m),但是,统计意义上,大部分情况下,算法执行效率要比这个高很多。
- 朴素字符串匹配算法思想简单,代码实现也非常简单。简单意味着不容易出错,如果有 bug 也容易暴露和修复。在工程中,在满足性能要求的前提下,简单是首选。这也是我们常说的KISS(Keep it Simple and Stupid)设计原则。
代码实现如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
public class StringMatch
{
public static bool ContainsByBK(string mainStr, string patternStr)
{
if (string.IsNullOrWhiteSpace(mainStr) || string.IsNullOrWhiteSpace(patternStr)) throw new Exception("mainstr or patternStr is null");
if (mainStr.Length < patternStr.Length) return false;
for (int i = 0; i < mainStr.Length - patternStr.Length + 1; i++)
{
for (int j = 0; j < patternStr.Length; j++)
{
if (patternStr[j] != mainStr[i + j]) break;
if (j == patternStr.Length - 1) return true;
}
}
return false;
}
}
RK算法
RK 算法的全称叫 Rabin-Karp 算法,它是借助哈希算法对 BF 算法进行改造,即对每个子串分别求哈希值,然后拿子串的哈希值与模式串的哈希值比较,减少了比较的时间。
理想情况下,RK 算法的时间复杂度是 O(n),跟 BF 算法相比,效率提高了很多。不过这样的效率取决于哈希算法的设计方法,如果存在冲突的情况下,时间复杂度可能会退化。极端情况下,哈希算法大量冲突,时间复杂度就退化为 O(n*m)
本文由作者按照 CC BY 4.0 进行授权