gitbook-way-to-algorithm
  • Introduction
  • Preface 前言
  • Content 目录
  • MathSymbolTable 数学符号表
  • Chapter-1 BasicKnowledge 第1章 基础知识
    • TimeComplexity 时间复杂度
    • Recursion 递归式
  • Chapter-2 Sort 第2章 排序
    • InsertSort 插入排序
    • BubbleSort 冒泡排序
    • QuickSort 快速排序
    • MergeSort 归并排序
  • Chapter-3 Search 第3章 搜索
    • BinarySearch 二分查找法(折半查找法)
    • AdditionMultiplicationPrinciple 加法乘法原理
    • BruteForce 暴力枚举
    • Recursion 递归
    • BreadthFirstSearch 广度优先搜索
    • BidirectionalBreadthSearch 双向广度搜索
    • AStarSearch A*搜索
    • DancingLink 舞蹈链
  • Chapter-4 DataStructure 第4章 数据结构
    • DisjointSet 并查集
    • PrefixTree(TrieTree) 前缀树
    • LeftistTree(LeftistHeap) 左偏树(左偏堆)
    • SegmentTree 线段树
    • FenwickTree(BinaryIndexedTree) 树状数组
    • BinarySearchTree 二叉查找树
    • AVLTree AVL平衡树
    • RedBlackTree 红黑树
    • SkipList 跳跃表
    • BPlusTree B+树
    • BMinusTree B-树
  • Chapter-5 DynamicProgramming 第5章 动态规划
    • Section-1 LinearDP 第1节 线性动规
      • LongestCommonSubsequence 最长公共子序列
      • LongestIncreasingSubsequence 最长递增子序列
      • BidirectionalSubsequence 双向子序列
      • MaximumContinuousSubsequenceSum 最大连续子序列和
      • LongestPalindromicSubsequence 最长回文子序列
    • Section-2 BagDP 第2节 背包问题
      • 01-Bag 01背包
      • CompleteBag 完全背包
      • TwoDimensionBag 二维背包
    • Section-3 RegionalDP 第3节 区域动规
      • MinimumMergeCost - 最小合并代价
      • UniquePath 唯一路径
      • TrianglePath 三角形路径
    • Section-4 TreeDP 第4节 树形动规
      • MaximumBinaryTree 最大二叉树
      • MaxMultipleTree 最大多叉树
      • MaximumBinaryTreeRadiusSum 最大二叉树和
  • Chapter-6 GraphTheory 第6章 图论
    • Section-1 Traverse 第1节 遍历
      • DepthFirstSearch 深度优先搜索
      • BreadthFirstSearch 广度优先搜索
      • TopologicalSort 拓扑排序
      • EulerCycle 欧拉回路
    • Section-2 MinSpanningTree 第2节 最小生成树
      • Kruskal Kruskal算法
      • Prim Prim算法
    • Section-3 ShortestPath 第3节 最短路径
      • BellmanFord BellmanFord算法
      • Dijkstra Dijkstra算法
      • FloydWarshall FloydWarshall算法
      • DifferentConstraints 差分约束
    • Section-4 StronglyConnectedComponents 第4节 强连通分支
      • Kosaraju Kosaraju算法
      • Tarjan Tarjan算法
      • 2-SAT 2-SAT问题
    • Section-5 NetworkFlow 第5节 网络流
      • EdmondsKarp EdmondsKarp算法(最短路径增广算法)
      • PushRelabel 压入与重标记算法
      • Dinic - Dinic算法
      • MinimumCostFlow - 最小费用流
      • MultipleSourceMultipleSinkMaxflow - 多源点多汇点最大流
    • Section-6 BinaryMatch 第6节 二分匹配
      • Hungarian 匈牙利算法
      • HopcroftKarp Hopcroft-Karp算法
      • MatchToMaxflow 二分匹配转化为最大流
      • KuhnMunkres Kuhn-Munkres算法
      • Introduction-Domination,Independent,Covering,Clique 介绍支配集、独立集、覆盖集和团
      • WeightedCoveringAndIndependentSet 最小点权覆盖和最大点权独立集
      • MinimumDisjointPathCovering 最小不相交路径覆盖
      • MinimumJointPathCovering 最小可相交路径覆盖
      • Coloring 染色问题
  • Chapter-7 CombinatorialMathematics 第7章 组合数学
    • FullPermutation 全排列
    • Combination 组合
    • Permutation 排列
    • PermutationGroup 置换群
  • Chapter-8 NumberTheory 第8章 数论
    • PrimeSieve 素数筛法
    • GreatestCommonDivisor 最大公约数
    • Euclid 欧几里得算法
    • ExtendedEuclid 扩展欧几里得算法
    • ChineseRemainerTheorem 中国剩余定理
    • ModularExponentiation 模幂运算
  • Chapter-9 LinearAlgebra 第9章 线性代数
    • Section-1 Matrix 第1节 矩阵
      • Strassen Strassen算法
      • GaussElimination 高斯消元法
      • LUP LUP分解
      • InverseMatrix 矩阵求逆
    • Section-2 LinearProgramming 第2节 线性规划
      • Simplex 单纯形算法
      • Dinkelback Dinkelback算法
  • Chapter-10 AnalyticGeometry 第10章 解析几何
    • Section-1 Polygon 第1节 多边形
      • Cross 向量叉积
      • SegmentIntersection 线段相交
      • Sweeping 扫除算法
      • ConvexPolygonArea 凸多边形面积
      • ConvexPolygonGravityCenter 凸多边形重心
      • NearestNeighbor 最近点对
    • Section-2 ConvexHull 第2节 凸包
      • GrahamScan Graham扫描算法
      • QuickHull 快速凸包算法
      • RotatingCalipers 旋转卡壳
  • Chapter-11 PatternMatch 第11章 文本匹配
    • SimpleMatch 简单匹配
    • AhoCorasickAutomata AC自动机
    • KnuthMorrisPratt KMP匹配算法
    • RabinKarp RabinKarp算法
    • BoyerMoore BoyerMoore算法
  • Chapter-12 GameTheory 第12章 博弈论
    • BashGame 巴什博弈
    • WythoffGame 威佐夫博弈
    • NimGame 尼姆博弈
Powered by GitBook
On this page
  • 问题
  • 简单字符串匹配算法
  • 前缀树
  • 失败指针
  • 输出指针
  • 构建AC自动机
  • Aho Corasick Automata
  • 源码
  • 测试
  1. Chapter-11 PatternMatch 第11章 文本匹配

AhoCorasickAutomata AC自动机

PreviousSimpleMatch 简单匹配NextKnuthMorrisPratt KMP匹配算法

Last updated 6 years ago

问题

在文本texttexttext中查找kkk个模式patternpatternpattern出现的所有位置。其中texttexttext长度为nnn,patternipattern_{i}patterni​的长度为mim_{i}mi​,其中最长的模式长度为mmaxm_{max}mmax​且n>mmaxn \gt m_{max}n>mmax​,所有模式长度之和为msum=∑i=1kmim_{sum} = \sum_{i=1}^{k} m_{i}msum​=∑i=1k​mi​,且所有模式两两互不重复。

简单字符串匹配算法

将简单字符串匹配SimpleMatch应用在本问题上,搜索所有模式需要重复kkk次,每次的时间复杂度为O(n⋅mi)O(n \cdot m_i)O(n⋅mi​)。直接应用SimpleMatch算法的时间复杂度为O(n⋅msum)O(n \cdot m_sum)O(n⋅ms​um)。

前缀树

能否在一次匹配texttexttext的过程中就同时找出所有模式呢?即并行算法(算法的并行,而非多线程/多进程的并行)。

首先用所有patternpatternpattern构造一个前缀树ptptpt,如图所示:

(1)(1)(1) 从texttexttext的首个字符text[i=0]text[i = 0]text[i=0]开始,将其与前缀树中的节点依次向下匹配,可知text[0…1]=pt[2…5]text[0 \dots 1] = pt[2 \dots 5]text[0…1]=pt[2…5],但text[2]≠pt[8]text[2] \ne pt[8]text[2]=pt[8]因此匹配失败;

(2)(2)(2) 匹配位置向右移动一位,从text[i=1]text[i = 1]text[i=1]开始,可知text[1]=pt[1]text[1] = pt[1]text[1]=pt[1]但text[2]≠pt[3],text[2]≠pt[4]text[2] \ne pt[3], text[2] \ne pt[4]text[2]=pt[3],text[2]=pt[4];

(3)(3)(3) 匹配位置向右移动一位,从text[i=2]text[i = 2]text[i=2]开始匹配,可知text[2…3]=pt[1…3],text[2…5]=pt[1…9]text[2 \dots 3] = pt[1 \dots 3], text[2 \dots 5] = pt[1 \dots 9]text[2…3]=pt[1…3],text[2…5]=pt[1…9]匹配成功;

⋯\cdots⋯

构建前缀树的时间复杂度为O(msum)O(m_{sum})O(msum​)。利用前缀树,文本上的每个字符匹配前缀树即可,该算法的时间复杂度为O(msum)+O(n⋅mmax)O(m_{sum}) + O(n \cdot m_{max})O(msum​)+O(n⋅mmax​)。当nnn远大于mmaxm_{max}mmax​时显然构造第二种算法更优。

失败指针

下图中,当匹配到text[i=5]text[i = 5]text[i=5]时有text[5…6]=pt[2…5]text[5 \dots 6] = pt[2 \dots 5]text[5…6]=pt[2…5],但text[7]≠pt[8]text[7] \ne pt[8]text[7]=pt[8]匹配失败。我们不希望从text[i=6]text[i = 6]text[i=6]处从前缀树的根节点重新开始匹配,显然text[i=6]text[i = 6]text[i=6]在前缀树中已经存在。因为pt[1…1]pt[1 \dots 1]pt[1…1]是pt[2…5]pt[2 \dots 5]pt[2…5]的后缀字符串,这时将前缀树的匹配位置调整到pt[1]pt[1]pt[1],那么pt[1]pt[1]pt[1]和text[i=6]text[i = 6]text[i=6]可以继续匹配,尝试找到一个成功的匹配。图中红色的连线称为失败链接/失败指针failurelinkfailure linkfailurelink;

设字符串α\alphaα的末尾字符为pt[i]pt[i]pt[i],尝试在前缀树中寻找α\alphaα的最长后缀字符串β\betaβ(设pt[j]pt[j]pt[j]是β\betaβ的末尾字符)。若找到这样一个合适的β\betaβ,建立从pt[i]pt[i]pt[i]到pt[j]pt[j]pt[j]的指针,否则建立从pt[i]pt[i]pt[i]到pt[root]pt[root]pt[root]的指针。显然前缀树中每个节点只有一个失败指针。失败指针的出发节点是前缀树中最后一个成功匹配的字符,其实质是后缀字符串,也称后缀链接/后缀指针suffixlinksuffix linksuffixlink。

失败指针的核心思路在于匹配文本失败时,希望避免从前缀树的根部重新开始匹配。失败指针要么指向一个与当前位置上字符串相同的最长的后缀字符串(这样的指针就是后缀指针),要么指向前缀树的根节点。比如下图中pt[2…5]="sh"pt[2 \dots 5] = "sh"pt[2…5]="sh"的最长后缀字符串是pt[1…1]="h"pt[1 \dots 1] = "h"pt[1…1]="h",pt[2…8]="she"pt[2 \dots 8] = "she"pt[2…8]="she"的最长后缀字符串是pt[1…3]="he"pt[1 \dots 3] = "he"pt[1…3]="he"。pt[1…4]="hi"pt[1 \dots 4] = "hi"pt[1…4]="hi"找不到最长后缀字符串(也可以认为最长后缀字符串为空),因此有失败指针pt[4]→pt[root]pt[4] \rightarrow pt[root]pt[4]→pt[root]。

前缀树中的失败指针联系的两个节点可能在同一个字符串上,比如下图中有失败指针pt[11]→pt[5]pt[11] \rightarrow pt[5]pt[11]→pt[5],pt[10]→pt[2]pt[10] \rightarrow pt[2]pt[10]→pt[2],这两个失败指针在前缀树中构成了环形图。

输出指针

下图中,当匹配到text[10]=pt[8]text[10] = pt[8]text[10]=pt[8]时(即使在该位置没有text[8…10]=pt[2…8]text[8 \dots 10] = pt[2 \dots 8]text[8…10]=pt[2…8]匹配成功也同样适用),我们发现不管前缀树当前位置pt[8]pt[8]pt[8]匹配成功与否,一定存在成功的匹配pt[1…3]pt[1 \dots 3]pt[1…3]。利用这一特性避免了从text[i=9]text[i = 9]text[i=9]和前缀树的根节点重新开始匹配。显然这也是失败指针,但并非在匹配失败时才跳转,这类跳转称为输出指针/输出链接outputlinkoutput linkoutputlink,用红色虚线表示。

再给一个特别情况,当匹配到text[0…2]=pt[2…7]text[0 \dots 2] = pt[2 \dots 7]text[0…2]=pt[2…7]时,有失败指针pt[7]→pt[6]pt[7] \rightarrow pt[6]pt[7]→pt[6],输出指针pt[6]→pt[1]pt[6] \rightarrow pt[1]pt[6]→pt[1]。因此对于前缀树中的节点pt[7]pt[7]pt[7],需要递归的沿着所有失败指针,找出一次成功匹配text[2…2]=pt[1…1]text[2 \dots 2] = pt[1 \dots 1]text[2…2]=pt[1…1]。当匹配到text[0…3]=pt[2…9]text[0 \dots 3] = pt[2 \dots 9]text[0…3]=pt[2…9]时,有输出指针pt[9]→pt[8],pt[8]→pt[4]pt[9] \rightarrow pt[8], pt[8] \rightarrow pt[4]pt[9]→pt[8],pt[8]→pt[4]。如图所示:

仔细观察可以发现,输出指针pt[i]→pt[j]pt[i] \rightarrow pt[j]pt[i]→pt[j]有几个特性:

(1)(1)(1) 两个节点不在同一个字符串分支上,pt[i]pt[i]pt[i]是前缀树中的任意节点;

(2)(2)(2) 输出指针是一种特殊的失败指针,pt[j]≠pt[root]pt[j] \ne pt[root]pt[j]=pt[root]。显然每个节点上只有至多一个输出指针;

(3)(3)(3) pt[j]pt[j]pt[j]是前缀树中的叶子节点;

在匹配过程中,尝试递归的沿着前缀树上当前节点的失败指针,找出所有输出指针,这些输出指针都是(在其他分支的字符串上的)成功匹配。

最终得到AC自动机算法:对于文本texttexttext上的任意字符text[i]text[i]text[i],从前缀树ptptpt的根部开始匹配:

(1)(1)(1) 沿着前缀树完成一次成功匹配,text[i]text[i]text[i]上的位置iii向右移动一位,从前缀树ptptpt的根节点重新开始匹配;

(2)(2)(2) 匹配失败时,若前缀树上的当前节点上有非pt[root]pt[root]pt[root](非前缀树根节点)的失败指针,则跳到失败指针处继续匹配;若没有这样的失败指针,则文本texttexttext的匹配位置向右移动一位,从前缀树ptptpt的根节点重新开始匹配;

(3)(3)(3) 匹配途中若遇到输出指针,立刻找到一次输出指针所处的成功匹配,但不影响当前字符串分支上的匹配,当前的匹配仍然继续;

AC自动机的匹配时间复杂度为O(n+msum+z)O(n + m_{sum} + z)O(n+msum​+z)。其中zzz是所有模式patternpatternpattern在文本texttexttext上出现的次数。

构建AC自动机

构建AC自动机需要三步:构建前缀树;构建失败指针;构建输出指针。

构造前缀树的过程详见本书的DataStructure-PrefixTree。

构造失败指针的过程是一种类似BFS/层序遍历树的算法。初始时令根节点的失败指针指向自己,首先将前缀树的第一层节点加入空队列QueueQueueQueue中,所有的失败指针指向根节点。然后依次从QueueQueueQueue中取出头节点pt[i]pt[i]pt[i],对于头节点的某个孩子节点pt[child]pt[child]pt[child],寻找它的失败指针,并将pt[child]pt[child]pt[child]推入QueueQueueQueue中,直到QueueQueueQueue为空:

(1)(1)(1) 对于前缀树根节点pt[root]pt[root]pt[root],其失败指针指向自己;

(2)(2)(2) 对于前缀树第一层节点,其失败指针指向pt[root]pt[root]pt[root];

(3)(3)(3) 对于前缀树中其他的节点pt[i]pt[i]pt[i],设该节点的字符为xxx,其父节点为pt[father]pt[father]pt[father],且pt[fail]pt[fail]pt[fail]为pt[father]pt[father]pt[father]的失败指针。若pt[fail]pt[fail]pt[fail]有字符为xxx的孩子节点pt[child]pt[child]pt[child],则显然pt[child]pt[child]pt[child]所在的字符串为pt[i]pt[i]pt[i]所在字符串的最长后缀字符串。因此有失败指针pt[i]→pt[child]pt[i] \rightarrow pt[child]pt[i]→pt[child]。若不存在这样的孩子节点,则递归的再考虑pt[j]pt[j]pt[j]的失败指针,直到失败指针本身是pt[root]pt[root]pt[root],则有失败指针pt[i]→pt[root]pt[i] \rightarrow pt[root]pt[i]→pt[root],递归结束;如图所示:

在构造失败指针的同时构造输出指针,若pt[i]pt[i]pt[i]的失败指针pt[j]pt[j]pt[j]不是前缀树根节点pt[root]pt[root]pt[root],又是前缀树的叶子节点,则有输出指针pt[i]→pt[j]pt[i] \rightarrow pt[j]pt[i]→pt[j]。显然pt[root]pt[root]pt[root]不存在输出指针,前缀树第一层节点也都不存在输出指针。

AC自动机的构造时间复杂度为O(msum)O(m_{sum})O(msum​),加上匹配的时间,AC自动机算法的时间复杂度为O(n+msum+z)O(n + m_{sum} + z)O(n+msum​+z)。

Aho Corasick Automata

源码

测试

https://cr.yp.to/bib/1975/aho.pdf
https://web.stanford.edu/class/cs166/lectures/02/Small02.pdf
https://www.geeksforgeeks.org/aho-corasick-algorithm-pattern-searching/
http://www.learn4master.com/algorithms/aho-corasick-algorithm
AhoCorasickAutomata.h
AhoCorasickAutomata.cpp
AhoCorasickAutomataTest.cpp
AhoCorasick1.png
AhoCorasick2.png
AhoCorasick3.png
AhoCorasick4.png
AhoCorasick5.png
AhoCorasick6.png
AhoCorasick7.png
AhoCorasick8.png
AhoCorasick9.png
AhoCorasick10.png