gitbook-way-to-algorithm
  • Introduction
  • Preface 前言
  • Content 目录
  • MathSymbolTable 数学符号表
  • Chapter-1 BasicKnowledge 第1章 基础知识
    • TimeComplexity 时间复杂度
    • Recursion 递归式
  • Chapter-2 Sort 第2章 排序
    • InsertSort 插入排序
    • BubbleSort 冒泡排序
    • QuickSort 快速排序
    • MergeSort 归并排序
  • Chapter-3 Search 第3章 搜索
    • BinarySearch 二分查找法(折半查找法)
    • AdditionMultiplicationPrinciple 加法乘法原理
    • BruteForce 暴力枚举
    • Recursion 递归
    • BreadthFirstSearch 广度优先搜索
    • BidirectionalBreadthSearch 双向广度搜索
    • AStarSearch A*搜索
    • DancingLink 舞蹈链
  • Chapter-4 DataStructure 第4章 数据结构
    • DisjointSet 并查集
    • PrefixTree(TrieTree) 前缀树
    • LeftistTree(LeftistHeap) 左偏树(左偏堆)
    • SegmentTree 线段树
    • FenwickTree(BinaryIndexedTree) 树状数组
    • BinarySearchTree 二叉查找树
    • AVLTree AVL平衡树
    • RedBlackTree 红黑树
    • SkipList 跳跃表
    • BPlusTree B+树
    • BMinusTree B-树
  • Chapter-5 DynamicProgramming 第5章 动态规划
    • Section-1 LinearDP 第1节 线性动规
      • LongestCommonSubsequence 最长公共子序列
      • LongestIncreasingSubsequence 最长递增子序列
      • BidirectionalSubsequence 双向子序列
      • MaximumContinuousSubsequenceSum 最大连续子序列和
      • LongestPalindromicSubsequence 最长回文子序列
    • Section-2 BagDP 第2节 背包问题
      • 01-Bag 01背包
      • CompleteBag 完全背包
      • TwoDimensionBag 二维背包
    • Section-3 RegionalDP 第3节 区域动规
      • MinimumMergeCost - 最小合并代价
      • UniquePath 唯一路径
      • TrianglePath 三角形路径
    • Section-4 TreeDP 第4节 树形动规
      • MaximumBinaryTree 最大二叉树
      • MaxMultipleTree 最大多叉树
      • MaximumBinaryTreeRadiusSum 最大二叉树和
  • Chapter-6 GraphTheory 第6章 图论
    • Section-1 Traverse 第1节 遍历
      • DepthFirstSearch 深度优先搜索
      • BreadthFirstSearch 广度优先搜索
      • TopologicalSort 拓扑排序
      • EulerCycle 欧拉回路
    • Section-2 MinSpanningTree 第2节 最小生成树
      • Kruskal Kruskal算法
      • Prim Prim算法
    • Section-3 ShortestPath 第3节 最短路径
      • BellmanFord BellmanFord算法
      • Dijkstra Dijkstra算法
      • FloydWarshall FloydWarshall算法
      • DifferentConstraints 差分约束
    • Section-4 StronglyConnectedComponents 第4节 强连通分支
      • Kosaraju Kosaraju算法
      • Tarjan Tarjan算法
      • 2-SAT 2-SAT问题
    • Section-5 NetworkFlow 第5节 网络流
      • EdmondsKarp EdmondsKarp算法(最短路径增广算法)
      • PushRelabel 压入与重标记算法
      • Dinic - Dinic算法
      • MinimumCostFlow - 最小费用流
      • MultipleSourceMultipleSinkMaxflow - 多源点多汇点最大流
    • Section-6 BinaryMatch 第6节 二分匹配
      • Hungarian 匈牙利算法
      • HopcroftKarp Hopcroft-Karp算法
      • MatchToMaxflow 二分匹配转化为最大流
      • KuhnMunkres Kuhn-Munkres算法
      • Introduction-Domination,Independent,Covering,Clique 介绍支配集、独立集、覆盖集和团
      • WeightedCoveringAndIndependentSet 最小点权覆盖和最大点权独立集
      • MinimumDisjointPathCovering 最小不相交路径覆盖
      • MinimumJointPathCovering 最小可相交路径覆盖
      • Coloring 染色问题
  • Chapter-7 CombinatorialMathematics 第7章 组合数学
    • FullPermutation 全排列
    • Combination 组合
    • Permutation 排列
    • PermutationGroup 置换群
  • Chapter-8 NumberTheory 第8章 数论
    • PrimeSieve 素数筛法
    • GreatestCommonDivisor 最大公约数
    • Euclid 欧几里得算法
    • ExtendedEuclid 扩展欧几里得算法
    • ChineseRemainerTheorem 中国剩余定理
    • ModularExponentiation 模幂运算
  • Chapter-9 LinearAlgebra 第9章 线性代数
    • Section-1 Matrix 第1节 矩阵
      • Strassen Strassen算法
      • GaussElimination 高斯消元法
      • LUP LUP分解
      • InverseMatrix 矩阵求逆
    • Section-2 LinearProgramming 第2节 线性规划
      • Simplex 单纯形算法
      • Dinkelback Dinkelback算法
  • Chapter-10 AnalyticGeometry 第10章 解析几何
    • Section-1 Polygon 第1节 多边形
      • Cross 向量叉积
      • SegmentIntersection 线段相交
      • Sweeping 扫除算法
      • ConvexPolygonArea 凸多边形面积
      • ConvexPolygonGravityCenter 凸多边形重心
      • NearestNeighbor 最近点对
    • Section-2 ConvexHull 第2节 凸包
      • GrahamScan Graham扫描算法
      • QuickHull 快速凸包算法
      • RotatingCalipers 旋转卡壳
  • Chapter-11 PatternMatch 第11章 文本匹配
    • SimpleMatch 简单匹配
    • AhoCorasickAutomata AC自动机
    • KnuthMorrisPratt KMP匹配算法
    • RabinKarp RabinKarp算法
    • BoyerMoore BoyerMoore算法
  • Chapter-12 GameTheory 第12章 博弈论
    • BashGame 巴什博弈
    • WythoffGame 威佐夫博弈
    • NimGame 尼姆博弈
Powered by GitBook
On this page
  • 问题
  • 解法
  • 复杂度
  • 源码
  • 测试
  1. Chapter-2 Sort 第2章 排序

MergeSort 归并排序

PreviousQuickSort 快速排序NextChapter-3 Search 第3章 搜索

Last updated 6 years ago

问题

用Merge Sort对长度为nnn的无序序列sss从小到大(升序)排序。

解法

将长度为nnn的序列s=[x0,x1,…,xn−1]s = [x_0, x_1, \dots, x_{n-1}]s=[x0​,x1​,…,xn−1​]分为左右两个部分,left=[x0,…,xk]left = [x_0, \dots, x_k]left=[x0​,…,xk​]和right=[xk+1,…,xn−1]right = [x_{k+1}, \dots, x_{n-1}]right=[xk+1​,…,xn−1​],其中0≤k≤n−10 \le k \le n-10≤k≤n−1。想象leftleftleft和rightrightright都是已排序的。如图:

function Merge(s, k, begin, end):
    let sc[begin...end] = s[begin...end]
    let i = begin, j = k+1, k = begin
    while i <= k and j <= end
        if s[i] < s[j]
            sc[k++] = s[i++]
        else
            sc[k++] = s[j++]
    while i <= k
        sc[k++] = s[i++]
    while j <= end
        sc[k++] = s[j++]
    let s[begin...end] = sc[begin...end]

上述操作如图:

function MergeSort(s, begin, end):
    if end <= begin+1
        return
    let mid = (begin + end) / 2
    MergeSort(s, begin, mid)
    MergeSort(s, mid+1, end)
    Merge(s, mid, begin, end)

复杂度

即:

归并排序适用于数据量超过内存的应用场景。试想硬盘上存储着100GB的数字需要排序,而可使用的内存只有1GB,显然无法将所有数字都放在内存中排序(也可以是分布在100台机器的数据无法存储在1台服务器这样的分布式应用场景)。从硬盘中依次读取1GB数字,对其排序后写回硬盘。反复100次即可得到100个已序的数组;再将两个已序数组进行归并排序,排序后写回硬盘,得到更长的已序数组;之后同理。最终可将100GB的数字在硬盘上排序。

源码

测试

将leftleftleft和rightrightright两个已排序的序列合并即可得到更大的有序序列:

(1) Merge函数第1行:left=[xbegin,…,xk],right=[xk+1,…,xend]left = [x_{begin}, \dots, x_{k}], right = [x_{k+1}, \dots, x_{end}]left=[xbegin​,…,xk​],right=[xk+1​,…,xend​];

(2) Merge函数第2行:构造长度与sss相同的数组scscsc,存储leftleftleft和rightrightright合并后的结果,该结果最终会复制给sss。该操作需要的空间规模为T(n)T(n)T(n);

(3) Merge函数第3-12行:将leftleftleft和rightrightright按序合并,得到有序序列scscsc;

(4) Merge函数第13行:将scscsc复制到sss上;

如何得到已排序的leftleftleft和rightrightright?递归的对left,rightleft, rightleft,right也应用上述操作即可。直到序列本身的长度小于等于1时,可以直接看作已排序序列,不需要继续递归:

(1) MergeSort函数第1行:在序列s=[x0,…,xn−1]s = [x_0, \dots, x_{n-1}]s=[x0​,…,xn−1​]上调用MergeSort时begin=0,end=n−1begin = 0, end = n-1begin=0,end=n−1;

(2) MergeSort函数第2-3行:当end≤begin+1end \le begin+1end≤begin+1时,待排序的序列s=[xbegin,xend]s = [x_{begin}, x_{end}]s=[xbegin​,xend​]长度小于等于1,可以看作是已排序的,直接返回;

(3) MergeSort函数第4-7行:将待排序的序列s=[xbegin,xend]s = [x_{begin}, x_{end}]s=[xbegin​,xend​]从midmidmid分开,分别递归的调用自己进行排序,得到两个已排序的left=[xbegin,…,xmid],right=[xmid+1,…,xend]left = [x_{begin}, \dots, x_{mid}], right = [x_{mid+1}, \dots, x_{end}]left=[xbegin​,…,xmid​],right=[xmid+1​,…,xend​],再将两部分合并即可;

设k=end−begink = end - begink=end−begin,Merge函数的输入规模为T(k)T(k)T(k),合并kkk个元素的时间复杂度为O(k)O(k)O(k)。

MergeSort函数的初始输入规模为T(n)T(n)T(n),因此调用Merge函数的输入规模为T(n)T(n)T(n),每次递归后输入规模为上一层的T(n2)T(\frac{n}{2})T(2n​),可得:

T(n)=2⋅T(n2)+O(n)=2⋅T(2⋅T(n22)+n2)+O(n)=22⋅T(n22)+2⋅O(n)=2⋅T(2⋅T(n23)+n22)+2⋅O(n)=23⋅T(n23)+3⋅O(n)=⋯\begin{matrix} T(n) & = & 2 \cdot T(\frac{n}{2}) + O(n) & & \\ & = & 2 \cdot T(2 \cdot T(\frac{n}{2^2}) + \frac{n}{2}) + O(n) & = & 2^2 \cdot T(\frac{n}{2^2}) + 2 \cdot O(n) \\ & = & 2 \cdot T(2 \cdot T(\frac{n}{2^3}) + \frac{n}{2^2}) + 2 \cdot O(n) & = & 2^3 \cdot T(\frac{n}{2^3}) + 3 \cdot O(n) \\ & = & \cdots & & \end{matrix}T(n)​====​2⋅T(2n​)+O(n)2⋅T(2⋅T(22n​)+2n​)+O(n)2⋅T(2⋅T(23n​)+22n​)+2⋅O(n)⋯​==​22⋅T(22n​)+2⋅O(n)23⋅T(23n​)+3⋅O(n)​

假设递归层数为LLL,可得:

T(n2L)=1T(\frac{n}{2^L}) = 1T(2Ln​)=1
L=T(log2n)=O(log2n)L = T(log_2 n) = O(log_2 n)L=T(log2​n)=O(log2​n)

将LLL代入原始递推公式,可得:

T(n)=2L⋅T(n2L)+L⋅O(n)=O(2log2n)+O(log2n)⋅O(n)=O(n)+O(log2n)⋅O(n)=O(n⋅log2n)\begin{matrix} T(n) & = & 2^L \cdot T(\frac{n}{2^L}) + L \cdot O(n) \\ & = & O(2^{log_2 n}) + O(log_2 n) \cdot O(n) \\ & = & O(n) + O(log_2 n) \cdot O(n) \\ & = & O(n \cdot log_2 n) \end{matrix}T(n)​====​2L⋅T(2Ln​)+L⋅O(n)O(2log2​n)+O(log2​n)⋅O(n)O(n)+O(log2​n)⋅O(n)O(n⋅log2​n)​

该算法的时间复杂度为O(n⋅log2n)O(n \cdot log_2 n)O(n⋅log2​n)。因为每次Merge函数都会申请规模为T(n)T(n)T(n)的内存,其空间复杂度为O(n)O(n)O(n)。

MergeSort.h
MergeSort.cpp
MergeSortTest.cpp
MergeSort2.png
MergeSort1.png