堆专题(下)

一点题外话

上次在我的公众号给大家做了一个小调查《投出你想要的题解编程语言吧~》。以下是调查的结果:
投票结果
而关于其他,则大多数是 Go 语言。
投其他的人都写了什么?
由于 Java 和 Python 所占比例已经超过了 60%,这次我尝试一下 Java 和 Python 双语言来写,感谢 @CaptainZ 提供的 Java 代码。同时为了不让文章又臭又长,我将 Java 本文所有代码(Java 和 Python)都放到了力扣加加官网上,网站地址:https://leetcode-solution.cn/solution-code
如果不科学上网的话,可能打开会很慢。

正文

大家好,我是 lucifer。今天给大家带来的是《堆》专题。先上下本文的提纲,这个是我用 mindmap 画的一个脑图,之后我会继续完善,将其他专题逐步完善起来。
大家也可以使用 vscode blink-mind 打开源文件查看,里面有一些笔记可以点开查看。源文件可以去我的公众号《力扣加加》回复脑图获取,以后脑图也会持续更新更多内容。vscode 插件地址:https://marketplace.visualstudio.com/items?itemName=awehook.vscode-blink-mind
本系列包含以下专题:
本次是下篇,没有看过上篇的同学强烈建议先阅读上篇几乎刷完了力扣所有的堆题,我发现了这些东西。。。(第一弹)
这是第二部分,后面的内容更加干货,分别是三个技巧四大应用。这两个主题是专门教你怎么解题的。掌握了它,力扣中的大多数堆的题目都不在话下(当然我指的仅仅是题目中涉及到堆的部分)。
警告: 本章的题目基本都是力扣 hard 难度,这是因为堆的题目很多标记难度都不小,关于这点在前面也介绍过了。

一点说明

在上主菜之前,先给大家来个开胃菜。
这里给大家介绍两个概念,分别是元组模拟大顶堆 。之所以进行这些说明就是防止大家后面看不懂。

元组

使用堆不仅仅可以存储单一值,比如 [1,2,3,4] 的 1,2,3,4 分别都是单一值。除了单一值,也可以存储复合值,比如对象或者元组等。
这里我们介绍一种存储元组的方式,这个技巧会在后面被广泛使用,请务必掌握。比如 [(1,2,3), (4,5,6), (2,1,3),(4,2,8)]。
1
h = [(1,2,3), (4,5,6), (2,1,3),(4,2,8)]
2
heapq.heappify(h) # 堆化(小顶堆)
3
4
heapq.heappop() # 弹出 (1,2,3)
5
heapq.heappop() # 弹出 (2,1,3)
6
heapq.heappop() # 弹出 (4,2,8)
7
heapq.heappop() # 弹出 (4,5,6)
Copied!
用图来表示堆结构就是下面这样:
使用元组的小顶堆
简单解释一下上面代码的执行结果。
使用元组的方式,默认将元组第一个值当做键来比较。如果第一个相同,继续比较第二个。比如上面的 (4,5,6) 和 (4,2,8),由于第一个值相同,因此继续比较后一个,又由于 5 比 2 大,因此 (4,2,8)先出堆。
使用这个技巧有两个作用:
  1. 1.
    携带一些额外的信息。 比如我想求二维矩阵中第 k 小数,当然是以值作为键。但是处理过程又需要用到其行和列信息,那么使用元组就很合适,比如 (val, row, col)这样的形式。
  2. 2.
    想根据两个键进行排序,一个主键一个副键。这里面又有两种典型的用法,
    2.1 一种是两个都是同样的顺序,比如都是顺序或者都是逆序。
    2.2 另一种是两个不同顺序排序,即一个是逆序一个是顺序。
由于篇幅原因,具体就不再这里展开了,大家在平时做题过程中留意可以一下,有机会我会单独开一篇文章讲解。
如果你所使用的编程语言没有堆或者堆的实现不支持元组,那么也可以通过简单的改造使其支持,主要就是自定义比较逻辑即可。

模拟大顶堆

由于 Python 没有大顶堆。因此我这里使用了小顶堆进行模拟实现。即将原有的数全部取相反数,比如原数字是 5,就将 -5 入堆。经过这样的处理,小顶堆就可以当成大顶堆用了。不过需要注意的是,当你 pop 出来的时候, 记得也要取反,将其还原回来哦。
代码示例:
1
h = []
2
A = [1,2,3,4,5]
3
for a in A:
4
heapq.heappush(h, -a)
5
-1 * heapq.heappop(h) # 5
6
-1 * heapq.heappop(h) # 4
7
-1 * heapq.heappop(h) # 3
8
-1 * heapq.heappop(h) # 2
9
-1 * heapq.heappop(h) # 1
Copied!
用图来表示就是下面这样:
小顶堆模拟大顶堆
铺垫就到这里,接下来进入正题。

三个技巧

技巧一 - 固定堆

这个技巧指的是固定堆的大小 k 不变,代码上可通过每 pop 出去一个就 push 进来一个来实现。而由于初始堆可能是 0,我们刚开始需要一个一个 push 进堆以达到堆的大小为 k,因此严格来说应该是维持堆的大小不大于 k
固定堆一个典型的应用就是求第 k 小的数。其实求第 k 小的数最简单的思路是建立小顶堆,将所有的数先全部入堆,然后逐个出堆,一共出堆 k 次。最后一次出堆的就是第 k 小的数。
然而,我们也可不先全部入堆,而是建立大顶堆(注意不是上面的小顶堆),并维持堆的大小为 k 个。如果新的数入堆之后堆的大小大于 k,则需要将堆顶的数和新的数进行比较,并将较大的移除。这样可以保证堆中的数是全体数字中最小的 k 个,而这最小的 k 个中最大的(即堆顶)不就是第 k 小的么?这也就是选择建立大顶堆,而不是小顶堆的原因。
固定大顶堆求第 5 小的数
简单一句话总结就是固定一个大小为 k 的大顶堆可以快速求第 k 小的数,反之固定一个大小为 k 的小顶堆可以快速求第 k 大的数。比如力扣 2020-02-24 的周赛第三题5663. 找出第 K 大的异或坐标值就可以用固定小顶堆技巧来实现(这道题让你求第 k 大的数)。
这么说可能你的感受并不强烈,接下来我给大家举两个例子来帮助大家加深印象。

295. 数据流的中位数

题目描述
1
中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
2
3
例如,
4
5
[2,3,4] 的中位数是 3
6
7
[2,3] 的中位数是 (2 + 3) / 2 = 2.5
8
9
设计一个支持以下两种操作的数据结构:
10
11
void addNum(int num) - 从数据流中添加一个整数到数据结构中。
12
double findMedian() - 返回目前所有元素的中位数。
13
示例:
14
15
addNum(1)
16
addNum(2)
17
findMedian() -> 1.5
18
addNum(3)
19
findMedian() -> 2
20
进阶:
21
22
如果数据流中所有整数都在 0 到 100 范围内,你将如何优化你的算法?
23
如果数据流中 99% 的整数都在 0 到 100 范围内,你将如何优化你的算法?
Copied!
思路
这道题实际上可看出是求第 k 小的数的特例了。
  • 如果列表长度是奇数,那么 k 就是 (n + 1) / 2,中位数就是第 k 个数,。比如 n 是 5, k 就是 (5 + 1)/ 2 = 3。
  • 如果列表长度是偶数,那么 k 就是 (n + 1) / 2 和 (n + 1) / 2 + 1,中位数则是这两个数的平均值。比如 n 是 6, k 就是 (6 + 1)/ 2 = 3 和 (6 + 1) / 2 + 1 = 4。
因此我们的可以维护两个固定堆,固定堆的大小为 $(n + 1) \div 2$ 和 $n - (n + 1)\div2$,也就是两个堆的大小最多相差 1,更具体的就是 $ 0 <= (n + 1) \div 2 - (n - (n + 1) \div 2) <= 1$。
基于上面提到的知识,我们可以:
  • 建立一个大顶堆,并存放最小的 $(n + 1) \div 2$ 个数,这样堆顶的数就是第 $(n + 1) \div 2$ 小的数,也就是奇数情况的中位数。
  • 建立一个小顶堆,并存放最大的 n - $(n + 1) \div 2$ 个数,这样堆顶的数就是第 n - $(n + 1) \div 2$ 大的数,结合上面的大顶堆,可求出偶数情况的中位数。
有了这样一个知识,剩下的只是如何维护两个堆的大小了。
  • 如果大顶堆的个数比小顶堆少,那么就将小顶堆中最小的转移到大顶堆。而由于小顶堆维护的是最大的 k 个数,大顶堆维护的是最小的 k 个数,因此小顶堆堆顶一定大于等于大顶堆堆顶,并且这两个堆顶是此时的中位数。
  • 如果大顶堆的个数比小顶堆的个数多 2,那么就将大顶堆中最大的转移到小顶堆,理由同上。
至此,可能你已经明白了为什么分别建立两个堆,并且需要一个大顶堆一个小顶堆。这其中的原因正如上面所描述的那样。
固定堆的应用常见还不止于此,我们继续看一道题。
代码
1
class MedianFinder:
2
def __init__(self):
3
self.min_heap = []
4
self.max_heap = []
5
def addNum(self, num: int) -> None:
6
if not self.max_heap or num < -self.max_heap[0]:
7
heapq.heappush(self.max_heap, -num)
8
else:
9
heapq.heappush(self.min_heap, num)
10
if len(self.max_heap) > len(self.min_heap) + 1:
11
heappush(self.min_heap, -heappop(self.max_heap))
12
elif len(self.min_heap) > len(self.max_heap):
13
heappush(self.max_heap, -heappop(self.min_heap))
14
def findMedian(self) -> float:
15
if len(self.min_heap) == len(self.max_heap): return (self.min_heap[0] - self.max_heap[0]) / 2
16
return -self.max_heap[0]
Copied!
(代码 1.3.1)

857. 雇佣 K 名工人的最低成本

题目描述
1
有 N 名工人。 第 i 名工人的工作质量为 quality[i] ,其最低期望工资为 wage[i] 。
2
3
现在我们想雇佣 K 名工人组成一个工资组。在雇佣 一组 K 名工人时,我们必须按照下述规则向他们支付工资:
4
5
对工资组中的每名工人,应当按其工作质量与同组其他工人的工作质量的比例来支付工资。
6
工资组中的每名工人至少应当得到他们的最低期望工资。
7
返回组成一个满足上述条件的工资组至少需要多少钱。
8
9
10
11
示例 1:
12
13
输入: quality = [10,20,5], wage = [70,50,30], K = 2
14
输出: 105.00000
15
解释: 我们向 0 号工人支付 70,向 2 号工人支付 35。
16
示例 2:
17
18
输入: quality = [3,1,10,10,1], wage = [4,8,2,2,7], K = 3
19
输出: 30.66667
20
解释: 我们向 0 号工人支付 4,向 2 号和 3 号分别支付 13.33333。
21
22
23
提示:
24
25
1 <= K <= N <= 10000,其中 N = quality.length = wage.length
26
1 <= quality[i] <= 10000
27
1 <= wage[i] <= 10000
28
与正确答案误差在 10^-5 之内的答案将被视为正确的。
Copied!
思路
题目要求我们选择 k 个人,按其工作质量与同组其他工人的工作质量的比例来支付工资,并且工资组中的每名工人至少应当得到他们的最低期望工资。
换句话说,同一组的 k 个人他们的工作质量和工资比是一个固定值才能使支付的工资最少。请先理解这句话,后面的内容都是基于这个前提产生的。
我们不妨定一个指标工作效率,其值等于 q / w。前面说了这 k 个人的 q / w 是相同的才能保证工资最少,并且这个 q / w 一定是这 k 个人最低的(短板),否则一定会有人得不到最低期望工资。
于是我们可以写出下面的代码:
1
class Solution:
2
def mincostToHireWorkers(self, quality: List[int], wage: List[int], K: int) -> float:
3
eff = [(q / w, q, w) for a, b in zip(quality, wage)]
4
eff.sort(key=lambda a: -a[0])
5
ans = float('inf')
6
for i in range(K-1, len(eff)):
7
h = []
8
k = K - 1
9
rate, _, total = eff[i]
10
# 找出工作效率比它高的 k 个人,这 k 个人的工资尽可能低。
11
# 由于已经工作效率倒序排了,因此前面的都是比它高的,然后使用堆就可得到 k 个工资最低的。
12
for j in range(i):
13
heapq.heappush(h, eff[j][1] / rate)
14
while k > 0:
15
total += heapq.heappop(h)
16
k -= 1
17
ans = min(ans, total)
18
return ans
Copied!
(代码 1.3.2)
这种做法每次都 push 很多数,并 pop k 次,并没有很好地利用堆的动态特性,而只利用了其求极值的特性。
一个更好的做法是使用固定堆技巧
这道题可以换个角度思考。其实这道题不就是让我们选 k 个人,工作效率比取他们中最低的,并按照这个最低的工作效率计算总工资,找出最低的总工资么? 因此这道题可以固定一个大小为 k 的大顶堆,通过一定操作保证堆顶的就是第 k 小的(操作和前面的题类似)。
并且前面的解法中堆使用了三元组 (q / w, q, w),实际上这也没有必要。因为已知其中两个,可推导出另外一个,因此存储两个就行了,而又由于我们需要根据工作效率比做堆的键,因此任意选一个 q 或者 w 即可,这里我选择了 q,即存 (q/2, q) 二元组。
具体来说就是:以 rate 为最低工作效率比的 k 个人的总工资 = $\displaystyle \sum{n=1}^{k}{q}{n}/rate$,这里的 rate 就是当前的 q / w,同时也是 k 个人的 q / w 的最小值。
代码
1
class Solution:
2
def mincostToHireWorkers(self, quality: List[int], wage: List[int], K: int) -> float:
3
effs = [(q / w, q) for q, w in zip(quality, wage)]
4
effs.sort(key=lambda a: -a[0])
5
ans = float('inf')
6
h = []
7
total = 0
8
for rate, q in effs:
9
heapq.heappush(h, -q)
10
total += q
11
if len(h) > K:
12
total += heapq.heappop(h)
13
if len(h) == K:
14
ans = min(ans, total / rate)
15
return ans
Copied!
(代码 1.3.3)

技巧二 - 多路归并

这个技巧其实在前面讲超级丑数的时候已经提到了,只是没有给这种类型的题目一个名字
其实这个技巧,叫做多指针优化可能会更合适,只不过这个名字实在太过朴素且容易和双指针什么的混淆,因此我给 ta 起了个别致的名字 - 多路归并
  • 多路体现在:有多条候选路线。代码上,我们可使用多指针来表示。
  • 归并体现在:结果可能是多个候选路线中最长的或者最短,也可能是第 k 个 等。因此我们需要对多条路线的结果进行比较,并根据题目描述舍弃或者选取某一个或多个路线。
这样描述比较抽象,接下来通过几个例子来加深一下大家的理解。
这里我给大家精心准备了四道难度为 hard 的题目。 掌握了这个套路就可以去快乐地 AC 这四道题啦。

1439. 有序矩阵中的第 k 个最小数组和

题目描述
1
给你一个 m * n 的矩阵 mat,以及一个整数 k ,矩阵中的每一行都以非递减的顺序排列。
2
3
你可以从每一行中选出 1 个元素形成一个数组。返回所有可能数组中的第 k 个 最小 数组和。
4
5
6
7
示例 1:
8
9
输入:mat = [[1,3,11],[2,4,6]], k = 5
10
输出:7
11
解释:从每一行中选出一个元素,前 k 个和最小的数组分别是:
12
[1,2], [1,4], [3,2], [3,4], [1,6]。其中第 5 个的和是 7 。
13
示例 2:
14
15
输入:mat = [[1,3,11],[2,4,6]], k = 9
16
输出:17
17
示例 3:
18
19
输入:mat = [[1,10,10],[1,4,5],[2,3,6]], k = 7
20
输出:9
21
解释:从每一行中选出一个元素,前 k 个和最小的数组分别是:
22
[1,1,2], [1,1,3], [1,4,2], [1,4,3], [1,1,6], [1,5,2], [1,5,3]。其中第 7 个的和是 9 。
23
示例 4:
24
25
输入:mat = [[1,1,10],[2,2,9]], k = 7
26
输出:12
27
28
29
提示:
30
31
m == mat.length
32
n == mat.length[i]
33
1 <= m, n <= 40
34
1 <= k <= min(200, n ^ m)
35
1 <= mat[i][j] <= 5000
36
mat[i] 是一个非递减数组
Copied!
思路
其实这道题就是给你 m 个长度均相同的一维数组,让我们从这 m 个数组中分别选出一个数,即一共选取 m 个数,求这 m 个数的和是所有选取可能性中和第 k 小的。
一个朴素的想法是使用多指针来解。对于这道题来说就是使用 m 个指针,分别指向 m 个一维数组,指针的位置表示当前选取的是该一维数组中第几个。
以题目中的 mat = [[1,3,11],[2,4,6]], k = 5 为例。
  • 先初始化两个指针 p1,p2,分别指向两个一维数组的开头,代码表示就是全部初始化为 0。
  • 此时两个指针指向的数字和为 1 + 2 = 3,这就是第 1 小的和。
  • 接下来,我们移动其中一个指针。此时我们可以移动 p1,也可以移动 p2。
  • 那么第 2 小的一定是移动 p1 和 移动 p2 这两种情况的较小值。而这里移动 p1 和 p2 实际上都会得到 5,也就是说第 2 和第 3 小的和都是 5。
到这里已经分叉了,出现了两种情况(注意看粗体的位置,粗体表示的是指针的位置):
  1. 1.
    [1,3,11],[2,4,6] 和为 5
  2. 2.
    [1,3,11],[2,4,6] 和为 5
接下来,这两种情况应该齐头并进,共同进行下去
对于情况 1 来说,接下来移动又有两种情况。
  1. 1.
    [1,3,11],[2,4,6] 和为 13
  2. 2.
    [1,3,11],[2,4,6] 和为 7
对于情况 2 来说,接下来移动也有两种情况。
  1. 1.
    [1,3,11],[2,4,6] 和为 7
  2. 2.
    [1,3,11],[2,4,6] 和为 7
我们通过比较这四种情况,得出结论: 第 4,5,6 小的数都是 7。但第 7 小的数并不一定是 13。原因和上面类似,可能第 7 小的就隐藏在前面的 7 分裂之后的新情况中,实际上确实如此。因此我们需要继续执行上述逻辑。
进一步,我们可以将上面的思路拓展到一般情况。
上面提到了题目需要求的其实是第 k 小的和,而最小的我们是容易知道的,即所有的一维数组首项和。我们又发现,根据最小的,我们可以推导出第 2 小,推导的方式就是移动其中一个指针,这就一共分裂出了 n 种情况了,其中 n 为一维数组长度,第 2 小的就在这分裂中的 n 种情况中,而筛选的方式是这 n 种情况和最小的,后面的情况也是类似。不难看出每次分裂之后极值也发生了变化,因此这是一个明显的求动态求极值的信号,使用堆是一个不错的选择。
那代码该如何书写呢?
上面说了,我们先要初始化 m 个指针,并赋值为 0。对应伪代码:
1
# 初始化堆
2
h = []
3
# sum(vec[0] for vec in mat) 是 m 个一维数组的首项和
4
# [0] * m 就是初始化了一个长度为 m 且全部填充为 0 的数组。
5
# 我们将上面的两个信息组装成元祖 cur 方便使用
6
cur = (sum(vec[0] for vec in mat), [0] * m)
7
# 将其入堆
8
heapq.heappush(h, cur)
Copied!
接下来,我们每次都移动一个指针,从而形成分叉出一条新的分支。每次从堆中弹出一个最小的,弹出 k 次就是第 k 小的了。伪代码:
1
for 1 to K:
2
# acc 当前的和, pointers 是指针情况。
3
acc, pointers = heapq.heappop(h)
4
# 每次都粗暴地移动指针数组中的一个指针。每移动一个指针就分叉一次, 一共可能移动的情况是 n,其中 n 为一维数组的长度。
5
for i, pointer in enumerate(pointers):
6
# 如果 pointer == len(mat[0]) - 1 说明到头了,不能移动了
7
if pointer != len(mat[0]) - 1:
8
# 下面两句话的含义是修改 pointers[i] 的指针 为 pointers[i] + 1
9
new_pointers = pointers.copy()
10
new_pointers[i] += 1
11
# 将更新后的 acc 和指针数组重新入堆
12
heapq.heappush(h, (acc + mat[i][pointer + 1] - mat[i][pointer], new_pointers))
Copied!
这是多路归并问题的核心代码,请务必记住。
代码看起来很多,其实去掉注释一共才七行而已。
上面的伪代码有一个问题。比如有两个一维数组,指针都初始化为 0。第一次移动第一个一维数组的指针,第二次移动第二个数组的指针,此时指针数组为 [1, 1],即全部指针均指向下标为 1 的元素。而如果第一次移动第二个一维数组的指针,第二次移动第一个数组的指针,此时指针数组仍然为 [1, 1]。这实际上是一种情况,如果不加控制会被计算两次导致出错。
一个可能的解决方案是使用 hashset 记录所有的指针情况,这样就避免了同样的指针被计算多次的问题。为了做到这一点,我们需要对指针数组的使用做一些微调,即使用元组代替数组。原因在于数组是无法直接哈希化的。具体内容请参考代码区。
多路归并的题目,思路和代码都比较类似。为了后面的题目能够更高地理解,请务必搞定这道题,后面我们将不会这么详细地进行分析。
代码
1
class Solution:
2
def kthSmallest(self, mat, k: int) -> int:
3
h = []
4
cur = (sum(vec[0] for vec in mat), tuple([0] * len(mat)))
5
heapq.heappush(h, cur)
6
seen = set(cur)
7
8
for _ in range(k):
9
acc, pointers = heapq.heappop(h)
10
for i, pointer in enumerate(pointers):
11
if pointer != len(mat[0]) - 1:
12
t = list(pointers)
13
t[i] = pointer + 1
14
tt = tuple(t)
15
if tt not in seen:
16
seen.add(tt)
17
heapq.heappush(h, (acc + mat[i][pointer + 1] - mat[i][pointer], tt))
18
return acc
Copied!
(代码 1.3.4)

719. 找出第 k 小的距离对

题目描述
1
给定一个整数数组,返回所有数对之间的第 k 个最小距离。一对 (A, B) 的距离被定义为 A 和 B 之间的绝对差值。
2
3
示例 1:
4
5
输入:
6
nums = [1,3,1]
7
k = 1
8
输出:0
9
解释:
10
所有数对如下:
11
(1,3) -> 2
12
(1,1) -> 0
13
(3,1) -> 2
14
因此第 1 个最小距离的数对是 (1,1),它们之间的距离为 0。
15
提示:
16
17
2 <= len(nums) <= 10000.
18
0 <= nums[i] < 1000000.
19
1 <= k <= len(nums) * (len(nums) - 1) / 2.
Copied!
思路
不难看出所有的数对可能共 $C_n^2$ 个,也就是 $n\times(n-1)\div2$。
因此我们可以使用两次循环找出所有的数对,并升序排序,之后取第 k 个。
实际上,我们可使用固定堆技巧,维护一个大小为 k 的大顶堆,这样堆顶的元素就是第 k 小的,这在前面的固定堆中已经讲过,不再赘述。
1
class Solution:
2
def smallestDistancePair(self, nums: List[int], k: int) -> int:
3
h = []
4
for i in range(len(nums)):
5
for j in range(i + 1, len(nums)):
6
a, b = nums[i], nums[j]
7
# 维持堆大小不超过 k
8
if len(h) == k and -abs(a - b) > h[0]:
9
heapq.heappop(h)
10
if len(h) < k:
11
heapq.heappush(h, -abs(a - b))
12
13
return -h[0]
Copied!
(代码 1.3.5)
不过这种优化意义不大,因为算法的瓶颈在于 $N^2$ 部分的枚举,我们应当设法优化这一点。
如果我们将数对进行排序,那么最小的数对距离一定在 nums[i] - nums[i - 1] 中,其中 i 为从 1 到 n 的整数,究竟是哪个取决于谁更小。接下来就可以使用上面多路归并的思路来解决了。
如果 nums[i] - nums[i - 1] 的差是最小的,那么第 2 小的一定是剩下的 n - 1 种情况和 nums[i] - nums[i - 1] 分裂的新情况。关于如何分裂,和上面类似,我们只需要移动其中 i 的指针为 i + 1 即可。这里的指针数组长度固定为 2,而不是上面题目中的 m。这里我将两个指针分别命名为 fr 和 to,分别代表 from 和 to。
代码
1
class Solution(object):
2
def smallestDistancePair(self, nums, k):
3
nums.sort()
4
# n 种候选答案
5
h = [(nums[i+1] - nums[i], i, i+1) for i in range(len(nums) - 1)]
6
heapq.heapify(h)
7
8
for _ in range(k):
9
diff, fr, to = heapq.heappop(h)
10
if to + 1 < len(nums):
11
heapq.heappush((nums[to + 1] - nums[fr], fr, to + 1))
12
13
return diff
Copied!
(代码 1.3.6)
由于时间复杂度和 k 有关,而 k 最多可能达到 $N^2$ 的量级,因此此方法实际上也会超时。不过这证明了这种思路的正确性,如果题目稍加改变说不定就能用上
这道题可通过二分法来解决,由于和堆主题有偏差,因此这里简单讲一下。
求第 k 小的数比较容易想到的就是堆和二分法。二分的原因在于求第 k 小,本质就是求不大于其本身的有 k - 1 个的那个数。而这个问题很多时候满足单调性,因此就可使用二分来解决。
以这道题来说,最大的数对差就是数组的最大值 - 最小值,不妨记为 max_diff。我们可以这样发问:
  • 数对差小于 max_diff 的有几个?
  • 数对差小于 max_diff - 1 的有几个?
  • 数对差小于 max_diff - 2 的有几个?
  • 数对差小于 max_diff - 3 的有几个?
  • 数对差小于 max_diff - 4 的有几个?
  • 。。。
而我们知道,发问的答案也是不严格递减的,因此使用二分就应该被想到。我们不断发问直到问到小于 x 的有 k - 1 个即可。然而这样的发问也有问题。原因有两个:
  1. 1.
    小于 x 的有 k - 1 个的数可能不止一个
  2. 2.
    我们无法确定小于 x 的有 k - 1 个的数一定存在。 比如数对差分别为 [1,1,1,1,2],让你求第 3 大的,那么小于 x 有两个的数根本就不存在。
我们的思路可调整为求小于等于 x 有 k 个的,接下来我们使用二分法的最左模板即可解决。关于最左模板可参考我的二分查找专题
代码:
1
class Solution:
2
def smallestDistancePair(self, A: List[int], K: int) -> int:
3
A.sort()
4
l, r = 0, A[-1] - A[0]
5
6
def count_ngt(mid):
7
slow = 0
8
ans = 0
9
for fast in range(len(A)):
10
while A[fast] - A[slow] > mid:
11
slow += 1
12
ans += fast - slow
13
return ans
14
15
while l <= r:
16
mid = (l + r) // 2
17
if count_ngt(mid) >= K:
18
r = mid - 1
19
else:
20
l = mid + 1
21
return l
Copied!
(代码 1.3.7)

632. 最小区间

题目描述
1
你有 k 个 非递减排列 的整数列表。找到一个 最小 区间,使得 k 个列表中的每个列表至少有一个数包含在其中。
2
3
我们定义如果 b-a < d-c 或者在 b-a == d-c 时 a < c,则区间 [a,b] 比 [c,d] 小。
4
5
6
7
示例 1:
8
9
输入:nums = [[4,10,15,24,26], [0,9,12,20], [5,18,22,30]]
10
输出:[20,24]
11
解释:
12
列表 1:[4, 10, 15, 24, 26],24 在区间 [20,24] 中。
13
列表 2:[0, 9, 12, 20],20 在区间 [20,24] 中。
14
列表 3:[5, 18, 22, 30],22 在区间 [20,24] 中。
15
示例 2:
16
17
输入:nums = [[1,2,3],[1,2,3],[1,2,3]]
18
输出:[1,1]
19
示例 3:
20
21
输入:nums = [[10,10],[11,11]]
22
输出:[10,11]
23
示例 4:
24
25
输入:nums = [[10],[11]]
26
输出:[10,11]
27
示例 5:
28
29
输入:nums = [[1],[2],[3],[4],[5],[6],[7]]
30
输出:[1,7]
31
32
33
提示:
34
35
nums.length == k
36
1 <= k <= 3500
37
1 <= nums[i].length <= 50
38
-105 <= nums[i][j] <= 105
39
nums[i] 按非递减顺序排列
Copied!
思路
这道题本质上就是在 m 个一维数组中各取出一个数字,重新组成新的数组 A,使得新的数组 A 中最大值和最小值的差值(diff)最小
这道题和上面的题目有点类似,又略有不同。这道题是一个矩阵,上面一道题是一维数组。不过我们可以将二维矩阵看出一维数组,这样我们就可以沿用上面的思路了。
上面的思路 diff 最小的一定产生于排序之后相邻的元素之间。而这道题我们无法直接对二维数组进行排序,而且即使进行排序,也不好确定排序的原则。
我们其实可以继续使用前面两道题的思路。具体来说就是使用小顶堆获取堆中最小值,进而通过一个变量记录堆中的最大值,这样就知道了 diff,每次更新指针都会产生一个新的 diff,不断重复这个过程并维护全局最小 diff 即可。
这种算法的成立的前提是 k 个列表都是升序排列的,这里需要数组升序原理和上面题目是一样的,有序之后就可以对每个列表维护一个指针,进而使用上面的思路解决。
以题目中的 nums = [[1,2,3],[1,2,3],[1,2,3]] 为例:
  • [1,2,3]
  • [1,2,3]
  • [1,2,3]
我们先选取所有行的最小值,也就是 [1,1,1],这时的 diff 为 0,全局最大值为 1,最小值也为 1。接下来,继续寻找备胎,看有没有更好的备胎供我们选择。
接下来的备胎可能产生于情况 1:
  • [1,2,3]
  • [1,2,3]
  • [1,2,3] 移动了这行的指针,将其从原来的 0 移动一个单位到达 1。
或者情况 2:
  • [1,2,3]
  • [1,2,3]移动了这行的指针,将其从原来的 0 移动一个单位到达 1。
  • [1,2,3]
。。。
这几种情况又继续分裂更多的情况,这个就和上面的题目一样了,不再赘述。
代码
1
class Solution:
2
def smallestRange(self, martrix: List[List[int]]) -> List[int]:
3
l, r = -10**9, 10**9
4
# 将每一行最小的都放到堆中,同时记录其所在的行号和列号,一共 n 个齐头并进
5
h = [(row[0], i, 0) for i, row in enumerate(martrix)]
6
heapq.heapify(h)
7
# 维护最大值
8
max_v = max(row[0] for row in martrix)
9
10
while True:
11
min_v, row, col = heapq.heappop(h)
12
# max_v - min_v 是当前的最大最小差值, r - l 为全局的最大最小差值。因为如果当前的更小,我们就更新全局结果
13
if max_v - min_v < r - l:
14
l, r = min_v, max_v
15
if col == len(martrix[row]) - 1: return [l, r]
16
# 更新指针,继续往后移动一位
17
heapq.heappush(h, (martrix[row][col + 1], row, col + 1))
18
max_v = max(max_v, martrix[row][col + 1])
Copied!
(代码 1.3.8)

1675. 数组的最小偏移量

题目描述
1
给你一个由 n 个正整数组成的数组 nums 。
2
3
你可以对数组的任意元素执行任意次数的两类操作:
4
5
如果元素是 偶数 ,除以 2
6
例如,如果数组是 [1,2,3,4] ,那么你可以对最后一个元素执行此操作,使其变成 [1,2,3,2]
7
如果元素是 奇数 ,乘上 2
8
例如,如果数组是 [1,2,3,4] ,那么你可以对第一个元素执行此操作,使其变成 [2,2,3,4]
9
数组的 偏移量 是数组中任意两个元素之间的 最大差值 。
10
11
返回数组在执行某些操作之后可以拥有的 最小偏移量 。
12
13
示例 1:
14
15
输入:nums = [1,2,3,4]
16
输出:1
17
解释:你可以将数组转换为 [1,2,3,2],然后转换成 [2,2,3,2],偏移量是 3 - 2 = 1
18
示例 2:
19
20
输入:nums = [4,1,5,20,3]
21
输出:3
22
解释:两次操作后,你可以将数组转换为 [4,2,5,5,3],偏移量是 5 - 2 = 3
23
示例 3:
24
25
输入:nums = [2,10,8]
26
输出:3
27
28
提示:
29
30
n == nums.length
31
2 <= n <= 105
32
1 <= nums[i] <= 109
Copied!
思路
题目说可对数组中每一项都执行任意次操作,但其实操作是有限的。
  • 我们只能对奇数进行一次 2 倍操作,因为 2 倍之后其就变成了偶数了。
  • 我们可以对偶数进行若干次除 2 操作,直到等于一个奇数,不难看出这也是一个有限次的操作。
以题目中的 [1,2,3,4] 来说。我们可以:
  • 将 1 变成 2(也可以不变)
  • 将 2 变成 1(也可以不变)
  • 将 3 变成 6(也可以不变)
  • 将 4 变成 2 或 1(也可以不变)
用图来表示就是下面这样的:
一维数组转二维数组
这不就相当于: 从 [[1,2], [1,2], [3,6], [1,2,4]] 这样的一个二维数组中的每一行分别选取一个数,并使得其差最小么?这难道不是和上面的题目一模一样么?
这里我直接将上面的题目解法封装成了一个 api 调用了,具体看代码。
代码
1
class Solution:
2
def smallestRange(self, martrix: List[List[int]]) -> List[int]:
3
l, r = -10**9, 10**9
4
# 将每一行最小的都放到堆中,同时记录其所在的行号和列号,一共 n 个齐头并进
5
h = [(row[0], i, 0) for i, row in enumerate(martrix)]
6
heapq.heapify(h)
7
# 维护最大值
8
max_v = max(row[0] for row in martrix)
9
10
while True:
11
min_v, row, col = heapq.heappop(h)
12
# max_v - min_v 是当前的最大最小差值, r - l 为全局的最大最小差值。因为如果当前的更小,我们就更新全局结果
13
if max_v - min_v < r - l:
14
l, r = min_v, max_v
15
if col == len(martrix[row]) - 1: return [l, r]
16
# 更新指针,继续往后移动一位
17
heapq.heappush(h, (martrix[row][col + 1], row, col + 1))
18
max_v = max(max_v, martrix[row][col + 1])
19
def minimumDeviation(self, nums: List[int]) -> int:
20
matrix = [[] for _ in range(len(nums))]
21
for i, num in enumerate(nums):
22
if num & 1 == 1:
23
matrix[i] += [num, num * 2]
24
else:
25
temp = []
26
while num and num & 1 == 0:
27
temp += [num]
28
num //= 2
29
temp += [num]
30
matrix[i] += temp[::-1]
31
a, b = self.smallestRange(matrix)
32
return b - a
Copied!
(代码 1.3.9)

技巧三 - 事后小诸葛

这个技巧指的是:当从左到右遍历的时候,我们是不知道右边是什么的,需要等到你到了右边之后才知道。
如果想知道右边是什么,一种简单的方式是遍历两次,第一次遍历将数据记录下来,当第二次遍历的时候,用上次遍历记录的数据。这是我们使用最多的方式。不过有时候,我们也可以在遍历到指定元素后,往前回溯,这样就可以边遍历边存储,使用一次遍历即可。具体来说就是将从左到右的数据全部收集起来,等到需要用的时候,从里面挑一个用。如果我们都要取最大值或者最小值且极值会发生变动, 就可使用堆加速。直观上就是使用了时光机回到之前,达到了事后诸葛亮的目的。
这样说你肯定不明白啥意思。没关系,我们通过几个例子来讲一下。当你看完这些例子之后,再回头看这句话。

871. 最低加油次数

题目描述
1
汽车从起点出发驶向目的地,该目的地位于出发位置东面 target 英里处。
2
3
沿途有加油站,每个 station[i] 代表一个加油站,它位于出发位置东面 station[i][0] 英里处,并且有 station[i][1] 升汽油。
4
5
假设汽车油箱的容量是无限的,其中最初有 startFuel 升燃料。它每行驶 1 英里就会用掉 1 升汽油。
6
7
当汽车到达加油站时,它可能停下来加油,将所有汽油从加油站转移到汽车中。
8
9
为了到达目的地,汽车所必要的最低加油次数是多少?如果无法到达目的地,则返回 -1 。
10
11
注意:如果汽车到达加油站时剩余燃料为 0,它仍然可以在那里加油。如果汽车到达目的地时剩余燃料为 0,仍然认为它已经到达目的地。
12
13
14
15
示例 1:
16
17
输入:target = 1, startFuel = 1, stations = []
18
输出:0
19
解释:我们可以在不加油的情况下到达目的地。
20
示例 2:
21
22
输入:target = 100, startFuel = 1, stations = [[10,100]]
23
输出:-1
24
解释:我们无法抵达目的地,甚至无法到达第一个加油站。
25
示例 3:
26
27
输入:target = 100, startFuel = 10, stations = [[10,60],[20,30],[30,30],[60,40]]
28
输出:2
29
解释:
30
我们出发时有 10 升燃料。
31
我们开车来到距起点 10 英里处的加油站,消耗 10 升燃料。将汽油从 0 升加到 60 升。
32
然后,我们从 10 英里处的加油站开到 60 英里处的加油站(消耗 50 升燃料),
33
并将汽油从 10 升加到 50 升。然后我们开车抵达目的地。
34
我们沿途在1两个加油站停靠,所以返回 2 。
35
36
37
提示:
38
39
1 <= target, startFuel, stations[i][1] <= 10^9
40
0 <= stations.length <= 500
41
0 < stations[0][0] < stations[1][0] < ... < stations[stations.length-1][0] < target
Copied!
思路
为了能够获得最低加油次数,我们肯定希望能不加油就不加油。那什么时候必须加油呢?答案应该是如果你不加油,就无法到达下一个目的地的时候
伪代码描述就是:
1
cur = startFuel # 刚开始有 startFuel 升汽油
2
last = 0 # 上一次的位置
3
for i, fuel in stations:
4
cur -= i - last # 走过两个 staton 的耗油为两个 station 的距离,也就是 i - last
5
if cur < 0:
6
# 我们必须在前面就加油,否则到不了这里
7
# 但是在前面的哪个 station 加油呢?
8
# 直觉告诉我们应该贪心地选择可以加汽油最多的站 i,如果加上 i 的汽油还是 cur < 0,继续加次大的站 j,直到没有更多汽油可加或者 cur > 0
Copied!
上面说了要选择可以加汽油最多的站 i,如果加了油还不行,继续选择第二多的站。这种动态求极值的场景非常适合使用 heap。
具体来说就是:
  • 每经过一个站,就将其油量加到堆。
  • 尽可能往前开,油只要不小于 0 就继续开。
  • 如果油量小于 0 ,就从堆中取最大的加到油箱中去,如果油量还是小于 0 继续重复取堆中的最大油量。
  • 如果加完油之后油量大于 0 ,继续开,重复上面的步骤。否则返回 -1,表示无法到达目的地。
那这个算法是如何体现事后小诸葛的呢?你可以把自己代入到题目中进行模拟。 把自己想象成正在开车,你的目标就是题目中的要求:最少加油次数。当你开到一个站的时候,你是不知道你的油量够不够支撑到下个站的,并且就算撑不到下个站,其实也许在上个站加油会更好。所以现实中你无论如何都无法知道在当前站,我是应该加油还是不加油的,因为信息太少了。
那我会怎么做呢?如果是我在开车的话,我只能每次都加油,这样都无法到达目的地,那肯定就无法到达目的地了。但如果这样可以到达目的地,我就可以说如果我们在那个站加油,这个站选择不加就可以最少加油次数到达目的地了。你怎么不早说呢? 这不就是事后诸葛亮么?
这个事后诸葛亮体现在我们是等到没油了才去想应该在之前的某个站加油
所以这个事后诸葛亮本质上解决的是,基于当前信息无法获取最优解,我们必须掌握全部信息之后回溯。以这道题来说,我们可以先遍历一边 station,然后将每个 station 的油量记录到一个数组中,每次我们“预见“到无法到达下个站的时候,就从这个数组中取最大的。。。。 基于此,我们可以考虑使用堆优化取极值的过程,而不是使用数组的方式。
代码
1
class Solution:
2
def minRefuelStops(self, target: int, startFuel: int, stations: List[List[int]]) -> int:
3
stations += [(target, 0)]
4
cur = startFuel
5
ans = 0
6
7
h = []
8
last = 0
9
for i, fuel in stations:
10
cur -= i - last
11
while cur < 0 and h:
12
cur -= heapq.heappop(h)
13
ans += 1
14
if cur < 0:
15
return -1
16
heappush(h, -fuel)
17
18
last = i
19
return ans
Copied!
(代码 1.3.10)

1488. 避免洪水泛滥

题目描述
1
你的国家有无数个湖泊,所有湖泊一开始都是空的。当第 n 个湖泊下雨的时候,如果第 n 个湖泊是空的,那么它就会装满水,否则这个湖泊会发生洪水。你的目标是避免任意一个湖泊发生洪水。
2
3
给你一个整数数组 rains ,其中:
4
5
rains[i] > 0 表示第 i 天时,第 rains[i] 个湖泊会下雨。
6
rains[i] == 0 表示第 i 天没有湖泊会下雨,你可以选择 一个 湖泊并 抽干 这个湖泊的水。
7
请返回一个数组 ans ,满足:
8
9
ans.length == rains.length
10
如果 rains[i] > 0 ,那么ans[i] == -1 。
11
如果 rains[i] == 0 ,ans[i] 是你第 i 天选择抽干的湖泊。
12
如果有多种可行解,请返回它们中的 任意一个 。如果没办法阻止洪水,请返回一个 空的数组 。
13
14
请注意,如果你选择抽干一个装满水的湖泊,它会变成一个空的湖泊。但如果你选择抽干一个空的湖泊,那么将无事发生(详情请看示例 4)。
15
16
17
18
示例 1:
19
20
输入:rains = [1,2,3,4]
21
输出:[-1,-1,-1,-1]
22
解释:第一天后,装满水的湖泊包括 [1]
23
第二天后,装满水的湖泊包括 [1,2]
24
第三天后,装满水的湖泊包括 [1,2,3]
25
第四天后,装满水的湖泊包括 [1,2,3,4]
26
没有哪一天你可以抽干任何湖泊的水,也没有湖泊会发生洪水。
27
示例 2:
28
29
输入:rains = [1,2,0,0,2,1]
30
输出:[-1,-1,2,1,-1,-1]
31
解释:第一天后,装满水的湖泊包括 [1]
32
第二天后,装满水的湖泊包括 [1,2]
33
第三天后,我们抽干湖泊 2 。所以剩下装满水的湖泊包括 [1]
34
第四天后,我们抽干湖泊 1 。所以暂时没有装满水的湖泊了。
35
第五天后,装满水的湖泊包括 [2]。
36
第六天后,装满水的湖泊包括 [1,2]。
37
可以看出,这个方案下不会有洪水发生。同时, [-1,-1,1,2,-1,-1] 也是另一个可行的没有洪水的方案。
38
示例 3:
39
40
输入:rains = [1,2,0,1,2]
41
输出:[]
42
解释:第二天后,装满水的湖泊包括 [1,2]。我们可以在第三天抽干一个湖泊的水。
43
但第三天后,湖泊 1 和 2 都会再次下雨,所以不管我们第三天抽干哪个湖泊的水,另一个湖泊都会发生洪水。
44
示例 4:
45
46
输入:rains = [69,0,0,0,69]
47
输出:[-1,69,1,1,-1]
48
解释:任何形如 [-1,69,x,y,-1], [-1,x,69,y,-1] 或者 [-1,x,y,69,-1] 都是可行的解,其中 1 <= x,y <= 10^9
49
示例 5:
50
51
输入:rains = [10,20,20]
52
输出:[]
53
解释:由于湖泊 20 会连续下 2 天的雨,所以没有没有办法阻止洪水。
54
55
56
提示:
57
58
1 <= rains.length <= 10^5
59
0 <= rains[i] <= 10^9
Copied!
思路
如果上面的题用事后诸葛亮描述比较牵强的话,那后面这两个题可以说很适合了。
题目说明了我们可以在不下雨的时候抽干一个湖泊,如果有多个下满雨的湖泊,我们该抽干哪个湖呢?显然应该是抽干最近即将被洪水淹没的湖。但是现实中无论如何我们都不可能知道未来哪天哪个湖泊会下雨的,即使有天气预报也不行,因此它也不 100% 可靠。
但是代码可以啊。我们可以先遍历一遍 rain 数组就知道第几天哪个湖泊下雨了。有了这个信息,我们就可以事后诸葛亮了。
“今天天气很好,我开了天眼,明天湖泊 2 会被洪水淹没,我们今天就先抽干它,否则就洪水泛滥了。”。
和上面的题目一样,我们也可以不先遍历 rain 数组,再模拟每天的变化,而是直接模拟,即使当前是晴天我们也不抽干任何湖泊。接着在模拟的过程记录晴天的情况,等到洪水发生的时候,我们再考虑前面哪一个晴天应该抽干哪个湖泊。因此这个事后诸葛亮体现在我们是等到洪水泛滥了才去想应该在之前的某天采取什么手段
算法:
  • 遍历 rain, 模拟每天的变化
  • 如果 rain 当前是 0 表示当前是晴天,我们不抽干任何湖泊。但是我们将当前天记录到 sunny 数组。
  • 如果 rain 大于 0,说明有一个湖泊下雨了,我们去看下下雨的这个湖泊是否发生了洪水泛滥。其实就是看下下雨前是否已经有水了。这提示我们用一个数据结构 lakes 记录每个湖泊的情况,我们可以用 0 表示没有水,1 表示有水。这样当湖泊 i 下雨的时候且 lakes[i] = 1 就会发生洪水泛滥。
  • 如果当前湖泊发生了洪水泛滥,那么就去 sunny 数组找一个晴天去抽干它,这样它就不会洪水泛滥,接下来只需要保持 lakes[i] = 1 即可。
这道题没有使用到堆,我是故意的。之所以这么做,是让大家明白事后诸葛亮这个技巧并不是堆特有的,实际上这就是一种普通的算法思想,就好像从后往前遍历一样。只不过,很多时候,我们事后诸葛亮的场景,需要动态取最大最小值, 这个时候就应该考虑使用堆了,这其实又回到文章开头的一个中心了,所以大家一定要灵活使用这些技巧,不可生搬硬套。
下一道题是一个不折不扣的事后诸葛亮 + 堆优化的题目。
代码
1
class Solution:
2
def avoidFlood(self, rains: List[int]) -> List[int]:
3
ans = [1] * len(rains)
4
lakes = collections.defaultdict(int)
5
sunny = []
6
7
for i, rain in enumerate(rains):
8
if rain > 0:
9
ans[i] = -1
10
if lakes[rain - 1] == 1:
11
if 0 == len(sunny):
12
return []
13
ans[sunny.pop()] = rain
14
lakes[rain - 1] = 1
15
else:
16
sunny.append(i)
17
return ans
Copied!
(代码 1.3.11)
2021-04-06 fixed: 上面的代码有问题。错误的原因在于上述算法如果当前湖泊发生了洪水泛滥,那么就去 sunny 数组找一个晴天去抽干它,这样它就不会洪水泛滥部分的实现不对。sunny 数组找一个晴天去抽干它的根本前提是 出现晴天的时候湖泊里面要有水才能抽,如果晴天的时候,湖泊里面没有水也不行。这提示我们的 lakes 不存储 0 和 1 ,而是存储发生洪水是第几天。这样问题就变为在 sunny 中找一个日期大于 lakes[rain-1] 的项,并将其移除 sunny 数组。由于 sunny 数组是有序的,因此我们可以使用二分来进行查找。
由于我们需要删除 sunny 数组的项,因此时间复杂度不会因为使用了二分而降低。
正确的代码应该为:
1
class Solution:
2
def avoidFlood(self, rains: List[int]) -> List[int]:
3
ans = [1] * len(rains)
4
lakes = {}
5
sunny = []
6
7
for i, rain in enumerate(rains):
8
if rain > 0:
9
ans[i] = -1
10
if rain - 1 in lakes:
11
j = bisect.bisect_left(sunny, lakes[rain - 1])
12
if j == len(sunny):
13
return []
14
ans[sunny.pop(j)] = rain
15
lakes[rain - 1] = i
16
else:
17
sunny.append(i)
18
return ans
Copied!

1642. 可以到达的最远建筑

题目描述
1
给你一个整数数组 heights ,表示建筑物的高度。另有一些砖块 bricks 和梯子 ladders 。
2
3
你从建筑物 0 开始旅程,不断向后面的建筑物移动,期间可能会用到砖块或梯子。
4