第六章 - 高频考题(困难)
0140. 单词拆分 II

题目地址(140. 单词拆分 II)

题目描述

1
给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict,在字符串中增加空格来构建一个句子,使得句子中所有的单词都在词典中。返回所有这些可能的句子。
2
3
说明:
4
5
分隔时可以重复使用字典中的单词。
6
你可以假设字典中没有重复的单词。
7
示例 1:
8
9
输入:
10
s = "catsanddog"
11
wordDict = ["cat", "cats", "and", "sand", "dog"]
12
输出:
13
[
14
"cats and dog",
15
"cat sand dog"
16
]
17
示例 2:
18
19
输入:
20
s = "pineapplepenapple"
21
wordDict = ["apple", "pen", "applepen", "pine", "pineapple"]
22
输出:
23
[
24
"pine apple pen apple",
25
"pineapple pen apple",
26
"pine applepen apple"
27
]
28
解释: 注意你可以重复使用字典中的单词。
29
示例 3:
30
31
输入:
32
s = "catsandog"
33
wordDict = ["cats", "dog", "sand", "and", "cat"]
34
输出:
35
[]
Copied!
微软有一道题和这个一样 题目地址 一样,感兴趣的可以看看完整面经。

前置知识

  • 回溯
  • 笛卡尔积

公司

  • 暂无

暴力回溯

思路

实际上这道题就是暴力回溯就好了, 代码也比较简单。

代码

代码支持:Python3, CPP
Python3 Code:
1
class Solution:
2
def wordBreak(self, s: str, wordDict: List[str]) -> List[str]:
3
ans = []
4
n = len(s)
5
6
def backtrack(temp, start):
7
if start == n: ans.append(temp[1:])
8
for i in range(start, n):
9
if s[start:i + 1] in wordDict:
10
backtrack(temp + " " + s[start:i + 1], i + 1)
11
backtrack('', 0)
12
return ans
Copied!
CPP Code:
1
class Solution {
2
int maxLen = 0;
3
unordered_set<string> ws;
4
vector<int> m;
5
vector<string> ans;
6
bool dfs(string &s, int i, string tmp) {
7
if (i == s.size()) {
8
ans.push_back(tmp);
9
return true;
10
}
11
if (m[i] == 0) return m[i];
12
m[i] = 0;
13
for (int j = min((int)s.size(), i + maxLen); j > i; --j) {
14
auto sub = s.substr(i, j - i);
15
if (ws.count(sub) && dfs(s, j, tmp.size() ? tmp + " " + sub : sub)) m[i] = 1;
16
}
17
return m[i];
18
}
19
public:
20
vector<string> wordBreak(string s, vector<string>& dict) {
21
ws = { dict.begin(), dict.end() };
22
for (auto &w : dict) maxLen = max(maxLen, (int)w.size());
23
m.assign(s.size(), -1); // -1 = unvisited, 0 = can not reach end, 1 = can reach end.
24
dfs(s, 0, "");
25
return ans;
26
}
27
};
Copied!
复杂度分析
  • 时间复杂度:$O(2^N)$
  • 空间复杂度:$O(2^N)$

笛卡尔积优化

思路

上面的代码会超时,测试用例会挂在如下:
1
"aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaabaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"[
2
("a",
3
"aa",
4
"aaa",
5
"aaaa",
6
"aaaaa",
7
"aaaaaa",
8
"aaaaaaa",
9
"aaaaaaaa",
10
"aaaaaaaaa",
11
"aaaaaaaaaa")
12
];
Copied!
也就是说 s 的长度是 151, 这超时也就能够理解了,但是力扣的题目描述没有给数据范围。 如果是真实的面试, 一定先问清楚数据范围
接下来,我们考虑优化。
通过观察发现, 对于一个字符串 s,比如 "helloworldhi" 而言,假设 dict 为:
1
{
2
hi: true,
3
h: true,
4
i: true,
5
world: true,
6
hello: true,
7
8
}
Copied!
  1. 1.
    当我们 DFS 探到底部的时候,也就是触及到 hi。我们就知道了,s[-2:] 可能组成的所有可能就是 ['hi', 'h', 'i']
  2. 2.
    当我们 DFS 探到 worldhi 的时候。我们就知道了,s[-7:] 可能组成的所有可能就是 ['worldhi', 'worldh', 'worldi']
  3. 3.
    如上只是一个分支的情况,如果有多个分支,那么步骤 1 就会被重复计算。
我们也不难看出, 当我们 DFS 探到 worldhi 的时候,其可能的结果就是探测到的单词和上一步的所有可能的笛卡尔积。
因此一种优化思路就是将回溯的结果通过返回值的形式传递给父级函数,父级函数通过笛卡尔积构造 ans 即可。而这实际上和上面的解法复杂度是一样的, 但是经过这样的改造,我们就可以使用记忆化技巧减少重复计算了。因此理论上, 我们不存在回溯过程了。 因此时间复杂度就是所有的组合,即一次遍历以及内部的笛卡尔积,也就是 $O(N ^ 2)$。

代码

代码支持:Python3
Python3 Code:
1
class Solution:
2
def wordBreak(self, s: str, wordDict: List[str]) -> List[str]:
3
n = len(s)
4
@lru_cache(None)
5
def backtrack(start):
6
ans = []
7
if start == n:
8
ans.append('')
9
for i in range(start, n):
10
if s[start:i + 1] in wordDict:
11
if start == 0: temp = s[start:i + 1]
12
else: temp = " " + s[start:i + 1]
13
ps = backtrack(i + 1)
14
for p in ps:
15
ans.append(temp + p)
16
return ans
17
return backtrack(0)
Copied!
复杂度分析
令 C 为字典的总长度, N 为字典中最长的单词的长度。
  • 时间复杂度:$O(N^2)$
  • 空间复杂度:$O(C)$
这种记忆化递归的方式和 DP 思想一模一样, 大家可以将其改造为 DP,这个留给大家来完成。
更多题解可以访问我的 LeetCode 题解仓库:https://github.com/azl397985856/leetcode 。 目前已经 37K star 啦。
关注公众号力扣加加,努力用清晰直白的语言还原解题思路,并且有大量图解,手把手教你识别套路,高效刷题。