正则表达式
文章发布较早,内容可能过时,阅读注意甄别。
正则表达式是一种进行模式匹配和文本操纵的复杂而又强大的工具。虽然正则表达式比纯粹的文本匹配效率低,但是它却更灵活。按照它的语法规则,随需要构造出的匹配模式就能够从原始文本中筛选出几乎任何你想要得到的字符组合。
Go 语言通过regexp 标准包 (opens new window)为正则表达式提供了官方支持,如果你已经使用过其他编程语言提供的正则相关功能,那么你应该对 Go 语言版本的不会太陌生,但是它们之间也有一些差异,因为 Go 实现的是 RE2 标准,除了\C,详细的语法描述参考:http://t.cn/zTV0WS8
其实字符串处理我们可以使用 string 包来进行搜索(Contains,Index),替换(Replace)和解析(Split,Join)等操作,但是这些都是简单的字符串操作,他们的搜索都是大小写敏感,而且固定的字符串,如果我们需要匹配可变的那种就没办法实现了,当然如果 string 包能够解决你的问题,那么就尽量使用它来解决。因为他们足够简单,而且性能和可读性都会比正则好。
正则表达式匹配规则:
示例一:
package main
import (
"fmt"
"regexp"
)
func main() {
buf := "abc azc a2c aac 666 a0c tzc abcd"
//1,解释规则,它会解析正则表达式,如果成功则返回解释器
//reg1 := regexp.MustCompile(`a.c`)
reg1 := regexp.MustCompile(`a\dc`) //`a\dc` 等效于 `a[0-9]c`
if reg1 == nil {
fmt.Println("regexp err")
return
}
//2,根据规则将匹配到的结果输出
result := reg1.FindAllStringSubmatch(buf, -1) //-1表示所有
fmt.Println("result = ", result)
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
示例二,使用正则匹配小数:
package main
import (
"fmt"
"regexp"
)
func main() {
buf := "43.12 7.8 2.3 3.14 6. 1.a bcd 6.66"
//解释正则表达式,+表示匹配前一个字符1次或任意多次
reg := regexp.MustCompile(`\d+\.\d+`)
if reg == nil {
fmt.Println("MustCompile err")
return
}
//提取关键信息
//result := reg.FindAllString(buf, -1)
result := reg.FindAllStringSubmatch(buf, -1)
fmt.Println("result = ", result)
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
示例三获取网页内容中关键信息:
package main
import (
"fmt"
"regexp"
)
func main() {
//``反引号表示原字符
buf := `
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<title>Go语言标准库文档中文版 | Go语言中文网 | Golang中文社区 | Golang中国</title>
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1.0, user-scalable=no">
<meta http-equiv="X-UA-Compatible" content="IE=edge, chrome=1">
<meta charset="utf-8">
<link rel="shortcut icon" href="/static/img/go.ico">
<link rel="apple-touch-icon" type="image/png" href="/static/img/logo2.png">
<meta name="author" content="polaris <polaris@studygolang.com>">
<meta name="keywords" content="中文, 文档, 标准库, Go语言,Golang,Go社区,Go中文社区,Golang中文社区,Go语言社区,Go语言学习,学习Go语言,Go语言学习园地,Golang 中国,Golang中国,Golang China, Go语言论坛, Go语言中文网">
<meta name="description" content="Go语言文档中文版,Go语言中文网,中国 Golang 社区,Go语言学习园地,致力于构建完善的 Golang 中文社区,Go语言爱好者的学习家园。分享 Go 语言知识,交流使用经验">
</head>
<head>
<div>你好</div>
<div>你在干嘛呢</div>
<div>are
u
ok?
</div>
<div>吃饭没</div>
</head>
<frameset cols="15,85">
<frame src="/static/pkgdoc/i.html">
<frame name="main" src="/static/pkgdoc/main.html" tppabs="main.html" >
<noframes>
</noframes>
</frameset>
</html>
`
reg := regexp.MustCompile(`<div>(?s:(.*?))</div>`)
if reg == nil {
fmt.Println("MustCompile err")
return
}
//提取关键信息
//result := reg.FindAllString(buf, -1)
result := reg.FindAllStringSubmatch(buf, -1)
//fmt.Println("result = ", result)
//过滤掉<div></div>
for _, test := range result {
//fmt.Println("test[0] = ", test[0]) //带<div></div>
fmt.Println("test[1] = ", test[1]) //不带<div></div>
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
输出结果:
$ go run 10_正则表达式3.go
test[1] = 你好
test[1] = 你在干嘛呢
test[1] = are
u
ok?
test[1] = 吃饭没
1
2
3
4
5
6
7
8
2
3
4
5
6
7
8
上次更新: 2024/06/13, 22:13:45