2.4 regexp — 正则表达式
正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式为文本处理提供了强大的功能。Go作为一门通用语言,自然提供了对正则表达式的支持。
regexp
包实现了正则表达式搜索。
正则表达式采用RE2语法(除了\c、\C),和Perl、Python等语言的正则基本一致。确切地说是兼容 RE2
语法。相关资料:http://code.google.com/p/re2/wiki/Syntax,包:regexp/syntax
注意:regexp
包的正则表达式实现保证运行时间随着输入大小线性增长的(即复杂度为O(n),其中n为输入的长度),这一点,很多正则表达式的开源实现无法保证,参见:RSC 的 《Regular Expression Matching Can Be Simple And Fast
(but is slow in Java, Perl, PHP, Python, Ruby, ...)》
另外,所有的字符都被视为utf-8编码的码值(Code Point)。
Regexp类型提供了多达16个方法,用于匹配正则表达式并获取匹配的结果。它们的名字满足如下正则表达式:
Find(All)?(String)?(Submatch)?(Index)?
2.4.1 strconv 包转换错误处理
介绍具体的转换之前,先看看 strconv 中的错误处理。
由于将字符串转为其他数据类型可能会出错,strconv 包定义了两个 error 类型的变量:ErrRange 和 ErrSyntax。其中,ErrRange 表示值超过了类型能表示的最大范围,比如将 "128" 转为 int8 就会返回这个错误;ErrSyntax 表示语法错误,比如将 "" 转为 int 类型会返回这个错误。
然而,在返回错误的时候,不是直接将上面的变量值返回,而是通过构造一个 NumError 类型的 error 对象返回。NumError 结构的定义如下:
// A NumError records a failed conversion.
type NumError struct {
Func string // the failing function (ParseBool, ParseInt, ParseUint, ParseFloat)
Num string // the input
Err error // the reason the conversion failed (ErrRange, ErrSyntax)
}
可见,该结构记录了转换过程中发生的错误信息。该结构不仅包含了一个 error 类型的成员,记录具体的错误信息,而且它自己也实现了 error 接口:
func (e *NumError) Error() string {
return "strconv." + e.Func + ": " + "parsing " + Quote(e.Num) + ": " + e.Err.Error()
}
包的实现中,定义了两个便捷函数,用于构造 NumError 对象:
func syntaxError(fn, str string) *NumError {
return &NumError{fn, str, ErrSyntax}
}
func rangeError(fn, str string) *NumError {
return &NumError{fn, str, ErrRange}
}
在遇到 ErrSyntax 或 ErrRange 错误时,通过上面的函数构造 NumError 对象。
https://github.com/StefanSchroeder/Golang-Regex-Tutorial