2.4 regexp — 正则表达式

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式为文本处理提供了强大的功能。Go作为一门通用语言,自然提供了对正则表达式的支持。

regexp 包实现了正则表达式搜索。

正则表达式采用RE2语法(除了\c、\C),和Perl、Python等语言的正则基本一致。确切地说是兼容 RE2 语法。相关资料:http://code.google.com/p/re2/wiki/Syntax包:regexp/syntax

注意:regexp 包的正则表达式实现保证运行时间随着输入大小线性增长的(即复杂度为O(n),其中n为输入的长度),这一点,很多正则表达式的开源实现无法保证,参见:RSC 的 《Regular Expression Matching Can Be Simple And Fast (but is slow in Java, Perl, PHP, Python, Ruby, ...)》

另外,所有的字符都被视为utf-8编码的码值(Code Point)。

Regexp类型提供了多达16个方法,用于匹配正则表达式并获取匹配的结果。它们的名字满足如下正则表达式:

Find(All)?(String)?(Submatch)?(Index)?

2.4.1 strconv 包转换错误处理

介绍具体的转换之前,先看看 strconv 中的错误处理。

由于将字符串转为其他数据类型可能会出错,strconv 包定义了两个 error 类型的变量:ErrRangeErrSyntax。其中,ErrRange 表示值超过了类型能表示的最大范围,比如将 "128" 转为 int8 就会返回这个错误;ErrSyntax 表示语法错误,比如将 "" 转为 int 类型会返回这个错误。

然而,在返回错误的时候,不是直接将上面的变量值返回,而是通过构造一个 NumError 类型的 error 对象返回。NumError 结构的定义如下:

// A NumError records a failed conversion.
type NumError struct {
    Func string // the failing function (ParseBool, ParseInt, ParseUint, ParseFloat)
    Num  string // the input
    Err  error  // the reason the conversion failed (ErrRange, ErrSyntax)
}

可见,该结构记录了转换过程中发生的错误信息。该结构不仅包含了一个 error 类型的成员,记录具体的错误信息,而且它自己也实现了 error 接口:

func (e *NumError) Error() string {
    return "strconv." + e.Func + ": " + "parsing " + Quote(e.Num) + ": " + e.Err.Error()
}

包的实现中,定义了两个便捷函数,用于构造 NumError 对象:

func syntaxError(fn, str string) *NumError {
    return &NumError{fn, str, ErrSyntax}
}

func rangeError(fn, str string) *NumError {
    return &NumError{fn, str, ErrRange}
}

在遇到 ErrSyntaxErrRange 错误时,通过上面的函数构造 NumError 对象。

https://github.com/StefanSchroeder/Golang-Regex-Tutorial

导航

results matching ""

    No results matching ""