定义 Define
正则表达式是用于匹配字符串中字符组合的模式。在 JavaScript中,正则表达式也是对象。这些模式或者说对象被用于 RegExp 的 exec 和 test 方法, 以及 String 的 match、replace、search 和 split 方法。
RegExp 是一个用于创建正则表达式对象的构造函数,用于将文本与一个模式匹配。
创建一个正则表达式
有两种方法创建一个正则表达式。
1. 字面量方式
由包含在斜杠之间的模式组成,如下所示:
1 | /* |
在加载脚本后,正则表达式字面值提供正则表达式的编译。当正则表达式保持不变时,使用此方法可获得更好的性能。
2. RegExp实例创建
1 | /* |
- 字面量方式和实例创建的方式在正则中的区别?
1、字面量形式提供正则表达式的编译(compilation)状态,当正则表达式保持为常量时使用字面量。而构造函数方式,如new RegExp('ab+c')
提供了正则表达式运行时编译(runtime compilation)。
2、字面量方式中出现的一切都是元字符,所以不能进行变量值的拼接,而实例创建的方式是可以的。实例创建方式的好处在于可以在运行时编译,这个特性可以方便用来处理用户输入。
3、字面量中直接写\d就可以,而在实例中有两种情况,如果直接使用/pattern/这种方式创建与字面量方式书写无区别,即\d,如果是带双引号,双引号内的需要把它转译\\d
比如:
1 | var name = 'Jack'; |
RegExp对象的参数
pattern
:正则表达式的文本。
flags
:可以具有以下值的任意组合:
g
:全局匹配;找到所有匹配,而不是在第一个匹配后停止i
:忽略大小写m
:多行; 将开始和结束字符(^和$)视为在多行上工作(例如,分别匹配每一行的开始和结束(由 \n 或 \r 分割),而不只是只匹配整个输入字符串的最开始和最末尾处。u
:Unicode; 将模式视为Unicode序列点的序列y
:粘性匹配; 仅匹配目标字符串中此正则表达式的lastIndex属性指示的索引(并且不尝试从任何后续的索引匹配)。
从ECMAScript 6开始,当第一个参数为正则表达式而第二个标志参数存在时,new RegExp(/ab+c/, 'i')
不再抛出TypeError (“当从其他正则表达式进行构造时不支持标志”)的异常,取而代之,将使用这些参数创建一个新的正则表达式。
写一个正则表达式
一个正则表达式模式是由简单的字符所构成的,比如/abc/
, 或者是简单和特殊字符的组合,比如 /ab*c/
或 /Chapter (\d+)\.\d*/
。后者用到了括号,它在正则表达式中可以被用作是一个记忆设备。这一部分正则所匹配的字符将会被记住,在后面可以被利用。正如 使用括号的子字符串匹配。
简单模式
简单模式是由你找到的直接匹配所构成的。比如,/abc/这个模式就匹配了在一个字符串中,仅仅字符 'abc'
同时出现并按照这个顺序。在 "Hi, do you know your abc's?"
和 "The latest airplane designs evolved from slabcraft."
就会匹配成功。在上面的两个实例中,匹配的是子字符串 'abc'
。在字符串 "Grab crab"
中将不会被匹配,因为它不包含任何的 ‘abc’ 子字符串。
特殊字符
当你需要搜索一个比直接匹配需要更多条件的匹配时,比如寻找一个或多个 ‘b’,或者寻找空格,那么这时模式将要包含特殊字符。比如, 模式/ab*c/
匹配了一个单独的 ‘a’ 后面跟了零个或者多个 ‘b’(*的意思是前面一项出现了零个或者多个),且后面跟着 ‘c’ 的任何字符组合。在字符串 "cbbabbbbcdebc"
中,这个模式匹配了子字符串 "abbbbc"
。
正则表达式中的特殊字符
- 字符类别(Character Classes)
- 字符集合(Character Sets)
- 边界(Boundaries)
- 分组(grouping)与反向引用(back references)
- 数量词(Quantifiers)
- 断言(Assertions)
字符类别
.(点号,小数点)
匹配任意单个字符,但是行结束符除外:\n \r \u2028
或 \u2029
。
在字符集中,点( . )失去其特殊含义,并匹配一个字面点( . )。
需要注意的是,m 多行(multiline)标志不会改变点号的表现。因此为了匹配多行中的字符集,可使用[^] (当然你不是打算用在旧版本 IE 中),它将会匹配任意字符,包括换行符。
例如,/.y/
匹配 "yes make my day"
中的 "my"
和 "ay"
,但是不匹配 "yes"
。
\d
匹配任意阿拉伯数字。等价于[0-9]。
例如,/\d/
或 /[0-9]/
匹配 “B2 is the suite number.” 中的 ‘2’。
\d
表示数字,即 digit,\w
表示单词,等同于[A-Za-z0-9_]
,原文就是 word。
\D
匹配任意一个不是阿拉伯数字的字符。等价于[^0-9]。
例如,/\D/
或 /[^0-9]/
匹配 “B2 is the suite number.” 中的 ‘B’。
\w
匹配任意来自基本拉丁字母表中的字母数字字符,还包括下划线。等价于 [A-Za-z0-9_]
。
例如,/\w/
匹配 “apple” 中的 ‘a’,”$5.28” 中的 ‘5’ 和 “3D” 中的 ‘3’。
\W
匹配任意不是基本拉丁字母表中单词(字母数字下划线)字符的字符。等价于 [^A-Za-z0-9_]
。
例如,/\W/
或 /[^A-Za-z0-9_]/ 匹配 “50%” 中的 ‘%’。
\s
匹配一个空白符,包括空格、制表符、换页符、换行符和其他 Unicode 空格。
等价于 [ \f\n\r\t\v\u00a0\u1680\u180e\u2000\u2001\u2002\u2003\u2004 \u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f \u3000]
。
例如 /\s\w*/
匹配 “foo bar” 中的 ‘ bar’。
\S
匹配一个非空白符。等价于 [^ \f\n\r\t\v\u00a0\u1680\u180e\u2000\u2001\u2002\u2003\u2004 \u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000]
。
例如,/\S\w*/
匹配 “foo bar” 中的 ‘foo’。
\t
匹配一个水平制表符(tab)
\r
匹配一个回车符(carriage return)
- 回车
\r
本义是光标重新回到本行开头,r 即 return。
\n
匹配一个换行符(linefeed)
\v
匹配一个垂直制表符(vertical tab)
\f
匹配一个换页符(form-feed)
[\b]
匹配一个退格符(backspace)(不要与 \b 混淆)
\0
匹配一个 NUL 字符。不要在此后面跟小数点。
\cX
X 是 A - Z 的一个字母。匹配字符串中的一个控制字符。
例如,/\cM/
匹配字符串中的 control-M。
\xhh
匹配编码为 hh
(两个十六进制数字)的字符。
\uhhhh
匹配 Unicode 值为 hhhh (四个十六进制数字)的字符。
\(反斜杠)
对于那些通常被认为字面意义的字符来说,表示下一个字符具有特殊用处,并且不会被按照字面意义解释。
例如 /b/
匹配字符 ‘b’。在 b 前面加上一个反斜杠,即使用 /\b/
,则该字符变得特殊,以为这匹配一个单词边界。
或
对于那些通常特殊对待的字符,表示下一个字符不具有特殊用途,会被按照字面意义解释。
例如,*
是一个特殊字符,表示匹配某个字符 0 或多次,如 /a*/
意味着 0 或多个 “a”。 为了匹配字面意义上的 *
,在它前面加上一个反斜杠,例如,/a\*/
匹配 ‘a*’。
字符集合
[xyz]
一个字符集合,也叫字符组。匹配集合中的任意一个字符。你可以使用连字符’-
‘指定一个范围。
例如,[abcd]
等价于 [a-d]
,匹配”brisket
“中的’b’和”chop
“中的’c’。
[^xyz]
一个反义或补充字符集,也叫反义字符组。也就是说,它匹配任意不在括号内的字符。你也可以通过使用连字符 ‘-‘ 指定一个范围内的字符。
例如,[^abc]
等价于 [^a-c]
。 第一个匹配的是 “bacon” 中的’o’ 和 “chop” 中的 ‘h’。
边界
^
匹配输入开始。如果多行(multiline)标志被设为 true,该字符也会匹配一个断行(line break)符后的开始处。
例如,/^A/
不匹配 “an A” 中的 “A”,但匹配 “An A” 中的 “A”。
- 换行
\n
本义是光标往下一行(不一定到下一行行首),n 即 newline。
$
匹配输入结尾。如果多行(multiline)标志被设为 true,该字符也会匹配一个断行(line break)符的前的结尾处。
例如,/t$/
不匹配 “eater” 中的 “t”,但匹配 “eat” 中的 “t”。
\b
匹配一个零宽单词边界(zero-width word boundary),如一个字母与一个空格之间。 (不要和 [\b]
混淆)
例如,/\bno/
匹配 “at noon” 中的 “no”,/ly\b/
匹配 “possibly yesterday.” 中的 “ly”。
\B
匹配一个零宽非单词边界(zero-width non-word boundary),如两个字母之间或两个空格之间。
例如,/\Bon/
匹配 “at noon” 中的 “on”,/ye\B/
匹配 “possibly yesterday.” 中的 “ye”。
分组与反向引用
(x)
匹配 x
并且捕获匹配项。 这被称为捕获括号(capturing parentheses)。
例如,/(foo)/
匹配且捕获 “foo bar.” 中的 “foo”。被匹配的子字符串可以在结果数组的元素 [1], ..., [n]
中找到,或在被定义的 RegExp 对象的属性 $1, …, $9 中找到。
捕获组(Capturing groups)有性能惩罚。如果不需再次访问被匹配的子字符串,最好使用非捕获括号(non-capturing parentheses),见下面。
(?:x)
匹配 x
不会捕获匹配项。这被称为非捕获括号(non-capturing parentheses)。匹配项不能够从结果数组的元素 [1], ..., [n]
或已被定义的 RegExp
对象的属性 $1, ..., $9
再次访问到。
\n
n
是一个正整数。一个反向引用(back reference),指向正则表达式中第 n 个括号(从左开始数)中匹配的子字符串。
例如,/apple(,)\sorange\1/
匹配 “apple, orange, cherry, peach.” 中的 “apple,orange,”。一个更全面的例子在下面。
数量词
x*
匹配前面的模式 x 0 或多次。
例如,/bo*/
匹配 “A ghost booooed” 中的 “boooo”,”A bird warbled” 中的 “b”,但是不匹配 “A goat grunted”。
x+
匹配前面的模式 x 1 或多次。等价于 {1,}
。
例如,/a+/
匹配 “candy” 中的 “a”,”caaaaaaandy” 中所有的 “a”。
x*?
x+?
像上面的 * 和 + 一样匹配前面的模式 x,然而匹配是最小可能匹配。
例如,/".*?"/
匹配 ‘“foo” “bar”‘ 中的 ‘“foo”‘,而 * 后面没有 ? 时匹配 ‘“foo” “bar”‘。
x?
匹配前面的模式 x 0 或 1 次。
例如,/e?le?/
匹配 “angel” 中的 “el”,”angle” 中的 “le”。
如果在数量词 *
、+
、?
或 {}
, 任意一个后面紧跟该符号(?),会使数量词变为非贪婪( non-greedy) ,即匹配次数最小化。反之,默认情况下,是贪婪的(greedy),即匹配次数最大化。
在使用于向前断言(lookahead assertions)时,见该表格中 (?=)、``(?!)
和 (?:)
的说明。
x(?=y)
只有当 x
后面不是紧跟着 y
时,才匹配 x
。例如,/\d+(?!\.)/
只有当一个数字后面没有紧跟着一个小数点时,才会匹配该数字。
/\d+(?!\.)/.exec("3.141")
匹配 141 而不是 3.141。
x|y
匹配 x
或 y
例如,/green|red/
匹配 “green apple” 中的 ‘green’,”red apple.” 中的 ‘red’。
x{n}
n
是一个正整数。前面的模式 x
连续出现 n
次时匹配。
例如,/a{2}/
不匹配 “candy,” 中的 “a”,但是匹配 “caandy,” 中的两个 “a”,且匹配 “caaandy.” 中的前两个 “a”。
x{n,}
n
是一个正整数。前面的模式 x 连续出现至少 n 次时匹配。
例如,/a{2,}/
不匹配 “candy” 中的 “a”,但是匹配 “caandy” 和 “caaaaaaandy.” 中所有的 “a”。
x{n,m}
n
和 m
为正整数。前面的模式 x 连续出现至少 n 次,至多 m 次时匹配。
例如,/a{1,3}/
不匹配 “cndy”,匹配 “candy,” 中的 “a”,”caandy,” 中的两个 “a”,匹配 “caaaaaaandy” 中的前面三个 “a”。注意,当匹配 “caaaaaaandy” 时,即使原始字符串拥有更多的 “a”,匹配项也是 “aaa”。
断言
x(?=y)
仅匹配被y跟随的x。
举个例子,/Jack(?=Sprat)/
,如果”Jack”后面跟着sprat,则匹配之。
/Jack(?=Sprat|Frost)/
,如果”Jack”后面跟着”Sprat”或者”Frost”,则匹配之。但是,”Sprat” 和”Frost” 都不会在匹配结果中出现。
x(?!y)
仅匹配不被y跟随的x。
举个例子,/\d+(?!\.)/
只会匹配不被点(.)跟随的数字。/\d+(?!\.)/.exec('3.141')
匹配”141”,而不是”3.141”