正则表达式
介绍
正则表达式是表示搜索模式的特殊字符串。也被称为“regex”或“regexp”,它们可以帮助程序员匹配、搜索和替换文本。由于一些字符具有特殊的含义,正则表达式可能会显得晦涩难懂。我们的目标是将这些符号和文本组合成一个你想要的匹配模式,但这只是你想要的。本节将介绍字符、一些快捷方式以及编写正则表达式的常用用法。
使用测试方法
在编程语言中,正则表达式用于匹配指定的字符串。通过正则表达式创建匹配模式(规则)可以帮你完成指定匹配。
如果你想要在字符串"The dog chased the cat"
中匹配到"the"
这个单词,你可以使用如下正则表达式:/the/
。注意,正则表达式中不需要引号。
JavaScript 中有多种使用正则表达式的方法。测试正则表达式的一种方法是使用.test()
方法。.test()
方法会把你编写的正则表达式应用到一个字符串(即括号内的内容),如果你的匹配模式成功匹配到字符,则返回true
,反之,返回false
。
1 | let testStr = "freeCodeCamp"; |
字符串
在字符串中搜寻"Kevin"
的示例:
1 | let testStr = "Hello, my name is Kevin."; |
任何其他形式的"Kevin"
都不会被匹配。例如,正则表达式/Kevin/
不会匹配"kevin"
或者"KEVIN"
。
1 | let wrongRegex = /kevin/; |
多种模式匹配文字字符串 |
使用正则表达式/coding/
,你可以在其他字符串中查找"coding"
。
这对于搜寻单个字符串非常有用,但仅限于一种匹配模式。你可以使用|
操作符来匹配多个规则。
此操作符匹配在它之前或之后的匹配模式。例如,如果你想匹配"yes"
或"no"
,你需要的正则表达式是/yes|no/
。
你还可以匹配多个规则,这可以通过添加更多的匹配模式来实现。这些匹配模式将包含更多的|
操作符来分隔它们,比如/yes|no|maybe/
。
忽略大小写 i
到目前为止,你已经了解了如何用正则表达式来执行字符串的文字匹配。但有时候,你可能也想匹配不同的英文字母大小写。
大小写(或者字母大小写)是大写字母和小写字母的区别。大写字母的例子有"A"
、"B"
和"C"
。小写字母的例子有"a"
、"b"
和"c"
。
你可以使用标志(flag)来匹配这两种情况。标志有很多,不过这里我们只关注忽略大小写的标志——i
。你可以通过将它附加到正则表达式之后来使用它。这里给出使用该标志的一个实例/ignorecase/i
。这个字符串可以匹配字符串"ignorecase"
、"igNoreCase"
和"IgnoreCase"
。
提取匹配项 .match()
到目前为止,你只是检查了一个匹配模式是否存在于字符串中。你还可以使用.match()
方法来提取你找到的实际匹配项。
请使用字符串来调用.match()
方法,并在括号内传入正则表达式。以下是一个示例:
1 | "Hello, World!".match(/Hello/); |
全局匹配 g
若要多次搜寻或提取匹配模式,你可以使用g
标志。
1 | let testStr = "Repeat, Repeat, Repeat"; |
通配符.匹配任何内容 .
有时你不会(或不需要)知道匹配模式中的确切字符。如果要精确匹配到完整的单词那出现一个拼写错误就会匹配不到。幸运的是,你可以使用通配符.
来处理这种情况。
通配符.
将匹配任何一个字符。通配符也叫dot
或period
。你可以像使用正则表达式中任何其他字符一样使用通配符。例如,如果你想匹配"hug"
、"huh"
、"hut"
和"hum"
,你可以使用正则表达式/hu./
匹配以上四个单词。
1 | let humStr = "I'll hum a song"; |
单个字符有多种可能性 []
你已经了解了如何匹配文字匹配模式(/literal/
)和通配符(/./
)。这是正则表达式的两种极端情况,一种是精确匹配,而另一种则是匹配所有。在这两种极端情况之间有一个平衡选项。
你可以使用字符集
搜寻具有一定灵活性的文字匹配模式。字符集允许你通过把它们放在方括号([
和]
)之间的方式来定义一组你需要匹配的字符串。
例如,你想要匹配"bag"
、"big"
和"bug"
,但是不想匹配"bog"
。你可以创建正则表达式/b[aiu]g/
来执行此操作。[aiu]
是只匹配字符"a"
、"i"
或者"u"
的字符集。
1 | let bigStr = "big"; |
英文字母 [a-z]
你了解了如何使用字符集
来指定要匹配的一组字符串,但是当你需要匹配大量字符(例如,字母表中的每个字母)时,有一种写法可以让实现这个功能变得简短。
在字符集
中,你可以使用连字符
(-
)来定义要匹配的字符范围。
例如,要匹配小写字母a
到e
,你可以使用[a-e]
。
1 | let catStr = "cat"; |
数字和字母 [a-z0-9]
使用连字符(-
)匹配字符范围并不仅限于字母。它还可以匹配一系列数字。
例如,/[0-5]/
匹配0
和5
之间的任意数字,包含0
和5
。
此外,还可以在单个字符集中组合一系列字母和数字。
1 | let jennyStr = "Jenny8675309"; |
不想匹配的字符 [^]
你也可以创建一个你不想匹配的字符集合。这些类型的字符集称为否定字符集
。
要创建否定字符集
,你需要在开始括号后面和不想匹配的字符前面放置插入字符
(即^
)。
例如,/[^aeiou]/gi
匹配所有非元音字符。注意,字符.
、!
、[
、@
、/
和空白字符等也会被匹配,该否定字符集仅排除元音字符。
出现一次或多次的字符 +
至少出现一次,并且可能重复出现。
使用+
符号来检查情况是否如此。记住,字符或匹配模式必须一个接一个地连续出现。
例如,/a+/g
会在"abc"
中匹配到一个匹配项,并且返回["a"]
。因为+
的存在,它也会在"aabc"
中匹配到一个匹配项,然后返回["aa"]
。
如果它是检查字符串"abab"
,它将匹配到两个匹配项并且返回["a", "a"]
,因为a
字符不连续,在它们之间有一个b
字符。最后,因为在字符串"bcd"
中没有"a"
,因此找不到匹配项。
当字母z
在一行中出现一次或连续多次时,正则表达式/z+/
会匹配到它。它会在以下所有字符串中找到匹配项:
1 | "z" |
零次或多次的字符 *
有一个选项可以匹配出现零次或多次的字符。
执行该操作的字符叫做asterisk
或star
,即*
。
1 | let soccerWord = "gooooooooal!"; |
用惰性匹配来查找字符 ?
在正则表达式中,贪婪
匹配会匹配到符合正则表达式匹配模式的字符串的最长可能部分,并将其作为匹配项返回。另一种方案称为懒惰
匹配,它会匹配到满足正则表达式的字符串的最小可能部分。
你可以将正则表达式/t[a-z]*i/
应用于字符串"titanic"
。这个正则表达式是一个以t
开始,以i
结束,并且中间有一些字母的匹配模式。
正则表达式默认是贪婪
匹配,因此匹配返回为["titani"]
。它会匹配到适合该匹配模式的最大子字符串。
但是,你可以使用?
字符来将其变成懒惰
匹配。调整后的正则表达式/t[a-z]*?i/
匹配字符串"titanic"
返回["ti"]
。
1 | let text = "<h1>Winter is coming</h1>"; |
字符串的开头 ^
先前的挑战表明,正则表达式可以用于查找许多匹配项。它们还用于搜寻字符串中特定位置的匹配模式。
在之前的挑战中,你使用字符集
中的插入
符号(^
)来创建一个否定字符集
,形如[^thingsThatWillNotBeMatched]
。在字符集
之外,插入
符号用于字符串的开头搜寻匹配模式。
1 | let firstString = "Ricky is first and can be found."; |
字符串的末尾 $
还有一种方法可以搜寻字符串末尾的匹配模式。
你可以使用正则表达式的美元
符号$
来搜寻字符串的结尾。
1 | let theEnding = "This is a never ending story"; |
所有的字母和数字 \w
使用字符类,你可以使用[a-z]
搜寻字母表中的所有字母。这种字符类是很常见的,它有一个缩写,但这个缩写也包含额外的字符。
JavaScript 中与字母表匹配的最接近的字符类是\w
,这个缩写等同于[A-Za-z0-9_]
。它不仅可以匹配大小写字母和数字,注意,它还会匹配下划线字符(_
)。
1 | let longHand = /[A-Za-z0-9_]+/; |
使用缩写\w
来计算所有引号中字母和数字字符的数量。
1 | let quoteSample = "The five boxing wizards jump quickly."; |
除了字母和数字的所有符号 \W
你可以使用\W
搜寻和\w
相反的匹配模式。注意,相反匹配模式使用大写字母。此缩写与[^A-Za-z0-9_]
是一样的。
1 | let shortHand = /\W/; |
匹配所有数字 & 非数字 \d \D
查找数字字符的缩写是\d
,注意是小写的d
。这等同于字符类[0-9]
,它查找 0 到 9 之间任意数字的单个字符。
查找非数字字符的缩写是\D
。这等同于字符串[^0-9]
,它查找不是 0 - 9 之间数字的单个字符。
限制可能的用户名
用户名在互联网上随处可见。它们是用户在自己喜欢的网站上的唯一身份。
你需要检查数据库中的所有用户名。以下是用户在创建用户名时必须遵守的一些简单规则。
1) 用户名中的数字必须在最后,且数字可以有零个或多个。
2) 用户名字母可以是小写字母和大写字母。
3) 用户名长度必须至少为两个字符。两位用户名只能使用字母。
1 | let username = "JackOfAllTrades"; |
匹配空白字符 & 非空白字符
匹配字母之间的空格。
以使用\s
搜寻空格,其中s
是小写。此匹配模式不仅匹配空格,还匹配回车符、制表符、换页符和换行符,你可以将其视为与[\r\t\f\n\v]
类似。
1 | let whiteSpace = "Whitespace. Whitespace everywhere!" |
也可以搜寻除了空格之外的所有内容。
使用\S
搜寻非空白字符,其中S
是大写。此匹配模式将不匹配空格、回车符、制表符、换页符和换行符。你可以认为这类似于字符类[^\r\t\f\n\v]
。
1 | let whiteSpace = "Whitespace. Whitespace everywhere!" |
指定匹配的上限和下限
回想一下,你使用加号+
查找一个或多个字符,使用星号*
查找零个或多个字符。这些都很方便,但有时你需要匹配一定范围的匹配模式。
你可以使用数量说明符
指定匹配模式的上下限。数量说明符与花括号({
和}
)一起使用。你可以在花括号之间放两个数字,这两个数字代表匹配模式的上限和下限。
例如,要在字符串"ah"
中匹配仅出现3
到5
次的字母a
,你的正则表达式应为/a{3,5}h/
。
1 | let A4 = "aaaah"; |
只指定匹配的下限
你可以使用带有花括号的数量说明符
来指定匹配模式的上下限。但有时候你只想指定匹配模式的下限而不需要指定上限。
为此,在第一个数字后面跟一个逗号即可。
例如,要匹配至少出现3
次字母a
的字符串"hah"
,你的正则表达式应该是/ha{3,}h/
1 | let A4 = "haaaah"; |
指定匹配的确切数量
1 | let A4 = "haaaah"; |
检查全部或无
有时,你想要搜寻的匹配模式可能有不确定是否存在的部分。尽管如此,你还是想检查它们。
为此,你可以使用问号?
指定可能存在的元素。这将检查前面的零个或一个元素。你可以将此符号视为前面的元素是可选的。
例如,美式英语和英式英语略有不同,你可以使用问号来匹配两种拼写。
1 | let american = "color"; |
正向先行断言和负向先行断言
先行断言
是告诉 JavaScript 在字符串中向前查找的匹配模式。当你想要在同一个字符串上搜寻多个匹配模式时,这可能非常有用。
有两种先行断言
:正向先行断言
和负向先行断言
。
正向先行断言
会查看并确保搜索匹配模式中的元素存在,但实际上并不匹配。正向先行断言的用法是(?=...)
,其中...
就是需要存在但不会被匹配的部分。
另一方面,负向先行断言
会查看并确保搜索匹配模式中的元素不存在。负向先行断言的用法是(?!...)
,其中...
是你希望不存在的匹配模式。如果负向先行断言部分不存在,将返回匹配模式的其余部分。
尽管先行断言有点儿令人困惑,但是这些示例会有所帮助。
1 | let quit = "qu"; |
先行断言
的更实际用途是检查一个字符串中的两个或更多匹配模式。这里有一个简单的密码检查器,密码规则是 3 到 6 个字符且至少包含一个数字:
1 | let password = "abc123"; |
在正则表达式pwRegex
中使用先行断言
以匹配至少5个字符且有两个连续数字的密码。
1 | let sampleWord = "astronaut"; |
使用捕获组重用模式
一些你所搜寻的匹配模式会在字符串中出现多次,手动重复该正则表达式太浪费了。有一种更好的方法可以指定何时在字符串中会有多个重复的子字符串。
你可以使用捕获组
搜寻重复的子字符串。括号(
和)
可以用来匹配重复的子字符串。你只需要把重复匹配模式的正则表达式放在括号中即可。
要指定重复字符串将出现的位置,可以使用反斜杠(\
)后接一个数字。这个数字从 1 开始,随着你使用的每个捕获组的增加而增加。这里有一个示例,\1
可以匹配第一个组。
下面的示例匹配任意两个被空格分割的单词:
1 | let repeatStr = "regex regex"; |
在字符串上使用.match()
方法将返回一个数组,其中包含它匹配的字符串及其捕获组。
在正则表达式reRegex
中使用捕获组
,以匹配在字符串中仅重复三次的数字,每一个都由空格分隔:
1 | let repeatNum = "42 42 42"; |
使用捕获组搜索和替换
搜索功能是很有用的。但是,当你的搜索也执行更改(或替换)匹配文本的操作时,搜索功能就会显得更加强大。
可以使用字符串上.replace()
方法来搜索并替换字符串中的文本。.replace()
的输入首先是你想要搜索的正则表达式匹配模式,第二个参数是用于替换匹配的字符串或用于执行某些操作的函数。
1 | let wrongText = "The sky is silver."; |
你还可以使用美元符号($
)访问替换字符串中的捕获组。
1 |
|
删除开头和结尾的空白
有时字符串周围存在的空白字符并不是必需的。字符串的典型处理是删除字符串开头和结尾处的空格。
编写一个正则表达式并使用适当的字符串方法删除字符串开头和结尾的空格。
注意:.trim()
方法在这里也可以实现同样的效果,但是现在使用正则表达式。
1 | let hello = " Hello, World! "; |