正则表达式介绍

正则表达式可用于查找文件,可以在文本块中找到重复的单词。解析URL,处理复杂文本等。

正则表达式与MySQL的关系

通过正则对文本串进行比较来替换LIKE。
见下面例子

基本字符匹配

从first_name这个列中找出所有包含’oo’的行

SELECT first_name FROM employees WHERE first_name REGEXP 'oo';

该代码等同于

SELECT first_name FROM employees WHERE first_name LIKE '%oo%';

目前看下来正则在字符长度比较短的情况下,执行效率比通配符来得低。

看下面的例子:
在salaries表中,查找salary列里匹配.0000。这个.表示匹配任意一个字符,这个是通配符%做不到的。

SELECT salary FROM salaries WHERE salary REGEXP '.0000';

LIKE与REGEXP的区别

看下面两句代码

code1

SELECT birth_date FROM employees WHERE birth_date REGEXP '26' ORDER BY birth_date;

code2

SELECT birth_date FROM employees WHERE birth_date LIKE '26' ORDER BY birth_date;

code1 效果

code2 效果

Empty set (0.09 sec)

会发现LIKE语句去匹配的话返回空数据。
这个就是LIKE与REGEXP的区别。

因为LIKE必须是匹配整个列的,如果不是完全匹配LIKE是找不到它的。而REGEXP则不一样,只要该列中匹配的文本在该列中即可。

进行or匹配

SELECT birth_date FROM employees WHERE birth_date REGEXP '26|27' ORDER BY birth_date;

匹配所有26号或27号生日的行

匹配几个字符之一

SELECT emp_no FROM employees WHERE emp_no REGEXP '1001[123]';

匹配文本中包含”1001” + [123]中的任意一个。其中[123]也可用[1-3]来表示。

与or匹配的区别在于:
“1001[123]”匹配的是10011、10012、10013

“10011|2|3”匹配的是10011、2、3

匹配特殊字符

匹配.、[]|-等特殊字符

匹配 . 字符
特殊字符需要通过\\转义符来表达

SELECT first_name FROM employees WHERE first_name REGEXP '\\.'

其他特殊字符

元字符 说明
\\f 换页
\\n 换行
\\r 回车
\\t 制表
\\v 纵向制表

匹配字符类

说明
[:alnum:] 任意字母和数字(同[a-zA-Z0-9])
[:alpha:] 任意字符(同[a-zA-Z])
[:blank:] 空格和制表(同[\t])
[:cntrl:] ASCII控制字符(ASCII0到31和127)
[:digit:] 任意数字(同[0-9])
[:graph:] 与[:print:]相同,但不包括空格
[:lower:] 任意小写字母(同[a-z])
[:print:] 任意可打印字符
[:punct:] 即不在[:alnum:]也不在[:cntrl:]中的任意字符
[:space:] 包括空格在内的任意空白符(同[\f\n\r\t\v])
[:upper:] 任意大写字母(同[A-Z])
[:xdigit:] 任意十六进制数字(同a-fA-F0-9)

匹配多个实例

元字符 说明
* 0个或多个匹配
+ 1个或多个匹配
0个或一个匹配
{n} 指定数目的匹配
{n,} 不少于指定数目的匹配
{n,m} 匹配数目的范围(m不超过255)

如:
匹配出生年月为10月以后,20日以后的行

SELECT birth_date FROM employees WHERE birth_date REGEXP '[0-9]{4}\\-1[0-9]?\\-2[0-9]?';

定位符

元字符 说明
^ 文本的开始
$ 文本的结束
[[:<:]] 词的开始
[[:>:]] 词的结尾

比方说想找出以0-9数字开头的姓。因为数字必须在开头位置,使用[0-9]就不适合,有时候会出现数字在中间的情况,这样就不匹配了。

SELECT first_name FROM employees WHERE first_name REGEXP '^[0-9]';

匹配以0-9数字为结尾的姓,也可以通过定位符来解决

SELECT first_name FROM employees WHERE first_name REGEXP '[0-9]$';