正则表达式介绍
正则表达式可用于查找文件,可以在文本块中找到重复的单词。解析URL,处理复杂文本等。
正则表达式与MySQL的关系
通过正则对文本串进行比较来替换LIKE。
见下面例子
基本字符匹配
从first_name这个列中找出所有包含’oo’的行
SELECT first_name FROM employees WHERE first_name REGEXP 'oo';
该代码等同于
SELECT first_name FROM employees WHERE first_name LIKE '%oo%';
目前看下来正则在字符长度比较短的情况下,执行效率比通配符来得低。
看下面的例子:
在salaries表中,查找salary列里匹配.0000
。这个.
表示匹配任意一个字符,这个是通配符%
做不到的。
SELECT salary FROM salaries WHERE salary REGEXP '.0000';
LIKE与REGEXP的区别
看下面两句代码
code1
SELECT birth_date FROM employees WHERE birth_date REGEXP '26' ORDER BY birth_date;
code2
SELECT birth_date FROM employees WHERE birth_date LIKE '26' ORDER BY birth_date;
code1 效果
code2 效果
Empty set (0.09 sec)
会发现LIKE语句去匹配的话返回空数据。
这个就是LIKE与REGEXP的区别。
因为LIKE必须是匹配整个列的,如果不是完全匹配LIKE是找不到它的。而REGEXP则不一样,只要该列中匹配的文本在该列中即可。
进行or匹配
SELECT birth_date FROM employees WHERE birth_date REGEXP '26|27' ORDER BY birth_date;
匹配所有26号或27号生日的行
匹配几个字符之一
SELECT emp_no FROM employees WHERE emp_no REGEXP '1001[123]';
匹配文本中包含”1001” + [123]中的任意一个。其中[123]也可用[1-3]来表示。
与or匹配的区别在于:
“1001[123]”匹配的是10011、10012、10013
“10011|2|3”匹配的是10011、2、3
匹配特殊字符
匹配.、[]|-等特殊字符
匹配 . 字符
特殊字符需要通过\\
转义符来表达
SELECT first_name FROM employees WHERE first_name REGEXP '\\.'
其他特殊字符
元字符 | 说明 |
---|---|
\\f | 换页 |
\\n | 换行 |
\\r | 回车 |
\\t | 制表 |
\\v | 纵向制表 |
匹配字符类
类 | 说明 |
---|---|
[:alnum:] | 任意字母和数字(同[a-zA-Z0-9]) |
[:alpha:] | 任意字符(同[a-zA-Z]) |
[:blank:] | 空格和制表(同[\t]) |
[:cntrl:] | ASCII控制字符(ASCII0到31和127) |
[:digit:] | 任意数字(同[0-9]) |
[:graph:] | 与[:print:]相同,但不包括空格 |
[:lower:] | 任意小写字母(同[a-z]) |
[:print:] | 任意可打印字符 |
[:punct:] | 即不在[:alnum:]也不在[:cntrl:]中的任意字符 |
[:space:] | 包括空格在内的任意空白符(同[\f\n\r\t\v]) |
[:upper:] | 任意大写字母(同[A-Z]) |
[:xdigit:] | 任意十六进制数字(同a-fA-F0-9) |
匹配多个实例
元字符 | 说明 |
---|---|
* | 0个或多个匹配 |
+ | 1个或多个匹配 |
? | 0个或一个匹配 |
{n} | 指定数目的匹配 |
{n,} | 不少于指定数目的匹配 |
{n,m} | 匹配数目的范围(m不超过255) |
如:
匹配出生年月为10月以后,20日以后的行
SELECT birth_date FROM employees WHERE birth_date REGEXP '[0-9]{4}\\-1[0-9]?\\-2[0-9]?';
定位符
元字符 | 说明 |
---|---|
^ | 文本的开始 |
$ | 文本的结束 |
[[:<:]] | 词的开始 |
[[:>:]] | 词的结尾 |
比方说想找出以0-9数字开头的姓。因为数字必须在开头位置,使用[0-9]
就不适合,有时候会出现数字在中间的情况,这样就不匹配了。
SELECT first_name FROM employees WHERE first_name REGEXP '^[0-9]';
匹配以0-9数字为结尾的姓,也可以通过定位符来解决
SELECT first_name FROM employees WHERE first_name REGEXP '[0-9]$';