Function TestPassword(strPassword) Dim re Set re = new RegExp re.IgnoreCase = false re.global = false re.Pattern = "^[a-zA-Z]\w{3,14}$" TestPassword = re.Test(strPassword) End Function |
<% Dim re Set re = new RegExp re.pattern = "^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$" Response.Write re.Test("aabb@yahoo.com") %> |
<table border="0" width="11%" class="Somestory"> <tr> <td width="100%"> <p align="center">其它内容...</td> </tr> </table> <table border="0" width="11%" class="Headline"> <tr> <td width="100%"> <p align="center">伊拉克战争!</td> </tr> </table> <table border="0" width="11%" class="Someotherstory"> <tr> <td width="100%"> <p align="center">其它内容...</td> </tr> </table> |
<% Dim re, strHTML Set re = new RegExp ' 建立正则表达式对象 re.IgnoreCase = true re.Global = false ' 第壹次匹配之后结束查找 %> |
' 把所有匹配的HTML代码放入Matches集合 Set Matches = re.Execute(strHTML) ' 显示所有匹配的HTML代码 For Each Item in Matches Response.Write Item.Value Next ' 显示其中一项 Response.write Matches.Item(0).Value |
<table border="0" width="11%" class="Headline"> <tr> <td width="100%"> <p align="center">伊拉克战争!</td> </tr> </table> <table border="0" width="11%" class="Someotherstory"> <tr> <td width="100%"> <p align="center">其它内容...</td> </tr> </table> |
返回的内容不仅涵盖了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。
本例假设了一点相当理想化的前提。实际应用中情况往往要复杂得多,尤其是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的要领是,多花些时间分析待提取内容附近的HTML,我们时常地测试,确保提取出来的内容正是自己所期望的。另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。
三、解析文本数据文件
数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都我们时常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(好比引号)表示字符串各个部分不可分割,即便字符串内部包含把记录分隔成字段的分隔符也一样。
下面是一个容易的结构化文本文件: 姓,名, 电话, 说明
孙,悟空, 312 555 5656, ASP很好
猪,八戒, 847 555 5656, 我是电影制片人
这个文件非常简单,它的第壹行是标题,下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单,只需先把文件分割成行(根据换行符号),然后把各个记录根据字段分割。可是,如果我们在某个字段内容中加入了逗号: 姓,名, 电话, 说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪,八戒, 847 555 5656, 我是电影制片人
解析第壹个记录时就会发生问题,因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现该类问题,包含分隔符的字段务必用限定符包围。单引号就是一种经常使用的限定符。把上面的文本文件加上单引号限定符之后,它的内容如下所示: 姓,名, 电话, 说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪,八戒, 847 555 5656, '我是电影制片人'
目前我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了,即只需把引号内部出现的逗号视为字段的内容。接着我们要做的就是实现一个正则表达式解析器,由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。
这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分,瞧瞧它是否能够和正则表达式匹配。但在这里,只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。
下面是一个说明该问题的案例。从某个文本文件随意抽取半行内容,得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 。在这个案例中,因为“1”的左边还有其它数据,要解析清楚它的内容是极其艰难的。我们不晓得这个数据片断的前面有多少单引号,从而也就无法判断哪些字符位于引号之内(在引号之内的文本解析时不能分割)。如果这个数据片断之前有偶数个(或没有)单引号,那么“', 狗, 猫, 鸭子, '”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数,那么“1, 沙滩, 黑色, 21, '”是某个字符串的结束部分且不可分割。
因此,正则表达式务必分析整行文本,全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部,即:,(?=([^']*'[^']*')*(?![^']*'))。这个正则表达式首先找到一个引号,然后继续查找并保证逗号后面的单引号数量或是偶数、或是0。该正则表达式以下面这个判断为基础:如果逗号后面的单引号数量是偶数,那么这个逗号位于字符串之外。下表给出了更详细的说明: , 寻找一个逗号 (?= 继续向前查找以匹配下面这个模式: ( 开始一个新的模式 [^']*' [非引号字符]0个或多个,然后是一个引号 [^']*'[^']*) [非引号字符]0个或多个,然后是一个引号。结合前面的内容之后它匹配引号对 )* 结束模式并匹配整个模式(引号对)0次或屡次 (?! 向前查找,排除此模式 [^']*' [非引号字符]0个或多个,然后是一个引号 ) 结束模式
下面是一个VBScript函数,它接受一个字符串参数,根据字符串中的逗号分隔符、单引号限定符分割字符串,返回结果数组: Function SplitAdv(strInput)
Dim objRE
Set objRE = new RegExp
' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"
' Replace方法用chr(8)替换我们要用到的逗号,chr(8)即\b
' 字符,\b在字符串中出现的可能极为微小。
' 然后我们根据\b把字符串分割保存到数组
SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function
总而言之,用正则表达式解析文本数据文件具有高效、缩短开发时间的优点,能够节省大量分析文件、根据复杂的条件提取有用数据的时间。在一个迅速发展的环境中仍会有许多以往的数据可资利用,掌握如何构造高效的数据分析例程将是一种珍贵的技能。
四、字符串替换
在最后一个例子中我们要瞧瞧VBScript正则表达式的替换功能。ASP我们时经常使用于动态地格式化从各种数据源获得的文本。利用VBScript正则表达式的强大功能,ASP能够动态地改变匹配的复杂文本。通过加入HTML标记突出显示部分单词就是一种常见的应用,好比突出显示搜索结果中的搜索关键词。
为说明实现方法,下面我们来看一个突出显示字符串中所有“.NET”的案例。这个字符串可以从任何地方获得,好比数据库或其它Web网站。 <%
Set regEx = New RegExp
regEx.Global = true
regEx.IgnoreCase = True
' 正则表达式模式,
' 寻找任何结尾为“.NET”的单词或URL。
regEx.Pattern = "(\b[a-zA-Z\._]+?\.NET\b)"
' 用于测试替换功能的字符串
strText = "微软建立了一个新网站www.ASP.NET。"
' 调用正则表达式的Replace方法
' $1表示把匹配的文本插入当前位置
Response.Write regEx.Replace(strText, _
"<b style='color: #000099; font-size: 18pt'>$1</b>")
%>
这个案例中有几个重要的地方务必注意。整个正则表达式被放入了一对圆括号中,它的作用是截取所有匹配的内容供以后使用,这些内容在替换文本中通过$1引用。类似的截取每次替换可以使用多达9个,分别通过$1到$9引用。正则表达式的Replace方法和VBScript本身的Replace函数不同,它只需要两个参数:被搜索的文本,替换用的文本。
在这个案例中,为了突出显示搜索到的“.NET”字符串,我们用粗体标记和其它样式属性来包围这些字符串。使用这种搜索和替换技术,我们能够方便地为网站搜索程序加上突出显示搜索关键词的功能,或自动为页面中出现的关键词加上指向其它页面的链接。
结束语
希望本文介绍的几种正则表达式技巧对你在何时、如何应用正则表达式有所启发。虽然本文的案例用VBScript编写,但在ASP.NET中正则表达式同样也大有用武之地,它是服务器端控件表单检验的主要机制之一,而且通过System.Text.RegularExpressions命名空间导出到了整个.NET框架之中。