Java 101 <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
正則表達式簡化模式匹配的代碼
探索在文本處理場合下涉及模式匹配中正則表達式的優雅之處。
概要
文本處理經常涉及的根據一個 pattern 的匹配。盡管 java 的 character 和 assorted 的 String 類提供了 low-level 的 pattern-matching 支持,這種支持一般帶來了復雜的代碼。為了幫助你書寫簡單的 pattern-matching 代碼, java 提供了 regular expression 。在介紹給你術語和 java.util.regex 包之后, Jeff Friesen explores 了許多那個包的 Pattern 類支持的正則表達式結構。然后他 examines 了 Pattern 的方法和附加的 java.util.regex 類。作為結束,他提供了一個正則表達式的實踐應用。
為察看術語列表,提示與警告,新的 homework ,上個月 homework 的回答,這篇文章的相關材料,請訪問 study guide . ( 6,000 words; <?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /><date year="2003" day="7" month="2"><b><span lang="EN-US" style="FONT-SIZE: 9pt; COLOR: black; FONT-FAMILY: Verdana; mso-bidi-font-family: SimSun; mso-font-kerning: 0pt">February 7, 2003</span></b></date> )
By Jeff Friesen , Translated By humx
<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" /><shapetype id="_x0000_t75" stroked="f" filled="f" path="m@4@5l@4@11@9@11@9@5xe" o:preferrelative="t" o:spt="75" coordsize="21600,21600"><stroke joinstyle="miter"></stroke><formulas><f eqn="if lineDrawn pixelLineWidth 0"></f><f eqn="sum @0 1 0"></f><f eqn="sum 0 0 @1"></f><f eqn="prod @2 1 2"></f><f eqn="prod @3 21600 pixelWidth"></f><f eqn="prod @3 21600 pixelHeight"></f><f eqn="sum @0 0 1"></f><f eqn="prod @6 1 2"></f><f eqn="prod @7 21600 pixelWidth"></f><f eqn="sum @8 21600 0"></f><f eqn="prod @7 21600 pixelHeight"></f><f eqn="sum @10 21600 0"></f></formulas><path o:connecttype="rect" gradientshapeok="t" o:extrusionok="f"></path><lock aspectratio="t" v:ext="edit"></lock></shapetype><shape id="_x0000_i1025" style="WIDTH: 453.75pt; HEIGHT: 1.5pt" alt="" type="#_x0000_t75"><imagedata o: src="file:///C:%5CDOCUME~1%5Chumi%5CLOCALS~1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.png"><font color="#990033"></font></imagedata></shape> 文本處理經常的要求依據特定 pattern 匹配的代碼。它能讓文本檢索, email header 驗證,從普通文本的自定義文本的創建(例如,用 "Dear Mr. Smith" 替代 "Dear Customer" ),等等成為可能。 Java 通過 character 和 assorted string 類支持 pattern matching 。由于 low-level 的支持一般帶來了復雜的 pattern-matching 代碼, java 同時提供了 regular expression 來簡代碼。
Regular expressions 經常讓新手迷惑。然而 , 這篇文章驅散了大部分混淆。在介紹了 regular expression 術語, java.util.regex 包中的類 , 和一個 regular expression constructs 的示例程序之后 , 我 explore 了許多 Pattern 類支持的 regular expression constructs 。我也 examine 了組成 Pattern 和 java.util.regex 包中其它類的方法。一個 practical 的正則表達式的應用程序結束了我的討論。
Note
|
Regular expressions 的漫長歷史開始于計算機科學理論領域自動控制原理和 formal 語言理論。它的歷史延續到 Unix 和其它的操作系統,在那里正則表達式被經常用作在 Unix 和 Unix-like 的工具中:像 awk (一個由其創作者, Aho, Weinberger, and Kernighan ,命名,能夠進行文本分析處理的編程語言) , emacs ( 一個開發工具 ) ,和 grep ( 一個在一個或多個文件中匹配正則表達式,為了全局地正則表達式打印的工具。
|
什么是正則表達式
?
A
regular expression
,
也被
known as regex or regexp
,是一個描述了一個字符串集合的
pattern
(template)
。這個
pattern
決定了什么樣的字符串屬于這個集合,它由文本字符和元字符(
metacharacters
,
由
有特殊的而不是字符含義的字符)組成。為了識別
匹配
的檢索文本的過程
—
字符串滿足一個正則表達式
—
稱作模式匹配(
pattern matching
)。
Java's java.util.regex 包通過 Pattern , Matcher 類和 PatternSyntaxException 異常支持 pattern matching :
-
Pattern
對象,被
known as patterns
,是編譯的正則表達式。
-
Matcher
對象,或者
matchers
,
在
,實現了
java.lang.CharSequence
接口并作為文本
source
的字符序列中定位解釋
matchers
的引擎。
-
PatternSyntaxException
對象描述非法的
regex patterns
。
Listing 1 介紹這些類:
Listing 1. RegexDemo.java
// RegexDemo.java
import java.util.regex.*;
class RegexDemo {
public static void main (String [] args) {
if (args.length != 2)
System.err.println ("java RegexDemo regex text");
return;
}
Pattern p;
try {
p = Pattern.compile (args [0]);
}
catch (PatternSyntaxException e) {
System.err.println ("Regex syntax error: " + e.getMessage ());
System.err.println ("Error description: " + e.getDescription ());
System.err.println ("Error index: " + e.getIndex ());
System.err.println ("Erroneous pattern: " + e.getPattern ());
return;
}
String s = cvtLineTerminators (args [1]);
Matcher m = p.matcher (s);
System.out.println ("Regex = " + args [0]);
System.out.println ("Text = " + s);
System.out.println ();
while (m.find ()) {
System.out.println ("Found " + m.group ());
System.out.println ("starting at index " + m.start () +
" and ending at index " + m.end ());
System.out.println ();
}
}
// Convert \n and \r character sequences to their single character
// equivalents
static String cvtLineTerminators (String s) {
StringBuffer sb = new StringBuffer (80);
int oldindex = 0, newindex;
while ((newindex = s.indexOf ("\\n", oldindex)) != -1){
sb.append (s.substring (oldindex, newindex));
oldindex = newindex + 2;
sb.append ('\n');
}
sb.append (s.substring (oldindex));
s = sb.toString ();
sb = new StringBuffer (80);
oldindex = 0;
while ((newindex = s.indexOf ("\\r", oldindex)) != -1){
sb.append (s.substring (oldindex, newindex));
oldindex = newindex + 2;
sb.append ('\r');
}
sb.append (s.substring (oldindex));
return sb.toString ();
}
}
RegexDemo's public static void main(String [] args) 方法 validates 兩個命令行參數:一個指出正則表達式,另外一個指出文本。在創建一個 pattern 之后,這個方法轉換所有的文本參數, new-line and carriage-return line-terminator 字符序列為它們的實際 meanings 。例如,一個 new-line 字符序列 ( 由反斜杠后跟 n 表示 ) 轉換成一個 new-line 字符(用數字表示為 10 )。在輸出了 regex 和被轉換的命令行文本參數之后, main(String [] args) 方法從 pattern 創建了一個 matcher ,它隨后查找了所有的 matches 。對于每一個 match ,它所出現的字符和信息的位置被輸出。
為了完成模式匹配, RegexDemo 調用了 java.util.regex 包中類的不同的方法。不要使你自己現在就理解這些方法;我們將在后邊的文章探討它們。更重要的是,編譯 Listing 1: 你需要 RegexDemo.class 來探索 Pattern's regex 結構。
探索 Pattern's regex 構造
Pattern's SDK 文檔提供了一部分正則表達式結構的文檔。除非你是一個 avid 正則表達式使用者,一個最初的那段文檔的閱讀會讓你迷惑。什么是 quantifiers , greedy 之間的不同是什么 , reluctant, 和 possessive quantifiers? 什么是 character classes , boundary matchers , back references, 和 embedded flag expressions? 為了回答這些和其它的問題,我們探索了許多 Patter 認可的 regex constructs 或 regex pattern 種類。我們從最簡單的 regex construct 開始: literal strings 。
Caution
|
不要認為 Pattern 和 Perl5 的正則表達式結構是一樣的。盡管他們有很多相同點,他們也有許多,它們支持的 metacharacters 結構的不同點。 ( 更多信息,察看在你的平臺上的你的 SDK Pattern 類的文檔。 )
|
Literal strings
當你在字處理軟件的檢索對話框輸入一個你指定一個 literal string 的時候,你就指定了一個 regex expression construct 。執行以下的 RegexDemo 命令行來察看一下這個 regex construct 的動作:
java RegexDemo apple applet
上邊的這個命令行確定了 apple 作為一個包含了字符 a, p, p, l, and e (依次)的字符 regex construct 。 這個命令行同時也確定了 applet 作為 pattern-matching 的文本。執行命令行以后,看到以下輸出:
Regex = apple
Text = applet
Found apple
starting at index 0 and ending at index 5
輸出的 regex 和 text 命令行,預示著在 applet 中一個 applet 的成功的匹配,并表示了匹配的開始和結束的索引:分別為 0 和 5 。開始索引指出了一個 pattern match 出現的第一個文本的開始位置,結束索引指明了這個 match 后的第一個 text 的位置。換句話說,匹配的 text 的范圍包含在開始索引和去掉結束索引之間(不包含結束索引)。
Metacharacters
盡管 string regex constructs 是有用的,更強大的 regex contsruct 聯合了文本字符和 元字符 。例如,在 a.b ,這個句點 metacharacter (.) 代表在 a 個 b 之間出現的任何字符。 為了察看元字符的動作, 執行以下命令行:
java RegexDemo .ox "The quick brown fox jumps over the lazy ox."
以上命令指出 .ox 作為 regex ,和 The quick brown fox jumps over the lazy ox. 作為文本源 text 。 RegexDemo 檢索 text 來匹配以任意字符開始以 ox 結束的 match ,并產生如下輸出:
Regex = .ox
Text = The quick brown fox jumps over the lazy ox.
Found fox
starting at index 16 and ending at index 19
Foundox
starting at index 39 and ending at index 42
這個輸出展示了兩個 matches:fox 和 ox 。 . metacharacter 在第一個 match 中匹配 f ,在第二個 match 中匹配空格。
假如我們用前述的 metacharacter 替換 .ox 會怎么樣呢?也就是,我們指定 java RegexDemo . "The quick brown fox jumps over the lazy ox." 會有什么樣的輸出,因為 period metacharacter 匹配任何字符, RegexDemo 在命令行輸出每一個匹配字符,包括結尾的 period 字符。
Tip
|
為了指定 . 或者任何的元字符作為在一個 regex construct 作為 literal character , 引用 — 轉換 meta 狀態到 literal status— 用以下兩種方法之一:
在每種情形下,不要忘記在 string literal (例如: String regex = \\.;
)中出現時(像 \\. or \\Q.\\E )的雙倍的反斜杠。不要在當它在命令行參數中出現的時候用雙倍的反斜杠。
|
Character classes
有時我們限定產生的 matches 到一個特定的字符集和。例如,我們可以檢索元音 a, e, i, o, and u ,任何一個元音字符的出現都以為著一個 match 。 A character 類, 通過在方括號之間的一個字符集和指定的 regex construct ,幫我們完成這個任務。 Pattern 支持以下的 character classes :
-
簡單字符
:
支持被依次放置的字符串并僅匹配這些字符。例如:
[abc]
匹配字符
a, b, and c
。以下的命令行提供了另外一個示例:
java RegexDemo [csw] cave
java RegexDemo [csw] cave [csw] 中 c 匹配在 cave 中的 c 。沒有其它的匹配存在。
-
否定
:
以
^ metacharacter
元字符開始且僅匹配沒有在
class
中出現的字符。例如:
[^abc]
匹配所有除了
a, b,
和
c
以外的字符,以下的命令行提供了另外一個示例:
java RegexDemo [^csw] cave
java RegexDemo [^csw] cave 匹配在 cave 中遇到的 a, v, 和 e 。沒有其它的匹配存在。
-
范圍
:
包含在元字符(
-
)左側的字符開始,元字符(
-
)右側字符結束的所有字符。僅匹配在范圍內的字符。例如:
[a-z]
匹配所有的小寫字母。以下的命令行提供了另外一個示例:
java RegexDemo [a-c] clown
java RegexDemo [a-c] clown 匹配在 clown 中的 c 。沒有其它的匹配存在。
margin: 0mm 0mm 0pt; text-align: 發表評論
最新評論
|
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元

評論