正則表達式簡化模式匹配的代碼探索在文本處理場合下涉及模式匹配中正則表達式的優雅之處。概要文本處理經常涉及的根據一個pattern的匹配。盡管java的character和assorted的String類提供了low-level的pattern-matching支持,這種支持一般帶來了復雜的代碼。為了幫助你書" />

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

java正則表達式; regular expression

系統 1928 0

Java 101 <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

正則表達式簡化模式匹配的代碼

探索在文本處理場合下涉及模式匹配中正則表達式的優雅之處。

概要

文本處理經常涉及的根據一個 pattern 的匹配。盡管 java character assorted String 類提供了 low-level pattern-matching 支持,這種支持一般帶來了復雜的代碼。為了幫助你書寫簡單的 pattern-matching 代碼, java 提供了 regular expression 。在介紹給你術語和 java.util.regex 包之后, Jeff Friesen explores 了許多那個包的 Pattern 類支持的正則表達式結構。然后他 examines Pattern 的方法和附加的 java.util.regex 類。作為結束,他提供了一個正則表達式的實踐應用。

為察看術語列表,提示與警告,新的 homework ,上個月 homework 的回答,這篇文章的相關材料,請訪問 study guide . ( 6,000 words; <?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /><date year="2003" day="7" month="2"><b><span lang="EN-US" style="FONT-SIZE: 9pt; COLOR: black; FONT-FAMILY: Verdana; mso-bidi-font-family: SimSun; mso-font-kerning: 0pt">February 7, 2003</span></b></date> )

By Jeff Friesen Translated By humx

<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" /><shapetype id="_x0000_t75" stroked="f" filled="f" path="m@4@5l@4@11@9@11@9@5xe" o:preferrelative="t" o:spt="75" coordsize="21600,21600"><stroke joinstyle="miter"></stroke><formulas><f eqn="if lineDrawn pixelLineWidth 0"></f><f eqn="sum @0 1 0"></f><f eqn="sum 0 0 @1"></f><f eqn="prod @2 1 2"></f><f eqn="prod @3 21600 pixelWidth"></f><f eqn="prod @3 21600 pixelHeight"></f><f eqn="sum @0 0 1"></f><f eqn="prod @6 1 2"></f><f eqn="prod @7 21600 pixelWidth"></f><f eqn="sum @8 21600 0"></f><f eqn="prod @7 21600 pixelHeight"></f><f eqn="sum @10 21600 0"></f></formulas><path o:connecttype="rect" gradientshapeok="t" o:extrusionok="f"></path><lock aspectratio="t" v:ext="edit"></lock></shapetype><shape id="_x0000_i1025" style="WIDTH: 453.75pt; HEIGHT: 1.5pt" alt="" type="#_x0000_t75"><imagedata o: src="file:///C:%5CDOCUME~1%5Chumi%5CLOCALS~1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.png"><font color="#990033"></font></imagedata></shape> 文本處理經常的要求依據特定 pattern 匹配的代碼。它能讓文本檢索, email header 驗證,從普通文本的自定義文本的創建(例如,用 "Dear Mr. Smith" 替代 "Dear Customer" ),等等成為可能。 Java 通過 character assorted string 類支持 pattern matching 。由于 low-level 的支持一般帶來了復雜的 pattern-matching 代碼, java 同時提供了 regular expression 來簡代碼。

Regular expressions 經常讓新手迷惑。然而 , 這篇文章驅散了大部分混淆。在介紹了 regular expression 術語, java.util.regex 包中的類 , 和一個 regular expression constructs 的示例程序之后 , explore 了許多 Pattern 類支持的 regular expression constructs 。我也 examine 了組成 Pattern java.util.regex 包中其它類的方法。一個 practical 的正則表達式的應用程序結束了我的討論。

Note

Regular expressions 的漫長歷史開始于計算機科學理論領域自動控制原理和 formal 語言理論。它的歷史延續到 Unix 和其它的操作系統,在那里正則表達式被經常用作在 Unix Unix-like 的工具中:像 awk (一個由其創作者, Aho, Weinberger, and Kernighan ,命名,能夠進行文本分析處理的編程語言) , emacs ( 一個開發工具 ) ,和 grep ( 一個在一個或多個文件中匹配正則表達式,為了全局地正則表達式打印的工具。

什么是正則表達式 ?
A regular expression
也被 known as regex or regexp ,是一個描述了一個字符串集合的 pattern (template) 。這個 pattern 決定了什么樣的字符串屬于這個集合,它由文本字符和元字符( metacharacters 有特殊的而不是字符含義的字符)組成。為了識別 匹配 的檢索文本的過程 字符串滿足一個正則表達式 稱作模式匹配( pattern matching )。

Java's java.util.regex 包通過 Pattern Matcher 類和 PatternSyntaxException 異常支持 pattern matching

  • Pattern 對象,被 known as patterns ,是編譯的正則表達式。

  • Matcher 對象,或者 matchers ,實現了 java.lang.CharSequence 接口并作為文本 source 的字符序列中定位解釋 matchers 的引擎。

  • PatternSyntaxException 對象描述非法的 regex patterns

Listing 1 介紹這些類:

Listing 1. RegexDemo.java

// RegexDemo.java
import java.util.regex.*;


class RegexDemo {
public static void main (String [] args) {
if (args.length != 2)
System.err.println ("java RegexDemo regex text");
return;
}
Pattern p;
try {
p = Pattern.compile (args [0]);
}
catch (PatternSyntaxException e) {
System.err.println ("Regex syntax error: " + e.getMessage ());
System.err.println ("Error description: " + e.getDescription ());
System.err.println ("Error index: " + e.getIndex ());
System.err.println ("Erroneous pattern: " + e.getPattern ());
return;
}

String s = cvtLineTerminators (args [1]);
Matcher m = p.matcher (s);

System.out.println ("Regex = " + args [0]);
System.out.println ("Text = " + s);
System.out.println ();
while (m.find ()) {
System.out.println ("Found " + m.group ());
System.out.println ("starting at index " + m.start () +
" and ending at index " + m.end ());
System.out.println ();
}
}

// Convert \n and \r character sequences to their single character
// equivalents

static String cvtLineTerminators (String s) {
StringBuffer sb = new StringBuffer (80);

int oldindex = 0, newindex;
while ((newindex = s.indexOf ("\\n", oldindex)) != -1){
sb.append (s.substring (oldindex, newindex));
oldindex = newindex + 2;
sb.append ('\n');
}
sb.append (s.substring (oldindex));

s = sb.toString ();

sb = new StringBuffer (80);

oldindex = 0;
while ((newindex = s.indexOf ("\\r", oldindex)) != -1){
sb.append (s.substring (oldindex, newindex));
oldindex = newindex + 2;
sb.append ('\r');
}
sb.append (s.substring (oldindex));

return sb.toString ();
}
}

RegexDemo's public static void main(String [] args) 方法 validates 兩個命令行參數:一個指出正則表達式,另外一個指出文本。在創建一個 pattern 之后,這個方法轉換所有的文本參數, new-line and carriage-return line-terminator 字符序列為它們的實際 meanings 。例如,一個 new-line 字符序列 ( 由反斜杠后跟 n 表示 ) 轉換成一個 new-line 字符(用數字表示為 10 )。在輸出了 regex 和被轉換的命令行文本參數之后, main(String [] args) 方法從 pattern 創建了一個 matcher ,它隨后查找了所有的 matches 。對于每一個 match ,它所出現的字符和信息的位置被輸出。

為了完成模式匹配, RegexDemo 調用了 java.util.regex 包中類的不同的方法。不要使你自己現在就理解這些方法;我們將在后邊的文章探討它們。更重要的是,編譯 Listing 1: 你需要 RegexDemo.class 來探索 Pattern's regex 結構。

探索 Pattern's regex 構造

Pattern's SDK 文檔提供了一部分正則表達式結構的文檔。除非你是一個 avid 正則表達式使用者,一個最初的那段文檔的閱讀會讓你迷惑。什么是 quantifiers greedy 之間的不同是什么 , reluctant, possessive quantifiers? 什么是 character classes boundary matchers back references, embedded flag expressions? 為了回答這些和其它的問題,我們探索了許多 Patter 認可的 regex constructs regex pattern 種類。我們從最簡單的 regex construct 開始: literal strings

Caution

不要認為 Pattern Perl5 的正則表達式結構是一樣的。盡管他們有很多相同點,他們也有許多,它們支持的 metacharacters 結構的不同點。 ( 更多信息,察看在你的平臺上的你的 SDK Pattern 類的文檔。 )

Literal strings

當你在字處理軟件的檢索對話框輸入一個你指定一個 literal string 的時候,你就指定了一個 regex expression construct 。執行以下的 RegexDemo 命令行來察看一下這個 regex construct 的動作:

java RegexDemo apple applet

上邊的這個命令行確定了 apple 作為一個包含了字符 a, p, p, l, and e (依次)的字符 regex construct 這個命令行同時也確定了 applet 作為 pattern-matching 的文本。執行命令行以后,看到以下輸出:

Regex = apple
Text = applet

Found apple
starting at index 0 and ending at index 5

輸出的 regex text 命令行,預示著在 applet 中一個 applet 的成功的匹配,并表示了匹配的開始和結束的索引:分別為 0 5 。開始索引指出了一個 pattern match 出現的第一個文本的開始位置,結束索引指明了這個 match 后的第一個 text 的位置。換句話說,匹配的 text 的范圍包含在開始索引和去掉結束索引之間(不包含結束索引)。

Metacharacters

盡管 string regex constructs 是有用的,更強大的 regex contsruct 聯合了文本字符和 元字符 。例如,在 a.b ,這個句點 metacharacter (.) 代表在 a b 之間出現的任何字符。 為了察看元字符的動作, 執行以下命令行:

java RegexDemo .ox "The quick brown fox jumps over the lazy ox."

以上命令指出 .ox 作為 regex ,和 The quick brown fox jumps over the lazy ox. 作為文本源 text RegexDemo 檢索 text 來匹配以任意字符開始以 ox 結束的 match ,并產生如下輸出:

Regex = .ox
Text = The quick brown fox jumps over the lazy ox.

Found fox
starting at index 16 and ending at index 19

Foundox
starting at index 39 and ending at index 42

這個輸出展示了兩個 matches:fox ox . metacharacter 在第一個 match 中匹配 f ,在第二個 match 中匹配空格。

假如我們用前述的 metacharacter 替換 .ox 會怎么樣呢?也就是,我們指定 java RegexDemo . "The quick brown fox jumps over the lazy ox." 會有什么樣的輸出,因為 period metacharacter 匹配任何字符, RegexDemo 在命令行輸出每一個匹配字符,包括結尾的 period 字符。

Tip

為了指定 . 或者任何的元字符作為在一個 regex construct 作為 literal character 引用 轉換 meta 狀態到 literal status— 用以下兩種方法之一:

  • 在元字符之前放置反斜杠。

  • 將元字符放在 \Q \E 之間(例如: \Q.\E )。

在每種情形下,不要忘記在 string literal (例如: String regex = \\.;

)中出現時(像 \\. or \\Q.\\E )的雙倍的反斜杠。不要在當它在命令行參數中出現的時候用雙倍的反斜杠。

Character classes

有時我們限定產生的 matches 到一個特定的字符集和。例如,我們可以檢索元音 a, e, i, o, and u ,任何一個元音字符的出現都以為著一個 match A character 類, 通過在方括號之間的一個字符集和指定的 regex construct ,幫我們完成這個任務。 Pattern 支持以下的 character classes

  • 簡單字符 : 支持被依次放置的字符串并僅匹配這些字符。例如: [abc] 匹配字符 a, b, and c 。以下的命令行提供了另外一個示例:

java RegexDemo [csw] cave

java RegexDemo [csw] cave [csw] c 匹配在 cave 中的 c 。沒有其它的匹配存在。

  • 否定 : ^ metacharacter 元字符開始且僅匹配沒有在 class 中出現的字符。例如: [^abc] 匹配所有除了 a, b, c 以外的字符,以下的命令行提供了另外一個示例:

java RegexDemo [^csw] cave

java RegexDemo [^csw] cave 匹配在 cave 中遇到的 a, v, e 。沒有其它的匹配存在。

  • 范圍 : 包含在元字符( - )左側的字符開始,元字符( - )右側字符結束的所有字符。僅匹配在范圍內的字符。例如: [a-z] 匹配所有的小寫字母。以下的命令行提供了另外一個示例:

java RegexDemo [a-c] clown

java RegexDemo [a-c] clown 匹配在 clown 中的 c 。沒有其它的匹配存在。

margin: 0mm 0mm 0pt; text-align:

分享到:
評論
wapysun
  • 瀏覽: 4879226 次
  • 性別: Icon_minigender_1
  • 來自: 杭州
最新評論

java正則表達式; regular expression


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 中文字幕精品亚洲无线码二区 | 一级欧美视频 | 男人私人影院 | 99热久久国产这里有只有精品 | 日本九九视频 | 色狠狠色综合久久8狠狠色 色狠狠婷婷97 | 国产日韩一区二区三区在线播放 | 久章草在线 | 亚洲精品久久中文字幕 | 久久91精品国产91久久户 | 欧洲亚洲综合一区二区三区 | 在线精品中文字幕福利视频 | 亚洲国产精品婷婷久久 | 狠狠亚洲婷婷综合色香五 | 免费的拍拍视频在线观看 | 久久久久久久男人的天堂 | 国产日韩欧美亚洲 | 亚洲九九爱 | 亚洲精品www久久久久久 | 最新国产午夜精品视频成人 | 国产精品66在线观看 | 香蕉视频国产 | 波多野吉衣一区二区三区四区 | 久久天堂视频 | 国内精品手机在线观看视频 | 色综合亚洲七七久久桃花影院 | 欧美高清一区二区 | 精品九九九| 神马视频我不卡 | 久久久久影视 | 九九热在线视频免费观看 | 毛片2| 香蕉成人国产精品免费看网站 | 老司机永久免费网站在线观看 | 一区二区三区日韩精品 | 欧美日韩国产亚洲一区二区三区 | 狠狠色噜噜狠狠狠8888米奇 | 在线 亚洲 欧美 | 免费一级特黄a | 337p色噜噜 | 国产一区中文字幕在线观看 |