.NET Framework 規則運算式
規則運算式 (Regular Expression) 提供功能強大、彈性並有效率的方法來處理文字。 規則運算式有各種模式比對標記法,可讓您快速剖析大量文字來尋找特定字元模式、驗證文字以確定其符合預先定義的模式 (例如電子郵件地址)、擷取、編輯、取代或刪除文字子字串,以及將擷取的字串加入至集合來產生報表。 對於許多處理字串或剖析大型文字區塊的應用程式來說,規則運算式是不可或缺的工具。
規則運算式的運作方式
使用規則運算式來處理文字是以規則運算式引擎為核心,由 .NET Framework 中的 System.Text.RegularExpressions.Regex 物件來表示。 使用規則運算式來處理文字時,至少需要提供下列兩項資訊給規則運算式引擎:
在文字中要識別的規則運算式模式。
在 .NET Framework 中,規則運算式模式由特殊的語法或語言所定義,這個語法或語言與 Perl 5 規則運算式相容,同時還加上一些額外的功能,例如由右至左的比對。 如需詳細資訊,請參閱 規則運算式語言項目。
要剖析來找出規則運算式模式的文字。
Regex 類別的方法可讓您執行下列作業:
呼叫 IsMatch 方法,以判斷輸入文字中是否存在規則運算式模式。 如需使用 IsMatch 方法來驗證文字的範例,請參閱 HOW TO:確認字串是否為有效的電子郵件格式。
呼叫 Match 或 Matches 方法,以擷取符合規則運算式模式的一個或所有文字相符項目。 第一個方法會傳回 Match 物件,這個物件提供相符文字的相關資訊。 第二個方法會傳回 MatchCollection 物件,每個在剖析的文字中找到的符合項目,在這個物件中都有一個 Match 物件。
呼叫 Replace 方法,以取代符合規則運算式模式的文字。 如需使用 Replace 方法來變更日期格式和從字串移除無效字元的範例,請參閱 HOW TO:從字串中刪除無效的字元和 範例:變更日期格式。
如需規則運算式物件模型的概觀,請參閱規則運算式物件模型。
規則運算式範例
String 類別包含一些字串搜尋和取代方法,供您在較大的字串中尋找常值字串時使用。 當您想要在較大的字串中尋找數個子字串的其中之一,或當您想要識別字串中的模式時,規則運算式最有用,如下列範例所示。
範例 1:取代子字串
假設郵寄清單包含的名稱有些會隨著名字或姓氏而加上稱呼 (Mr.、Mrs.、Miss 或 Ms.)。 當您從清單中產生信封標籤時,如果不要包含稱呼,您可以使用規則運算式來移除稱呼,如下列範例所示。
Imports System.Text.RegularExpressions
Module Example
Public Sub Main()
Dim pattern As String = "(Mr\.? |Mrs\.? |Miss |Ms\.? )"
Dim names() As String = { "Mr. Henry Hunt", "Ms. Sara Samuels", _
"Abraham Adams", "Ms. Nicole Norris" }
For Each name As String In names
Console.WriteLine(Regex.Replace(name, pattern, String.Empty))
Next
End Sub
End Module
' The example displays the following output:
' Henry Hunt
' Sara Samuels
' Abraham Adams
' Nicole Norris
using System;
using System.Text.RegularExpressions;
public class Example
{
public static void Main()
{
string pattern = "(Mr\\.? |Mrs\\.? |Miss |Ms\\.? )";
string[] names = { "Mr. Henry Hunt", "Ms. Sara Samuels",
"Abraham Adams", "Ms. Nicole Norris" };
foreach (string name in names)
Console.WriteLine(Regex.Replace(name, pattern, String.Empty));
}
}
// The example displays the following output:
// Henry Hunt
// Sara Samuels
// Abraham Adams
// Nicole Norris
規則運算式模式 (Mr\.? |Mrs\.? |Miss |Ms\.? ) 會比對出現的任何 "Mr "、"Mr." 、"Mrs "、"Mrs." 、"Miss "、"Ms" 或 "Ms." . 呼叫 Regex.Replace 方法會將符合的字串取代為 String.Empty,也就是說,會從原始字串中移除符合的字串。
範例 2:識別重複字
不小心輸入重複字是寫文章的人常犯的錯誤。 您可以使用規則運算式來識別重複字,如下列範例所示。
Imports System.Text.RegularExpressions
Module modMain
Public Sub Main()
Dim pattern As String = "\b(\w+?)\s\1\b"
Dim input As String = "This this is a nice day. What about this? This tastes good. I saw a a dog."
For Each match As Match In Regex.Matches(input, pattern, RegexOptions.IgnoreCase)
Console.WriteLine("{0} (duplicates '{1})' at position {2}", _
match.Value, match.Groups(1).Value, match.Index)
Next
End Sub
End Module
' The example displays the following output:
' This this (duplicates 'This)' at position 0
' a a (duplicates 'a)' at position 66
using System;
using System.Text.RegularExpressions;
public class Class1
{
public static void Main()
{
string pattern = @"\b(\w+?)\s\1\b";
string input = "This this is a nice day. What about this? This tastes good. I saw a a dog.";
foreach (Match match in Regex.Matches(input, pattern, RegexOptions.IgnoreCase))
Console.WriteLine("{0} (duplicates '{1})' at position {2}",
match.Value, match.Groups[1].Value, match.Index);
}
}
// The example displays the following output:
// This this (duplicates 'This)' at position 0
// a a (duplicates 'a)' at position 66
規則運算式模式 \b(\w+?)\s\1\b 可以解讀如下:
\b |
從字緣開始。 |
(\w+) |
比對一個或多個文字字元。 這些字元一起形成可稱為 \1 的群組。 |
\s |
比對空白字元。 |
\1 |
比對符合名為 \1 之群組的子字串。 |
\b |
比對字緣。 |
將規則運算式選項設定為 RegexOptions.IgnoreCase 來呼叫 Regex.Matches 方法。 因此,比對作業會不區分大小寫,而範例會將子字串 "This this" 視為重複字。
請注意,輸入字串包含子字串 "this. This"。 不過,由於中間多了標點符號,所以不會視為重複字。
範例 3:動態建置區分文化特性的規則運算式
下列範例示範規則運算式與 .NET Framework 全球化功能提供的彈性結合起來所形成的強大功能。 範例中使用 NumberFormatInfo 物件來判斷目前系統文化特性中的貨幣值格式。 然後,便會使用這項資訊來動態建構可從文字中擷取貨幣值的規則運算式。 對於每個符合項目,它會擷取只包含數值字串的子群組,將這個字串轉換為 Decimal 值,然後計算累計總數。
Imports System.Collections.Generic
Imports System.Globalization
Imports System.Text.RegularExpressions
Public Module Example
Public Sub Main()
' Define text to be parsed.
Dim input As String = "Office expenses on 2/13/2008:" + vbCrLf + _
"Paper (500 sheets) $3.95" + vbCrLf + _
"Pencils (box of 10) $1.00" + vbCrLf + _
"Pens (box of 10) $4.49" + vbCrLf + _
"Erasers $2.19" + vbCrLf + _
"Ink jet printer $69.95" + vbCrLf + vbCrLf + _
"Total Expenses $ 81.58" + vbCrLf
' Get current culture's NumberFormatInfo object.
Dim nfi As NumberFormatInfo = CultureInfo.CurrentCulture.NumberFormat
' Assign needed property values to variables.
Dim currencySymbol As String = nfi.CurrencySymbol
Dim symbolPrecedesIfPositive As Boolean = CBool(nfi.CurrencyPositivePattern Mod 2 = 0)
Dim groupSeparator As String = nfi.CurrencyGroupSeparator
Dim decimalSeparator As String = nfi.CurrencyDecimalSeparator
' Form regular expression pattern.
Dim pattern As String = Regex.Escape(CStr(IIf(symbolPrecedesIfPositive, currencySymbol, ""))) + _
"\s*[-+]?" + "([0-9]{0,3}(" + groupSeparator + "[0-9]{3})*(" + _
Regex.Escape(decimalSeparator) + "[0-9]+)?)" + _
CStr(IIf(Not symbolPrecedesIfPositive, currencySymbol, ""))
Console.WriteLine("The regular expression pattern is: ")
Console.WriteLine(" " + pattern)
' Get text that matches regular expression pattern.
Dim matches As MatchCollection = Regex.Matches(input, pattern, RegexOptions.IgnorePatternWhitespace)
Console.WriteLine("Found {0} matches. ", matches.Count)
' Get numeric string, convert it to a value, and add it to List object.
Dim expenses As New List(Of Decimal)
For Each match As Match In matches
expenses.Add(Decimal.Parse(match.Groups.Item(1).Value))
Next
' Determine whether total is present and if present, whether it is correct.
Dim total As Decimal
For Each value As Decimal In expenses
total += value
Next
If total / 2 = expenses(expenses.Count - 1) Then
Console.WriteLine("The expenses total {0:C2}.", expenses(expenses.Count - 1))
Else
Console.WriteLine("The expenses total {0:C2}.", total)
End If
End Sub
End Module
' The example displays the following output:
' The regular expression pattern is:
' \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*\.?[0-9]+)
' Found 6 matches.
' The expenses total $81.58.
using System;
using System.Collections.Generic;
using System.Globalization;
using System.Text.RegularExpressions;
public class Example
{
public static void Main()
{
// Define text to be parsed.
string input = "Office expenses on 2/13/2008:\n" +
"Paper (500 sheets) $3.95\n" +
"Pencils (box of 10) $1.00\n" +
"Pens (box of 10) $4.49\n" +
"Erasers $2.19\n" +
"Ink jet printer $69.95\n\n" +
"Total Expenses $ 81.58\n";
// Get current culture's NumberFormatInfo object.
NumberFormatInfo nfi = CultureInfo.CurrentCulture.NumberFormat;
// Assign needed property values to variables.
string currencySymbol = nfi.CurrencySymbol;
bool symbolPrecedesIfPositive = nfi.CurrencyPositivePattern % 2 == 0;
string groupSeparator = nfi.CurrencyGroupSeparator;
string decimalSeparator = nfi.CurrencyDecimalSeparator;
// Form regular expression pattern.
string pattern = Regex.Escape( symbolPrecedesIfPositive ? currencySymbol : "") +
@"\s*[-+]?" + "([0-9]{0,3}(" + groupSeparator + "[0-9]{3})*(" +
Regex.Escape(decimalSeparator) + "[0-9]+)?)" +
(! symbolPrecedesIfPositive ? currencySymbol : "");
Console.WriteLine( "The regular expression pattern is:");
Console.WriteLine(" " + pattern);
// Get text that matches regular expression pattern.
MatchCollection matches = Regex.Matches(input, pattern,
RegexOptions.IgnorePatternWhitespace);
Console.WriteLine("Found {0} matches.", matches.Count);
// Get numeric string, convert it to a value, and add it to List object.
List<decimal> expenses = new List<Decimal>();
foreach (Match match in matches)
expenses.Add(Decimal.Parse(match.Groups[1].Value));
// Determine whether total is present and if present, whether it is correct.
decimal total = 0;
foreach (decimal value in expenses)
total += value;
if (total / 2 == expenses[expenses.Count - 1])
Console.WriteLine("The expenses total {0:C2}.", expenses[expenses.Count - 1]);
else
Console.WriteLine("The expenses total {0:C2}.", total);
}
}
// The example displays the following output:
// The regular expression pattern is:
// \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*\.?[0-9]+)
// Found 6 matches.
// The expenses total $81.58.
在目前文化特性是英文 - 美國 (en-US) 的電腦上,這個範例會動態建置規則運算式 \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?)。 這個規則運算式模式 可以解讀如下:
\$ |
在輸入字串中尋找一個出現的美元符號 ($)。 規則運算式模式字串包含反斜線,表示要將美元符號解譯為常值,而不是規則運算式錨點 (只有 $ 符號即表示規則運算式引擎應該嘗試在字串結尾開始比對)。為了確保不會將目前文化特性的貨幣符號誤解為規則運算式符號,這個範例會呼叫 Escape 方法來逸出字元。 |
\s* |
尋找零個以上出現的空白字元。 |
[-+]? |
尋找零個或一個出現的正號或負號。 |
([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?) |
這個運算式周圍的外括號表示這是擷取型群組或子運算式。 如果找到符合項目,則可以從 Match.Groups 屬性傳回之 GroupCollection 物件中的第二個 Group 物件擷取這部分相符字串的相關資訊 (集合中的第一個項目表示整個符合項目)。 |
[0-9]{0,3} |
尋找零個至三個出現的十進位數字 0 到 9。 |
(,[0-9]{3})* |
尋找零個以上出現的下列模式:群組分隔符號加三個十進位數字。 |
\. |
尋找一個出現的小數分隔符號。 |
[0-9]+ |
尋找一個或多個十進位數字。 |
(\.[0-9]+)? |
尋找零個或一個出現的下列模式:小數分隔符號加至少一個十進位數字。 |
如果在輸入字串中發現上述任何一個子模式,則表示比對成功,而包含比對相關資訊的 Match 物件會加入至 MatchCollection 物件。
相關主題
標題 |
說明 |
---|---|
提供一組可以用來定義規則運算式的字元、運算子以及建構的資訊。 |
|
針對最佳化規則運算式效能及建立穩固、可靠的規則運算式模式提供建議。 |
|
提供資訊和程式碼範例,說明如何使用規則運算式類別。 |
|
提供有關 .NET Framework 規則運算式的功能和行為的詳細資訊。 |
|
提供程式碼範例,說明規則運算式的一般用法。 |