Administracja systemu

Wstęp

3779
733
Juliusz Janicki

Uczenie się i zrozumienie wyrażeń regularnych może nie być tak proste jak nauka polecenia LS. Jednak uczenie się wyrażeń regularnych i skuteczne wdrażanie ich w codziennej pracy bez wątpienia nagrodzi twoje wysiłki naukowe poprzez większą wydajność pracy i oszczędności czasu. Wyrażenia regularne to temat, który może łatwo wypełnić całą 1000 stron długości. W tym artykule staramy się wyjaśnić podstawy wyrażeń regularnych w zwięzły, nie-geekowy i przykładowy sposób. Dlatego jeśli kiedykolwiek chciałeś nauczyć się podstawowych podstaw ekspresji.

Intencją tego samouczka polega na pokryciu podstawowego rdzenia podstawowych wyrażeń regularnych i rozszerzonych wyrażeń regularnych. W tym celu użyjemy jednego narzędzia, a to będzie polecenie GNU GREP. System operacyjny GNU/Linux i jego polecenie GREP rozpoznają trzy różne typy wyrażeń regularnych:

Podstawowe wyrażenia regularne (BRE)
Rozszerzone wyrażenia regularne (ERE)
Wyrażenia regularne Perl (PRCE)

Różnica między podstawowymi wyrażeniami regularnymi a rozszerzonymi wyrażeniami regularnymi dobrze wyjaśniono chwilowo.

Co to jest wyrażenie regularne

Wyrażenie regularne zapewnia możliwość dopasowania „ciąg tekstu” w bardzo elastyczny i zwięzły sposób. Gdzie „ciąg tekstu” można dalej zdefiniować jako pojedynczy znak, słowo, zdanie lub określony wzór znaków. Dobrze znane skróty „Wyrażenie regularne” obejmują Regex i RegexP.

Prosty przykład wyrażenia regularnego

Najprostszym elementem konstrukcyjnym dowolnego wyrażenia regularnego jest znak. Możemy użyć GREP do wyszukiwania dowolnego konkretnego znaku z tekstu dowolnego podanego pliku nie-binarnego. Na przykład tutaj jest treść naszego Regex.Plik próbki TXT:

$ cat Regex.TXT GREP oznacza: globalny wydruk wyrażenia regularnego

Teraz możemy użyć GREP do wyszukiwania dowolnej postaci, zapewniając jej wyrażenie regularne. Użyjmy GREP do wyszukiwania postaci „E”:

$ grep e regex.TXT GREP oznacza: wyrażenie regularne

Jak widać z powyższego przykładu, Grep wydrukował wszystkie linie składające się z co najmniej jednego postaci „E”. Możemy teraz połączyć wiele znaków, aby utworzyć ciąg „RegU” i użyć GREP do wyszukiwania ciągu w tekście:

$ grep regu regex.TXT Regular

Aby uwolnić prawdziwą moc wyrażeń regularnych, musimy utworzyć wyrażenie regularne z znaków niealfabetycznych (meta-znaków) lub z kombinacji znaków alfabetycznych i niealfabetycznych. Na przykład, co jeśli chcesz przeszukać wszystkie wiersze, które zaczynają się od postaci „G”? W tym celu możemy użyć symbolu Caret „^”:

$ grep ^g regex.TXT GREP oznacza: globalny

To był tylko fundamentalny przykład bardziej wyrafinowanego wyrażenia regularnego. W tym artykule wyjaśnimy bardziej techniki wyrażeń regularnych jako powyższe, bardziej szczegółowo.

Powiązanie

Jak widać na naszym poprzednim przykładzie, najprostsze wyrażenie regularne może składać się z indywidualnej postaci. Stąd wyrażenie regularne składające się z pojedynczego niestabilnego znaku będzie pasować do dowolnego ciągu zawierającego ten znak. Charakter wyrażeń regularnych zezwoleń na połączenie wielu innych wyrażeń regularnych. Co oznacza, że zestaw znaków takich jak „Press” będzie pasował do dowolnego ciągu zawierającego podłoże utworzone przez połączenie kilku wyrażeń regularnych „P”, „R”, „E”, „S” i „S”.

$ cat Regex.TXT GREP oznacza: Global Regular Expression Print $ GREP Press Regex.wyrażenie txt

Podstawowe vs rozszerzone wyrażenia regularne

GNU Grep rozumie zarówno podstawowe, jak i rozszerzone wyrażenia regularne. Najważniejszą różnicą jest to, że w podstawowych wyrażeniach regularnych meta-właściciele: ?, +, , |, (i) tracić swoje szczególne znaczenie. Aby dać meta-właściciele specjalne znaczenie, należy je uciekać z postacią. Zastanów się nad następującym przykładem:

Nasz Regex.Plik TXT zawiera teraz następujące:

$ cat Regex.TXT Global | Regularny | Wyrażenie | Drukuj globalny wydruk wyrażenia regularnego

Polecenie GREP przyjmuje podstawowe wyrażenie regularne jako domyślne. Dlatego następujące polecenie Linux wydrukuje wyłącznie pierwszy wiersz tylko biorąc pod uwagę, że zawiera pod substring „N | P”:

$ grep "n | p" Regex.TXT Global | Zwykle | Wyrażenie | Drukuj

„|” Operator zmian ma swoje własne specjalne znaczenie, a to jest logiczne lub. Jednak to szczególne znaczenie zostało stłumione w poprzednim przykładzie, ponieważ GREP domyślnie zagroże. Aby GREP odczytał rozszerzone wyrażenia regularne, musimy użyć opcji -e lub po prostu użyć egrep zamiast GREP.

$ grep -e "n | p".TXT Global | Regularny | Wyrażenie | Wydrukuj globalny wydruk wyrażenia regularnego lub $ egrep "n | p" Regex.TXT Global | Regularny | Wyrażenie | Drukuj globalny wydruk wyrażenia regularnego

W poprzednim przykładzie użyliśmy GREP z rozszerzonym wyrażeniem regularnym, a zatem wyświetla oba linie, które zawierają znak N lub P. Jak wspomniano wcześniej, meta-właściciele straciły swoje szczególne znaczenie, gdy są wyrażone jako podstawowe wyrażenia regularne, chyba że uciekają z postacią „\”. Ponownie wykorzystajmy nasz pierwszy przykład, ale tym razem uciekamy „|” postać:

$ grep "n \ | p".TXT Global | Regularny | Wyrażenie | Drukuj globalny wydruk wyrażenia regularnego

W tym przypadku operator zmian „|” zachowuje swoje szczególne znaczenie i działa jako logiczne lub nawet jeśli nie użyliśmy opcji -e ani egrep.

Powiedzieliśmy również, że podczas korzystania z opcji eGrep lub -e Grep uważa, że jest karmiony przedłużonymi wyrażeniami regularnymi. Z tego powodu, jeśli uciekniesz z metalu w rozszerzonym kontekście wyrażenia regularnego, straci swoje szczególne znaczenie i zachowa się jako dosłowna postać „|”. Jeśli śledzisz tutaj, zauważysz, że jest to znowu dokładne przeciwieństwo podstawowych wyrażeń regularnych.

Przykład:

$ egrep "n \ | p".TXT Global | Zwykle | Wyrażenie | Drukuj

Wyrażenia wspornika

Teraz, że jesteśmy zaznajomieni z podstawami wyrażeń regularnych, możemy zaangażować naszą eksplorację w silniejszą i jeszcze bardziej złożoną naturę wyrażeń regularnych. Pierwszym przystankiem będzie użycie „[” i „]” znanego jako „wyrażenia wspornika”. Historia „wyrażeń oddziału” polega na tym, że każde postacie zamknięte przez „[” i „]” będą pasować do dowolnej pojedynczej postaci na tej liście. Owinąć literę „E” z „[]” i zobaczmy, co się stanie:

$ cat Regex.txt global | regularne | wyrażenie | Drukuj globalny wyrażenie regularne wydruku $ grep [e] xpression Regex.TXT Global | Zwykle | Wyrażenie | Drukuj

Jak widać nic niezwykłego. Nasze obecne wyrażenie regularne jedynie dopasowało słowo kluczowe „wyrażenie” i GREP, a zatem wydrukowano odpowiednią linię. Na tym terenie następujące wyrażenie regularne również zrobi tę samą sztuczkę:

$ grep wyrażenia wyrażenia.TXT Global | Zwykle | Wyrażenie | Drukuj

Moc wyrażenia wspornika pojawia się, gdy chcesz dopasować na przykład pojedynczy znak na liście „[]”. Pokazano to w poniższym przykładzie:

$ grep [ee] Xpression Regex.TXT Global | Regularny | Wyrażenie | Drukuj globalny wydruk wyrażenia regularnego

Czy możesz wymyślić sposób, w jaki sformułować alternatywę wyrażenia regularnego dla powyższego przykładu bez użycia „[]”? Taka technika została już wcześniej pokazana!

Za pomocą wyrażenia wspornika można również wyrażać logiczne nie. W tym celu możemy użyć symbolu Caret „^”. W poniższym przykładzie używamy wyrażenia regularnego, aby wyodrębnić wszystkie linie zawierające dowolne znaki z wykluczeniem postaci „A” i „C”.

$ cat Regex.txt a b c d $ grep [^ac] Regex.txt b d

Zakres ekspresji

Wyrażenie wspornika pozwala również określić zakres wyrażeń. Zakres ekspresji obejmuje minimum dwie postacie oddzielone łącznikiem. Oznacza to, że zamiast [0123456789] możemy po prostu użyć [0-9] lub zamiast [ABC] możemy użyć [a-c]. Ilustruje to w poniższym przykładzie Regex:

$ cat Regex.txt a b c d $ grep [^a-c] Regex.txt d

Zajęcia postaci

Poniżej znajdują się wstępnie zdefiniowane klasy, których możesz użyć w wyrażeniach nawigacyjnych.

[: Alnum:] - Znaki alfanumeryczne	[:alfa:] - Postacie alfabetyczne
[: cntrl:] - Kontroluj postacie.	[:cyfra:] - Cyfry: 0 1 2 3 4 5 6 7 8 9.
[:wykres:] - Znaki graficzne	[:niżej:] - Małe litery
[:wydrukować:] - Znaki do wydruku	[: Putek:] - Postacie interpunkcyjne
[:przestrzeń:] - Postacie kosmiczne	[:górny:] - Wielkie litery
[: xDigit:] - Cyfry szesnastkowe

W poniższym przykładzie wyrażenia regularnego użyjemy [: Lower:] i [: Space:] do drukowania tylko linii, które zawierają litery (-y) lub przestrzeń do niższej liczby:

Cat Regex.tekst
1
2
3
A
B
C
,
<-- space
$ grep [[: dolne:] [: Space:]] Regex.tekst
B
C
<-- space

Zakotwiczenie

Zakotwiczenie jest techniką wyrażenia regularnego, która angażuje symbol Caret ^ i znak dolara $ jako meta-właściciela, aby dopasować pusty ciąg od samego początku, a na końcu linii.

Znajdźmy wszystkie wiersze w pliku /etc /usługi, które zaczynają się od ciągu „ftp”:

$ grep ^ftp/etc/usługi ftp-data 20/tcp ftp 21/tcp ftps-data 989/tcp # ftp przez SSL (dane) ftps 990/tcp

Jako przeciwny przykład możemy użyć zakotwiczenia regularnego, aby znaleźć wszystkie linie kończące się FTP:

$ grep ftp $/etc/usługi ZOPE-FTP 8021/TCP

UWAGA: Nie myl znaczenia Caret z symbolem Careta używanego w wyrażeniu wsporników, ponieważ mają one dość wyraźne znaczenie w odpowiednim kontekście.

Charakter odwrotny i specjalne wyrażenia

Istnieje wiele narzędzi systemowych, w tym GREP, które obsługują „specjalne wyrażenia” znane również jako granice słów. Oto kilka specjalnych symboli wyrażeń obsługiwanych przez GREP i wiele innych narzędzi systemowych:

\< - Dopasuj pusty ciąg na początku słowa
\> - Dopasuj pusty ciąg na końcu słowa
\B - Dopasuj pusty ciąg na początku i na końcu słowa
\B - dopasowanie, z wyjątkiem początku lub na końcu słowa

Zacznijmy \< which will match empty string from the beginning of the word. Here is our tester file:

$ cat Regex.TXT Regularexpressions Regularne wyrażenia regularne

Poniższe wyrażenie regularne będzie pasować do obu wierszy, ponieważ na każdym wierszu jest pusty ciąg, zanim słowo „regularne”:

$ grep "\RegularnyWyrażenia
Regularny Wyrażenia regulowane ekspresji

Następny przykład wyświetli tylko drugi wiersz, biorąc pod uwagę, że używamy \>, aby dopasować pusty ciąg również na końcu słowa:

$ grep „\” Regex.tekst
Regularny Wyrażenia regulowane ekspresji

Znaczenie \ b jest podobne, ale będzie pasować do obu, pustych ciągów od początku i końca słowa:

$ grep "\ bexpressions \ b".tekst
Wyrażenia regularne Wyrażenia

Podczas gdy \ b będzie pasować tylko wtedy, gdy nie na początku lub na końcu słowa:

$ grep "\ bexpressions \ b".tekst
Regularny WyrażeniaWyrażenia regularne

Aby uzyskać kompletność tej sekcji, tutaj są inne specjalne wyrażenia dostępne dla GREP. Należy pamiętać, że następujące symbole są po prostu skrótem wyżej wymienionych klas znaków:

\S - Dopasuj dowolne znaki Whitespace (przestrzeń, zakładka itp.). alias [: Space:]
\S - Dopasuj dowolną postać, ale Whitespace (przestrzeń, karta itp.). alias [^[: Space:]]
\ w - Dopasuj dowolny znak w zakresie 0–9, a - z i a - z pseudonim [: alnum:]
\ W - Dopasuj dowolny znak, ale zakres 0 - 9, a - z i a - z alias [^[: alnum:]]

Oto kilka przykładów klas postaci Skróty:

$ cat Regex.TXT ABCD 1234 "

Karta mecz:

$ grep „\ s” Regex.tekst

Dopasuj wszystko oprócz białej przestrzeni:

$ grep „\ s” Regex.TXT ABCD 1234 "

Dopasuj wszystkie postacie alfanumeryczne:

$ grep „\ w” Regex.TXT ABCD 1234

Dopasuj wszystkie znaki niealfanumeryczne (obejmują białe listy):

$ grep „\ w” Regex.tekst "

Powtórzenie

Po wyrażeniu regularnym może nastąpić jeden lub kilka kwantyfikatorów powtórzeń. Zanim przejdziesz do tej sekcji, spójrz na poniższą tabelę:

? - Poprzedni element jest opcjonalny i co najwyżej dopasowany raz

* - Poprzedni element będzie dopasowany zero lub więcej razy.

+ - Poprzedni element zostanie dopasowany jeden lub więcej razy.

N - Poprzedni element jest dopasowany dokładnie n razy.

N, - Poprzedni element jest dopasowany n lub więcej razy.

n, m - Poprzedni element jest dopasowany co najmniej n razy, ale nie więcej niż m.

Zacznijmy od utworzenia naszego przykładowego wyrażenia regularnego.tekst:

$ cat Regex.wyrażenia wyrażające wyrażanie wyrażania wyrażania ekspresji ekspresji ekspresji

Pierwszy przykład powtórzeń będzie użył „?”:

$ grep -e "expres?jony „Regex.EXPRECJE EXPRESIONS TXT

Jak opisano w powyższej tabeli, użycie „?„Kwantyfikator ma być dopasowany co najwyżej raz, czyli najwyżej raz lub uczynić poprzedni element opcjonalny. Poprzedni element w naszym przypadku jest postać „S”. Dlatego GREP dopasowało tylko struny z brakiem lub pojedynczym znakiem „S”, a następnie smyczkowane „jony”. Następny kwantyfikator, na który przyjrzymy się „*”, który z definicji będzie pasował do poprzedniego elementu zero lub więcej razy.

$ grep -e „expres*jony”.wyrażenia wyrażające wyrażanie wyrażania wyrażania ekspresji ekspresji ekspresji

Jak pokazano powyżej, kwantyfikator „*” będzie pasował do wszystkich ciągów w naszym pliku testowym. Jeśli zastanawiasz się, dlaczego pasowało to również do „EXCREIONS”, pamiętaj, że kwantyfikator „*” czyni poprzedni element opcjonalny, w przeciwieństwie do kwantyfikatora „+”, który musi pasować do poprzedniego elementu przynajmniej raz lub więcej razy:

$ grep -e „expres+jony”.wyrażenia wyrażające wyrażanie wyrażania wyrażania wyrażania ekspresji

Za pomocą kwantyfikatora „n” możesz dokładnie określić, ile razy poprzedni element zostanie dopasowany. Na przykład nasze:

$ grep -e "expres 3 jony".wyrażenia TXT

Polecenie dopasuje ciąg, który zaczyna się od „Expre”, a następnie 3 x „s”, a następnie „jony”. Aby rozciągnąć nasze poprzednie wyrażenie regularne „n,”, możemy określić minimalną wartość tego, ile razy poprzedni element zostanie dopasowany. W rezultacie powtórzenie „3,” pasowało do 3 lub więcej razy:

$ grep -e "expres 3, jony".Wyrażanie wyrażania TXTSSSSSSSSSISSS

Aby jeszcze bardziej rozszerzyć powyższe wyrażenie regularne, możemy określić zakres. Dlatego zastępujemy „3,” na „1,3”, a następujący Regex pasowałby:

$ grep -e "expres 1,3 jony".wyrażenia wyrażenia wyrażania wyrażeń

Ponieważ poprzedni element „S” jest dopasowany co najmniej raz, ale nie więcej niż trzy razy.

Alternacja

Możesz pomyśleć o alternacji Regex jako logicznej lub operacji, w której wyrażenia regularne mogą połączyć jedno lub więcej „|” Operatorzy zmian. W rezultacie to wyrażenie regularne będzie zgodne z dowolnym ciągiem odpowiadającym albo alternatywnego wyrażenia regularnego.

$ cat Regex.TXT GREP oznacza: globalny wyrażenie regularne $ grep -e "^r |^e" Regex.Wyrażenie regularne TXT

Precedens

Podczas tworzenia wyrażeń istnieje inna właściwość regularnych exppreezonów do rozważenia, a to jest pierwszeństwo. Podobne w obliczeniach arytmetycznych, wyrażenia regularne są zgodne z predefiniowanym pierwszeństwo. Najwyższe pierwszeństwo wymaga „powtórzenia”, a następnie „połączenia”, a najniższe pierwszeństwo należy do „naprzemienności”. Rozważ następujący przykład:

$ cat Regex.TXT Regex Regexxx $ grep -e "Regex 3".TXT Regexxx

W wyżej wymienionym wyrażeniu regularnym możemy zobaczyć jednocześnie, „Regex”, jak i powtórzenie „X 3”. Ponieważ powtórzenie ma wyższe pierwszeństwo, powyższe wyrażenie regularne będzie pasować do „Regexxx”, ale nie „Regex”.
Innym przykładem, w którym należy wziąć pod uwagę pierwszeństwo, jest użycie operatora zmian „|” który ma najniższe pierwszeństwo ze wszystkich wyrażeń regularnych. Rozważ następujący przykład:

$ cat Regex.TXT Regularne Wyrażenia Wyrażenia $ grep -e "^regularne | wyrażenia $" Regex.wyrażenia regularne wyrażenia regularne TXT

Ponieważ operator zmian „|” ma najniższe pierwszeństwo Powyższe wyrażenie regularne będzie pasować do dowolnego połączenia wyrażenia. W naszym przypadku będzie to „regularne” z kotwicą „^” i „Wyrażenia” z końcem linii kotwicy „$”. Aby zapewnić dowolny operator regex wyższe pierwszeństwo, musimy użyć „()”. W poniższym przykładzie użyjemy „()”, aby zastąpić pierwszeństwo operatora zmian do wyższego priorytetu, co robi zauważalną różnicę:

$ grep -e "^(regularne | wyrażenia) $" Regex.Wyrażenia regularne TXT

W tym przykładzie operator zmian jest oceniany jako najpierw, ponieważ tworzy prostą podekspresję za pomocą „()”. Dlatego w rezultacie powyższe wyrażenie regularne dopasuje tylko linie, które zawierają „^regularne $” lub „^wyrażenia $”.

Odniesienia do tyłu i podekspresje

Każde podłoże złożone przez „()” utworzy podekspresję, która może być używana jako odniesienie tylne w kolejnej ekspresji regularnej. Ilustruje to następujący przykład:

$ cat Regex.TXT Regularne wyrażenia $ grep -e "(re) gular exp \ 1sssions" Regex.Wyrażenia regularne TXT

Podekspresja połączonego wyrażenia regularnego „RE” jest używana jako odniesienie tylne później podczas tworzenia wyrażenia regularnego za pomocą \ 1 cyfry. Zamówienie zastosowane do utworzenia podekspresji „N” musi być spójne z odniesieniem z tyłu „\ n”:

$ grep -e "(r) (e) gular \ 2xp \ 1 \ 2sSsions".Wyrażenia regularne TXT

Wniosek

Wyrażenia regularne są bardzo potężnym narzędziem w rękach dowolnego administratora systemu, programisty (Bash, Php, C#, Java i wiele innych. W tym artykule próbowano opisać w jakiś prosty, spójny i prosty angielski sposób podstaw regularnych wyrażeń, na których możesz dalej rozwinąć swoje wyrażenia regularne, a tym samym uratować się przed żmudną pracą, którą przetwarzanie tekstu może czasami oferować.

Przykłady wyrażeń regularnych

Przykłady wyrażeń regularnych
Składnia wyrażeń regularnych	Opis wyrażeń regularnych
grep -e '^([0-9] 4 [-]?) 3 [0-9] 4 $ '' Credit-card.tekst	Walidacja karty kredytowej. To wyrażenie regularne będzie pasować do dowolnego numeru karty kredytowej w formacie xxxx-xxxx-xxxx-xxxx lub xxxx xxxx xxxx xxxx.
grep '^[: space:]]*$' Regex.tekst	Używając grepa i wyrażenia regularnego, aby znaleźć puste linie
grep -e '\' regex.tekst	Czasami popełniasz błąd, wpisując te same słowa obok siebie w tym samym zdaniu. Na przykład „grep i wyrażenia regularne”. Ta regex dostrzega tego rodzaju literówkę.
grep -e '^\ $ [0-9]+\.[0-9] [0-9] $ 'Regex.tekst	Walizacja waluty z 2 punktami dziesiętnymi. To wyrażenie regularne potwierdzi walutę za pomocą symbolu $ i będzie pasować do 12 USD.46, ale nie 34 €.54 lub 1 USD.333
df \| grep -e "(([6-9] [0-9]) \| (100))%"	Regex do znalezienia wszystkich partycji w systemie, które wykorzystują ponad 60% miejsca na dysku.
grep -e -o "\ b [a-za-z0-9.-]+@[a-za-z0-9.-]+\.[A-ZA-Z0-9.-]+\ b ”e -maile.tekst	Ta regex pomaga wyodrębnić / znaleźć wszystkie adresy e -mail z dowolnego tekstu.
grep -o '[0-9] \ 1,3 \ \.[0-9] \ 1,3 \ \.[0-9] \ 1,3 \ \.[0-9] \ 1,3 \ ips.tekst	Ten regularność pomaga wyodrębnić / znaleźć wszystkie adresy IP z dowolnego wejścia.
grep -oie '\ b (https?): // [-[: alnum:]+&@#/%?= ~ _ \|!:,.;]*[[: alnum:]+ &@#/%= ~ _ \|] '.HTM	Wyodrębnia adresy URL z pliku HTML

Powiązane samouczki Linux:

Advanced Bash Regex z przykładami
Wprowadzenie do automatyzacji, narzędzi i technik Linuksa
Bash Regexps dla początkujących z przykładami
Mastering Bash Script Loops
Rzeczy do zainstalowania na Ubuntu 20.04
Wyrażenia regularne Pythona z przykładami
Mint 20: Lepsze niż Ubuntu i Microsoft Windows?
Zagnieżdżone pętle w skryptach Bash
Rzeczy do zrobienia po zainstalowaniu Ubuntu 20.04 Focal Fossa Linux
Manipulacja Big Data dla zabawy i zysku Część 3