肯定先読み・肯定戻り読み
山岸賢治 [著] 2008/09/03 14:00

ソースコード 2.07 KB
1 2 3 4 →

はじめに

 筆者が運営するサイト『正規表現パズル』で扱っている、正規表現の問題とその答えを、EmEditorの正規表現を使って解説していきます。EmEditorの正規表現の文法は、『EmEditor 使い方: 正規表現構文』を参照してください(Perl準拠です)。

対象読者

 『詳説 正規表現 第3版』を教科書として、本稿は問題集という位置づけとなりますので、『詳説 正規表現 第3版』を一読された方。

必要な環境

 EmEditor Professional Version 6.00.4で動作確認しました。その他、プログラム言語やSQLやテキストエディタなどでも応用できます。

1. 複数の指定文字列を含む行の検索

 まずは、複数の指定文字列を含む行を検索する正規表現についてです。

検索条件
文字列abを含んで、かつ、
文字列bcを含んで、かつ、
文字列cdを含む行を検索する。

 対象データと期待する検索結果は、下記となります(黄緑色が検索にヒットした部分です)。

対象データと期待する検索結果
対象データと期待する検索結果

 単純に個々の条件を組み合わせると、3の階乗である3*2=6通りの順列に対応する正規表現をつないだ、次のようなパターンが考えられます。

(エディタには1行で入力してください)
^.*ab.*bc.*cd.*$|
^.*ab.*cd.*bc.*$|
^.*bc.*ab.*cd.*$|
^.*bc.*cd.*ab.*$|
^.*cd.*ab.*bc.*$|
^.*cd.*bc.*ab.*$

 しかし、このパターンは5行目にはマッチしますが、1行目と7行目にマッチしないので、間違いです。文字列abと文字列bcに、bという共通文字があるのが、この問題のポイントです。

 答えは、肯定先読みを使用して下記となります。

答え
^(?=.*ab)(?=.*bc)(?=.*cd).*$

 肯定先読みは、指定したパターンが先に存在する位置にマッチします。たとえば、(?=yz)は次にyzがある位置にマッチしますので、検索対象が

xyz

 であれば、文字xと文字yの間の位置にマッチします。

 ^(?=.*ab)(?=.*bc)(?=.*cd).*$のように、肯定先読みを連続して使っている場合は、行頭にマッチして、その後.*abがある位置にマッチして、その後.*bcがある位置にマッチして、その後.*cdがある位置にマッチして、その後.*$にマッチすると考えてもいいですが、行頭、かつ.*abがある、かつ.*bcがある、かつ.*cdがある位置からの.*$にマッチすると考えた方が分かりやすいでしょう。言いかえると、肯定先読みを連続して使うとそれらの論理積が真となる位置にマッチするということです。

 正規表現のイメージは、下記となります。

正規表現のイメージ
正規表現のイメージ

プロフィール
山岸賢治 ヤマギシケンジ

Oracle ACEの1人。
OracleSQLパズルの運営者。
ORACLE MASTER Silver Oracle Database 10g
(研修受講で)ORACLE MASTER Gold Oracle Database 10g
ソフトウェア開発技術者 (情報処理技術者試験)
第二種情報処理技術者 (情報処理技術者試験)
 


注目の求人情報
技術営業・マーケティング/外資系ITサービス企業
■営業、プリセールス、デリバリーコンサルタント ERPシステムやITシステムの営業~プリセールス~デ...
システムエンジニア/商社系SIベンダー
・Windows、UNIXでの情報系システムの開発・・保守 ・お客様との打ち合わせを通じて要件定義、設計、実...
システムエンジニア/社名非公開
・キヤノン電子と協業でCRM領域(コールセンターシステム、営業支援システム、ECサイト構築等)の増強を...

(最新日付順)
名前(ゲストの方もコメントをどうぞ):*
アイコン:
なし

内容(テキストのみ1200文字まで):*

投稿規定に同意して

スポンサーサイト

この記事のトラックバックURL: