肯定先読み・肯定戻り読み
山岸賢治 [著] 2008/09/03 14:00

ソースコード 2.07 KB
1 2 3 4 →

はじめに

 筆者が運営するサイト『正規表現パズル』で扱っている、正規表現の問題とその答えを、EmEditorの正規表現を使って解説していきます。EmEditorの正規表現の文法は、『EmEditor 使い方: 正規表現構文』を参照してください(Perl準拠です)。

対象読者

 『詳説 正規表現 第3版』を教科書として、本稿は問題集という位置づけとなりますので、『詳説 正規表現 第3版』を一読された方。

必要な環境

 EmEditor Professional Version 6.00.4で動作確認しました。その他、プログラム言語やSQLやテキストエディタなどでも応用できます。

1. 複数の指定文字列を含む行の検索

 まずは、複数の指定文字列を含む行を検索する正規表現についてです。

検索条件
文字列abを含んで、かつ、
文字列bcを含んで、かつ、
文字列cdを含む行を検索する。

 対象データと期待する検索結果は、下記となります(黄緑色が検索にヒットした部分です)。

対象データと期待する検索結果
対象データと期待する検索結果

 単純に個々の条件を組み合わせると、3の階乗である3*2=6通りの順列に対応する正規表現をつないだ、次のようなパターンが考えられます。

(エディタには1行で入力してください)
^.*ab.*bc.*cd.*$|
^.*ab.*cd.*bc.*$|
^.*bc.*ab.*cd.*$|
^.*bc.*cd.*ab.*$|
^.*cd.*ab.*bc.*$|
^.*cd.*bc.*ab.*$

 しかし、このパターンは5行目にはマッチしますが、1行目と7行目にマッチしないので、間違いです。文字列abと文字列bcに、bという共通文字があるのが、この問題のポイントです。

 答えは、肯定先読みを使用して下記となります。

答え
^(?=.*ab)(?=.*bc)(?=.*cd).*$

 肯定先読みは、指定したパターンが先に存在する位置にマッチします。たとえば、(?=yz)は次にyzがある位置にマッチしますので、検索対象が

xyz

 であれば、文字xと文字yの間の位置にマッチします。

 ^(?=.*ab)(?=.*bc)(?=.*cd).*$のように、肯定先読みを連続して使っている場合は、行頭にマッチして、その後.*abがある位置にマッチして、その後.*bcがある位置にマッチして、その後.*cdがある位置にマッチして、その後.*$にマッチすると考えてもいいですが、行頭、かつ.*abがある、かつ.*bcがある、かつ.*cdがある位置からの.*$にマッチすると考えた方が分かりやすいでしょう。言いかえると、肯定先読みを連続して使うとそれらの論理積が真となる位置にマッチするということです。

 正規表現のイメージは、下記となります。

正規表現のイメージ
正規表現のイメージ

プロフィール
山岸賢治 ヤマギシケンジ

Oracle ACEの1人。
OracleSQLパズルの運営者。
ORACLE MASTER Silver Oracle Database 10g
(研修受講で)ORACLE MASTER Gold Oracle Database 10g
ソフトウェア開発技術者 (情報処理技術者試験)
第二種情報処理技術者 (情報処理技術者試験)
 


注目の求人情報
システムエンジニア/株式会社日比谷情報システム
・システムの要件定義・基本設計・詳細設計・工程管理 ・Javaを使ったWeb/オープン系システムのプログ...
コンサルタント/国内大手ベンダー
会計系システムの導入コンサルティング。具体的には、 ①グループ経営管理/予算管理/管理会計/財務会計...
コンサルタント/日系コンサルティングファーム
経営改革・企業変革のコンサルティングサービスの提供

(最新日付順)
名前(ゲストの方もコメントをどうぞ):*
アイコン:
なし

内容(テキストのみ1200文字まで):*

投稿規定に同意して

スポンサーサイト

この記事のトラックバックURL: