翔泳社新刊紹介（AD）

シェル芸に効果的なAWK、最も得意な文字列処理のテクニック～『「シェル芸」に効く！AWK処方箋』より

2017/02/10 07:00

ポスト

　シェル芸で文字列を自在に扱うのに最適なプログラミング言語、AWK。その魅力とテクニックがたっぷり披露された解説書『「シェル芸」に効く！AWK処方箋』から、「第4章 AWKで一番の得意ワザ！シェルで文字列を自在に扱うための文字列関数」を紹介します。

ポスト

本書は連載「「シェル芸」に効く AWK処方箋」を単行本化したもので、本記事はその連載の第4回を加筆修正したものです。

第4章　AWKで一番の得意ワザ！シェルで文字列を自在に扱うための文字列関数

　AWKの最も得意とするものは文字列処理だと言われています。従来、Unix上で文字列を処理する一般的な方法は、sedコマンドをはじめ、非常に特化した文法を有するプログラムで処理することでした。しかし、AWKの登場により汎用的でC言語ライクな、人が理解しやすい記述を行えるようになり、文字列処理の生産性が向上しました。ここではその文字列処理について説明します。また、AWKの生みの親の一人であるBrian Kernighan大先生からも提案された、ある変更についてもお知らせします。

4.1 文字列の抜き出し

　データ処理の基本は「データを加工・集計してまとめる」こと、つまり「元のデータから必要な部分を抜き出して加工する」ことです。フィールド単位で抜き出す方法は前章で説明しました。本章はフィールド単位ではなく、「○文字目から○文字を抜き出す」といった処理から説明します。

　この「○文字目から○文字を抜き出す」処理を行うには、substr()関数を使います。では、2文字目から後の文字列を取得してみましょう。

$ echo 'abcde' | awk '{print substr($0, 2)}'
bcde

　このようにsubstr()関数は、最初の引数に対象文字列、2番目の引数に、2文字目からであれば2を与えることで、必要な文字列を抜き出すことができます。

　この短縮形として以下のようにも書けます。「シェル芸」で使うとキーの打数が少なくなり効率的です。

$ echo 'abcde' | awk '$0 = substr($0, 2)'
bcde

　substr()関数には3番目の引数を与えることもできます。この3番目の引数を指定すると、指定した文字数分だけの文字列を取り出すことができます。では、2文字目から3文字を取得してみましょう。

$ echo 'abcde' | awk '{print substr($0, 2, 3)}'
bcd

　他の言語にもsubstr()関数や、それに似た関数があります。ただ、多くの言語は0から数え始める「ゼロオリジン」です。一方、AWKは1から数え始める「1オリジン」であるため、人間の思考に近いイメージで引数を与えることができます。これはレコードやフィールドについても同じですし、AWKに関する全てのインデックスは1から開始されます。もっとも、逆に分かりにくいという方も多いようです。

　よく使われる方法として、「対象文字列の中にある特定の文字列から任意の文字列を取り出す」または「ある文字列までの任意の文字列を取り出す」というものがあります。このような場合には、index()関数を併せて用いると効果的です。

$ echo 'abcde' | awk '{print substr($0, index($0, "b"))}'
bcde

　この例では文字列bから最後までを抜き出すのに、substr()関数とindex()関数の両方を用いています。

　index()関数は最初の引数に対象となる文字列、2番目の引数に検索したい文字列を指定すると、検索したい文字列の先頭位置を返します。検索文字列が存在しない場合には0を返します。

　このsubstr()関数とindex()関数の組み合わせは、文字列の抜き出しの中でも特に多く用いられるテクニックなので、覚えておくと便利です。

4.2 文字列の検索

　文字列検索や正規表現検索を行うスクリプトはすでに紹介しましたね。

……

　※この続きはCodeZine掲載時の本稿、あるいは加筆修正された本書をご覧ください。

Amazon　Kindle　その他

「シェル芸」に効く！AWK処方箋

著者：斉藤博文
発売日：2017年1月31日（火）
価格（POD）：2,160円（税込）
価格（電子書籍）：1,728円（税込）

本書について

コマンドであり軽量言語（LL）の元祖でもあって、シェルでのテキストデータ処理には便利で手放せない「AWK」の魅力と書き方、シェルコマンドと組み合わせたテクニック（シェル芸）を解説！

※プリントオンデマンド（POD）と電子書籍での刊行です。

この記事は参考になりましたか？

連載通知を行うには会員登録(無料)が必要です。
既に会員の方はを行ってください。

印刷用を表示

ポスト

翔泳社新刊紹介連載記事一覧: 働きやすさを取り戻すためのセルフマネジメントを解説『エンジニアのための自己管理入門』発売

Rustを独学するならこの1冊！基礎も複雑な仕様も体系的に解説する入門書『独習Rust』

受託開発のトラブル、どうやって避ける!? 42の事例に学ぶ『ソフトウェア受託現場の「失敗」...

もっと読む

この記事の著者: 渡部拓也（ワタナベタクヤ）

翔泳社所属。翔泳社から刊行した本の紹介記事などを執筆しています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

【AD】本記事の内容は記事掲載開始時点のものです　企画・制作　株式会社翔泳社

この記事は参考になりましたか？

この記事をシェア

ポスト

シェル芸に効果的なAWK、最も得意な文字列処理のテクニック～『「シェル芸」に効く！AWK処方箋』より

4.1 文字列の抜き出し

4.2 文字列の検索

「シェル芸」に効く！AWK処方箋

本書について

おすすめ

アクセスランキング

アクセスランキング

イベント

アクセスランキング

アクセスランキング