対象読者
- 現場の技術者で、自社や自身のプロジェクトで検索システムを作成する必要がある方
- 環境差異の少ない検索システムを作成したい方
検証環境
- 使用言語とバージョン:Elasticsearch 2.3.0、GNU parallel 20160322、Python 3.5.0
- 対応OS(バージョン):Mac、 Windows、Linux(Vagrantが動作する環境)
- 開発環境: Vagrant 1.8.5、Ubuntu Trusty 14.04(LTS)、Docker 1.12
高速にデータを登録するための重要性について
ニュースなどのウェブサービスを運用する場合、日々内容が変わるため毎日大量に文書データを登録する必要が出てきます。その際、シーケンシャルに実行すると登録に時間がかかり、また失敗した際にやり直す時間も膨大にかかってしまいます。そのようなことを避けるため、今回は大量の文書を登録する際の並列処理による高速化について説明します。
並列処理について
今回はGNU parallelを使用して並列に文書の登録処理を行い高速化を試みます。2016/03/22時点で更新されたものを使用しています。
GNU parallelを使用する理由は下記になります。
- Elasticseachの登録処理以外の並列処理にも使用可能
- 導入および動作が簡単
- オプション設定により柔軟な並列処理を設定可能
GNU parallelについて
GNU parallelは並列でJobを1台もしくはそれ以上のコンピューターで実行するためのshellツールです。Jobはシングルコマンドもしくはスクリプトを1行ずつ読み込んで実行します。またインプットをブロックに分けてパイプによって効率よく動作させることも可能です。