Shoeisha Technology Media

CodeZine(コードジン)

特集ページ一覧

Elasticsearchへの大量データ登録の効率化

Elasticsearchと対話Botによる対話型の検索システム 第3回

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2017/01/17 14:00

 前回はElasticsearchを起動し、テンプレートを使った文書の登録から、登録した文書を検索するところまで紹介しました。今回は、大量の文書データを高速に登録するための並列処理について紹介します。

目次

対象読者

  • 現場の技術者で、自社や自身のプロジェクトで検索システムを作成する必要がある方
  • 環境差異の少ない検索システムを作成したい方

検証環境

  • 使用言語とバージョン:Elasticsearch 2.3.0、GNU parallel 20160322、Python 3.5.0
  • 対応OS(バージョン):Mac、 Windows、Linux(Vagrantが動作する環境)
  • 開発環境: Vagrant 1.8.5、Ubuntu Trusty 14.04(LTS)、Docker 1.12

高速にデータを登録するための重要性について

 ニュースなどのウェブサービスを運用する場合、日々内容が変わるため毎日大量に文書データを登録する必要が出てきます。その際、シーケンシャルに実行すると登録に時間がかかり、また失敗した際にやり直す時間も膨大にかかってしまいます。そのようなことを避けるため、今回は大量の文書を登録する際の並列処理による高速化について説明します。

並列処理について

 今回はGNU parallelを使用して並列に文書の登録処理を行い高速化を試みます。2016/03/22時点で更新されたものを使用しています。

 GNU parallelを使用する理由は下記になります。

  • Elasticseachの登録処理以外の並列処理にも使用可能
  • 導入および動作が簡単
  • オプション設定により柔軟な並列処理を設定可能

GNU parallelについて

 GNU parallelは並列でJobを1台もしくはそれ以上のコンピューターで実行するためのshellツールです。Jobはシングルコマンドもしくはスクリプトを1行ずつ読み込んで実行します。またインプットをブロックに分けてパイプによって効率よく動作させることも可能です。

図1 GNU parallelのイメージ
図1 GNU parallelのイメージ

  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • WINGSプロジェクト 大串 正矢(オオグシ マサヤ)

    <WINGSプロジェクトについて> 有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂...

  • 山田 祥寛(ヤマダ ヨシヒロ)

    静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for ASP/ASP.NET。執筆コミュニティ「WINGSプロジェクト」代表。 主な著書に「入門シリーズ(サーバサイドAjax/XMLD...

バックナンバー

連載:Elasticsearchと対話Botによる対話型の検索システム
All contents copyright © 2005-2018 Shoeisha Co., Ltd. All rights reserved. ver.1.5