CodeZine(コードジン)

特集ページ一覧

Windows10の無償デスクトップ自動化ツール「Power Automate Desktop」でPDFからのデータ抽出を自動化する

Power Automate Desktopチュートリアル 第11回

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2022/07/26 11:00

 Power Automate Desktopは、自動化可能な作業の流れ(フロー)をデザインし、実行するためのソフトウェアです。第9回と第10回では、データベースにアクセスするフローのためのアクションを紹介しました。第11回は、PDF関連アクションを紹介します。

目次

対象読者

  • Excel/PowerPointなど、一般的なツールの操作を理解している人
  • RPAツールを用いて業務を自動化したい人

PDFアクション

 PDF(Portable Document Format)とは、Adobe社が開発したページ記述言語PostScriptをベースにしたドキュメント形式のこと。環境やプリンターによらずに保存・転送・閲覧・印刷が可能であり、電子ドキュメントにおける事実上の標準のファイル形式として広く使用されています。ファイルの中に、テキストデータと描画命令、画像などのコードが圧縮されて格納されています。

 Power Automate for Desktopでも、これらのファイルを扱うアクションが用意されています。

  • PDFからテキストを抽出
  • PDFから画像を抽出
  • PDFからテーブルを抽出
  • 新しい PDFファイルへのPDFファイルページの抽出
  • PDFファイルを統合

 本稿では、既存のPDFからデータを抽出するフローを作成します。そのために、事前にPDFを用意します。スキャンなどで作成されたPDFでは正常にデータ抽出ができませんのでご注意ください。

 ドキュメントフォルダに[PDFフォルダ]というフォルダを作成して、Wikipediaの「ネコ」のページの左側から[PDF 形式でダウンロード]リンク先のページでPDFフォルダにPDFをダウンロードします。

 「ネコ - Wikipedia

図:データ抽出元のPDF
図:データ抽出元のPDF

  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:Power Automate Desktopチュートリアル

もっと読む

著者プロフィール

  • WINGSプロジェクト 飯島 聡(WINGSプロジェクト イイジマ サトシ)

    <WINGSプロジェクトについて> 有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂...

  • 山田 祥寛(ヤマダ ヨシヒロ)

    静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for ASP/ASP.NET。執筆コミュニティ「WINGSプロジェクト」代表。 主な著書に「入門シリーズ(サーバサイドAjax/XM...

あなたにオススメ

All contents copyright © 2005-2022 Shoeisha Co., Ltd. All rights reserved. ver.1.5