PDFからテキストを抽出 アクションは、対象のPDFファイルからテキストデータを取得するアクションです。
PDF内の表形式のデータをデータテーブル形式で取得したい場合は、「PDFからテーブルを抽出する」アクション、画像のデータを取得したい場合は「PDFから画像を抽出」アクションを使用しましょう。
PDFにテキストがデータとして保存されている必要があるため、ExcelやWordをPDFファイルとして出力した場合は使用できますが、紙の書類等をスキャンしてPDFファイル化した場合は使用できない点に注意しましょう。
PDFファイル内のテキストデータを抽出するため、OCRと異なり、確実にPDF内のデータを取得できる点は非常に便利なアクションとなります。
もし、紙の書類等をスキャンしたPDFファイルのデータを取得したい場合は、「OCRを使ってテキストを抽出」アクションを使用して読み取るか、有償のOCRサービスを使用しましょう。
アクションの使い方
追加方法
アクションの「PDF」グループより、「PDF からテキストを抽出」アクションを選択し、ドラッグアンドドロップ もしくは ダブルクリックすることでフローに追加できます。
パラメータ
アクションを追加した際に、パラメータを設定します。
各パラメータと詳細について以下で説明します。
PDF ファイル
テキストを取得したいPDFファイルのパスを設定します。
ファイルパスは直接入力、ファイルの選択、変数から選択できます。
抽出するページ
テキストを取得する対象のページを設定します。
- すべて
対象とするPDFファイルの全ページからテキストデータを抽出します。
- 単一
指定した1ページからテキストデータを抽出します。
抽出するページを「単一」に設定すると、"単一ページ番号"の項目が表示され、直接入力もしくは変数にて抽出する対象のページを設定できます。
- 範囲
指定した複数のページからテキストデータを抽出します。
抽出するページを「範囲」に設定すると、"開始ページ番号"と"終了ページ番号"の項目が表示され、直接入力もしくは変数にて抽出する対象のページを設定できます。
詳細
パスワード
PDFファイルにパスワードが設定されている場合は、本項目で対象とするPDFファイルのパスワードを設定することで処理を行うことができます。
パスワードはダイレクトパスワードと変数から選択できます。
ダイレクトパスワードとした場合は上記の様に黒塗りとなり、暗号化されます。
暗号化された値は、フローを共有した際に使用できない点に注意しましょう。
構造化データに最適化
データを抽出する際、元となるPDFファイル内の構造に倣った形で取得するかを選択できます。
以下、オンとした場合とオフとした場合の違いとなります。
オンとした場合、表形式のデータに倣い、スペースなどが追加されています。
構造化データに最適化をオンとして取得した値をただExcelファイルに転記しただけでは1行にデータが転記されるだけですが、テキストファイルウィザードを使用し、
正しい区切り位置を指定することで元のファイル形式を再現することができます。
区切り位置指定後は以下。
元のPDFファイルの構造が再現されています。
生成された変数
アクション実行時に設定した名前の変数が生成されます。
デフォルトの名前
%ExtractedPDFText%
取得結果イメージ
データ型
テキスト型
変数の用途
対象とするPDFファイルの指定の範囲からテキストデータを取得し格納されます。
基本的にはデフォルトの名前のまま使用して問題ないですが、複数の情報をフローで取得する場合は判別がし辛くなるので、分かりやすい名前を付けておきましょう。
発生する可能性があるエラー
ファイルが存在しません
PDFファイルに指定したファイルが存在しない場合に発生するエラーです。
設定したファイルパスやファイル名に誤りがないか、指定したファイルが存在するかを確認してみましょう。
無効なパスワード
PDFファイルのパスワードが解除できない場合に発生するエラーです。
パスワードの項目に設定している値が正しいか確認してみましょう。
引数は整数値である必要があります
ページ番号に設定した値が整数値でない場合に発生するエラーです。
ページ番号に平仮名やアルファベットといった文字が入力されていないか確認してみましょう。
Power Automate for desktop アクション一覧
Power Automate for desktopのアクション一覧と使い方を以下でまとめています。
是非参考としてみて下さい。
Power Automate for desktop アクション一覧・使用方法
Power Automate for desktopのアクションをグループごとにまとめています。 目次から目的のアクショングループを選択して参照ください。 各アクションの使用方法については、アクション ...
続きを見る