昨日、2月28日(土)はサン・フレアアカデミーのオープンスクールでした。
クラスの中でWildLightの使い方に関する質問がありました。これは他の皆さんも利用できる情報ですので、ここにシェアしておきます。
1. 蛍光ペンのついた文字列をワードやエクセルへ抜き出せるか?
WildLight特殊コマンドの「ExtractH2Word」もしくは「ExtractH2Excel」を使います。
例)
ExtractH2Excel
いずれかのコマンドを1行記述した辞書ファイルを準備し、蛍光ペンされたテキストを抜き出したいワード文書へ適用すれば、抜き出せます。
この例を記述した辞書を「WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。
2. PDFファイルからワードにしたものを整形するには、どうしたらいいか?
この質問については明確な回答ができませんでした。PDFからワードファイルを起こした場合、使用したアプリケーションや原稿PDFの中身によって、出る症状が違うからです。
- 私の経験した症状として、以下のようなものがあります。
- 全角文字間に全半角スペースが紛れ込んでいる。
- 全半角数字の後ろに複数の半角スペースが入っている。
- 半角英数字間のスペースに全角スペースが入っている。
- 文頭に不要なスペースが入っている。
これらへの対処として、以下のような処理を行っています。
' 全角英文字カタカナ漢字の間に挟まった全半角スペースを除去する ([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])[ ]{1,}([a-zA-Zァ-ヾ一-鶴ぁ-ゞ]) \1\2
' 全半角数字の後のスペースを半角スペース1つにする ([0-90-9])[ ]{2,} \1
' 半角英数字間のスペースを半角スペース1つにする ([\!-~])[ ]{1,}([\!-~]) \1 \2
' 文頭の不要なスペースを削除する ^13[ ]{1,} ^p
上記4例とも、[ ]の中は全角スペース1つと半角スペース1つが入っています。
また、セパレーターはTABです。
これらが記述された辞書は、「WLDIC_編集_日本語:PDF抽出文書の成形.txt」として提供しています。
3. エクセルやパワーポイントファイルからテキスト抽出するには、どうしたらいいか?
Microsoft Office Personal以外(Excel, PowerPointが入っているもの)をお使いの方は、WildLight Users Group でのみ配布されている Full バージョンを使えば、エクセルやパワーポイントからテキスト抽出する機能を利用できます。
4. 全角文字の間にまぎれた半角スペースを除去する方法は?
全角文字の間に半角スペースが入っているケースは、PDFファイルからワードへ変換した時に良く見かけるので、質問2への対処の1つとしても有効だと思います。
全角文字をワイルドカードで表現すると以下のようになります。
、-鶴
そして、全角文字に挟まれる半角スペースを検出して削除するには、辞書に次のように記述します。
([、-鶴])[ ]([、-鶴]) \1\2
[ ]の間には半角スペースを入れます。
([、-鶴]) ([、-鶴])と\1\2の間はセパレーターのTABです。
この辞書を「WLDIC_変換_全角文字間の半角スペースを除去.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。
“SFAオープンスクールの質問から” への 2 件のフィードバック