英文に続き、今度は和文から用語集候補をエクセルに抜く為の WildLight 辞書です。
過去に「日本語原稿から簡易的に用語を抜く」という記事をアップしていますが、別のアプローチによる抽出です。以下のWildLight辞書をダウンロードして使用して下さい。WildLight Library に登録されています。
WLDIC_抽出_和文から用語集候補をExcelへ抜く.txt
この辞書の記述は以下の通りです。
[『](*)[』] \1 [「](*)[」] \1 [a-zA-Za-zA-Z0-90-9]{1,}[ァ-ヾ一-鶴]{1,} [ァ-ヾ一-鶴]{1,}[a-zA-Za-zA-Z0-90-9]{1,} [ァ-ヾ一-鶴]{1,} ExtractH2Excel
- 1行目と2行目は、「」と『』で囲まれた文字列を括弧なし文字に置換して蛍光ペン付けをしています。これらの括弧に囲まれた文字列には定訳を持つ用語が含まれている可能性が高い為、抽出対象にします。
この2行だけは括弧を抽出文字から消したい為に、括弧なし文字に置換しています。従って、この辞書を適用すると原稿が加工されてしまいますので上書き保存しないように注意して下さい。 - 3行目は英数字の文字列に続いて、カタカナ・漢字の文字列で構成される文字列に蛍光ペン付けしています。
例)「GTP結合タンパク質」とか「ROHS指令物質不使用証明書」といった用語が検索対象になります。 - 4行目は、カタカナ・漢字の文字列に続いて、英数字の文字列で構成される文字列に蛍光ペン付けしています。
例)「コプラナーPCB」とか「イムノグロブリンE」といった用語が検索対象となります。 - 5行目は、カタカナと漢字の文字列に蛍光ペン付けしています。
例)「高性能液体クロマトグラフィー」とか「プロジェクト管理」といった用語が検索対象になります。 - 6行目は、蛍光ペンをエクセルへ抽出する特殊コマンドです。
前述の過去記事による用語候補抽出は、5行目の「カタカナと漢字」の文字列だけでしたが、英数字が前後に付くケースも多く見られる事から、3~4行目を追加しました。
英文の抽出と同様、この辞書の適用により抽出された用語も、人間の目で選別を行う必要があります。