上付/下付の指定忘れをチェックする

多項式や化学式を記述するのに、上付や下付を多用しますが、その指定を忘れてしまったものを検出する WildLight 辞書の紹介です。

このチェック辞書を作る上で使用する特殊コマンドは「Superscript」と「Subscript」です。
(Users Groupで、この機能実装のアイデアは Kanbayashi さん、以下のチェック方法のアイデアは Yamauchi さんに頂きました。ありがとうございました)

上付も下付も、チェックの手法は同じですので、ここでは下付(Subscript)を例に説明致します。

H2O の2や、CO2の2を下付指定し忘れたものを検出してみましょう。

【考え方】

  • 下付指定されていないもの を検出して蛍光ペン付けする。
  • 「下付でない= Subscript:OFF」を指定して「H2O」「CO2」を検索する。
  • 正しく 2 が下付指定されているものは、この検索には引っ掛からない。

【辞書の記述方法】

Subscript:OFF
H2O
CO2
Subscript:CLEAR

1行目は、「下付は検索しないで」という指定です。
2行目から3行目は検索する化学式。ここに検索したい化学式をどんどん追加すれば良い訳です。
4行目で、「下付の検索条件を解除」

これを実際に実行した画像がこれです。(画像をクリックして拡大してご覧ください)

WL_SubscriptCheck

2を下付指定し忘れた H2O に蛍光ペンが付くのが分かると思います。

この辞書は、WildLight Library に「WLDIC_化学式チェック.txt」で登録されていますので、ダウンロードして、ご自身の使用目的に修正してご活用下さい。

 

広告

WildLight Ver. 1.11 (Bugfix版)をリリース

度々のバージョンアップ、申し訳ありません。

このバージョンは、以下の2点のバグ対処版です。

  1. 特殊コマンドのExtractH2ExcelとExtractH2Wordによる蛍光ペン部のテキスト抜き機能が正常に動作しておらず、取りこぼしが発生します。
  2. WildLightをアップデートすると、稀にメニューにWildLightがふたつ現れる場合がある。

上記問題1については原因が特定できた為、バグ修正を行いました。問題2については原因が特定できておりませんが、対処策を盛り込みました

本日公開しています「英文から用語候補を抜く」「和文から用語候補を抜く」辞書を利用される方は、このバージョンへのアップデートをお願い致します。

なお、最新版は「ダウンロード/インストール」のタブから、WildLight共有フォルダーへ行き、入手して下さい。

★ WildLight のメニューが2つ出る場合の暫定対処方法

  • 表示されているふたつのWildLightのメニュー上で右クリックし、「ユーザー設定のコマンドの削除」を選択をして削除して下さい。(ふたつとも)
  • そして、ワードを立ち上げ直して下さい。これで、ひとつになるはずです。

和文から用語集候補をエクセルへ抽出する

英文に続き、今度は和文から用語集候補をエクセルに抜く為の WildLight 辞書です。

過去に「日本語原稿から簡易的に用語を抜く」という記事をアップしていますが、別のアプローチによる抽出です。以下のWildLight辞書をダウンロードして使用して下さい。WildLight Library に登録されています。

WLDIC_抽出_和文から用語集候補をExcelへ抜く.txt

この辞書の記述は以下の通りです。

[『](*)[』]  \1
[「](*)[」]  \1
[a-zA-Za-zA-Z0-90-9]{1,}[ァ-ヾ一-鶴]{1,}
[ァ-ヾ一-鶴]{1,}[a-zA-Za-zA-Z0-90-9]{1,}
[ァ-ヾ一-鶴]{1,}
ExtractH2Excel
  • 1行目と2行目は、「」と『』で囲まれた文字列を括弧なし文字に置換して蛍光ペン付けをしています。これらの括弧に囲まれた文字列には定訳を持つ用語が含まれている可能性が高い為、抽出対象にします。
    この2行だけは括弧を抽出文字から消したい為に、括弧なし文字に置換しています。従って、この辞書を適用すると原稿が加工されてしまいますので上書き保存しないように注意して下さい。
  • 3行目は英数字の文字列に続いて、カタカナ・漢字の文字列で構成される文字列に蛍光ペン付けしています。
    例)「GTP結合タンパク質」とか「ROHS指令物質不使用証明書」といった用語が検索対象になります。
  • 4行目は、カタカナ・漢字の文字列に続いて、英数字の文字列で構成される文字列に蛍光ペン付けしています。
    例)「コプラナーPCB」とか「イムノグロブリンE」といった用語が検索対象となります。
  • 5行目は、カタカナと漢字の文字列に蛍光ペン付けしています。
    例)「高性能液体クロマトグラフィー」とか「プロジェクト管理」といった用語が検索対象になります。
  • 6行目は、蛍光ペンをエクセルへ抽出する特殊コマンドです。

前述の過去記事による用語候補抽出は、5行目の「カタカナと漢字」の文字列だけでしたが、英数字が前後に付くケースも多く見られる事から、3~4行目を追加しました。

英文の抽出と同様、この辞書の適用により抽出された用語も、人間の目で選別を行う必要があります。

英文から用語集候補をエクセルへ抽出する

日本語文書から用語集候補文字列を抽出するWildLight辞書を以前公開しましたが、今回は英語文書から用語集候補の単語もしくは連語を抽出する辞書です。

以前、某社で行ったWildLightセミナーの中で、その抽出方法の考え方をお伝えした事があり、その際「いつ出来ますか?」と質問を受けていながら、長らく放置していました。

以下がそのWildLight 用辞書です。WildLight Library に登録されています。

WLDIC_抽出_英文から用語集候補をエクセルへ抜く.txt

この辞書で行っていることは、以下のような文字列を検索し、蛍光ペン付けをしてテキスト抽出しています。

  1. 頭文字が大文字で始まる単語
  2. その単語が連続した連語

具体的にどういうものか? 上記の1「頭文字が大文字で始まる単語」とは、Hello とか HELLO のような単語です。2「その単語が連続した連語」とは、Hello World とか HELLO World など、頭文字が大文字で始まる単語のセットのことです。

用語集候補は、例えば「Microsoft Visual Basic」や「National Art Museum」に見られるように、単語の頭文字が大文字になっている単語/連語の場合が多いので、そういう単語を検索して抜いてしまおうと言うのがアイデアです。

辞書の記述は以下の通り。(わかり易くする為にくどい書き方をしています。)

[A-Z&][A-Za-z0-9\-&]{1,}[ ]
[A-Z&][A-Za-z0-9\-&]{1,}
[&][ ]
ExtractH2Excel

1行目は、頭文字がアルファベットの大文字で、それに続く文字列が英数字で、最後が半角スペースのものを検索して蛍光ペンをつけます。
2行目は、頭文字がアルファベットの大文字で、それに続く文字列が英数字のものを検索して蛍光ペンをつけます。
3行目は、半角のアンドマークと半角スペースのセットを検索して蛍光ペンをつけます。

1行目と2行目は記述が似ています。違いは終端の半角スペースだけです。1行目で、殆どの単語と連語が蛍光ペン付けされますが、文末にある単語は残ってしまいます。それを2行目の記述で蛍光ペン付けします。
何故こんなやり方をしているかと言うと、改行を抽出対象としない為です(抽出されなくなる)
3行目は、単語が&で繋がれている連語を、連語として抽出する為に検索して蛍光ペン付けします。

この辞書ではあくまでも「候補」の抽出しかできません。お分かりの通り、文頭の単語は無条件で抽出対象となります(頭文字が大文字だから)。

抽出された単語/連語を自分の目で見て、不要物を除去して下さい。面倒だと思われる方は、例えば潔く連語だけを残すと言う考え方もあります(用語集に盛り込むべき連語の可能性が高い)。

この辞書の記述はひとつの例でしかありませんので、皆さんの使途に合わせて変えて使ってみて下さい。

[テキスト抽出のポイント]
抽出対象の検索は、ワイルドカードを一文で表現する必要はありません。抽出部位を別々に検索して、蛍光ペン付けするようにします。(これがWildLightの強みです)
蛍光ペンのテキスト抽出機能は、蛍光ペンが付いている連続した文字列を1つの塊として抜き出します。従って、別々に検索して色付けされても、最終的に蛍光ペンでひと塊りになっていれば問題ないのです。

WildLight Ver. 1.10 をリリース

今月予定されているセミナーに向けて、仕様変更と、若干の機能追加を行いました。

今回のバージョンには重要な仕様変更がありますので、以下を必ずお読みください。

[仕様変更点]

  • WILDCARD のデフォルト設定が OFF となります。
    今まではデフォルトはON でしたが、このバージョンからデフォルトを OFF へ変更いたします。

ユーザー数が増えるにつれ、この仕様変更を早くやらねばと考えていたのです。理由は、初心者が作成する WildLight用辞書ファイルは、通常の用語をただ羅列するだけのものであり、そこに特殊コマンド「WILDCARD:OFF」を記述して貰うのは、どう考えても設計思想として間違っていると思うからです。(初心者でもファミコン感覚で使える…という設計思想に反する)

また、ワイルドカードを使用できる上級者の方は、こういった特殊コマンドも抵抗なく使いこなせるだろうと考え、必要な時は「WILDCARD:ON」と辞書に記述して貰う形に変えました。

なお、この仕様変更に伴い、WildLight Library に入っている辞書ファイルの内容も、WILDCARDスイッチの記述を変更しておりますので、改めてダウンロードし直して利用して下さい。(もしくは、ご自身でWILDCARD:ON/OFF の記述を書き加えて下さい)

プルダウンメニューに「テキスト抽出」の項目を追加し、以下を追加しました。

  • 「テキストをワードへ抽出」:ワードファイルを指定すると、そのファイルから新規ワード文書へテキストを抽出します。
  • 「蛍光ペン部をワードへ抽出」:範囲選択した文字列と同じ蛍光ペン色を持つテキストを、新規ワード文書へ抽出します。
  • 「指定フォント色部をワードへ抽出」:範囲選択した文字列と同じフォント色を持つテキストを、新規ワード文書へ抽出します。

これらの機能へメニューから直接アクセスできます。

バグレポートありましたら、ご連絡をお願い致します。