英文から用語集候補をエクセルへ抽出する

日本語文書から用語集候補文字列を抽出するWildLight辞書を以前公開しましたが、今回は英語文書から用語集候補の単語もしくは連語を抽出する辞書です。

以前、某社で行ったWildLightセミナーの中で、その抽出方法の考え方をお伝えした事があり、その際「いつ出来ますか?」と質問を受けていながら、長らく放置していました。

以下がそのWildLight 用辞書です。WildLight Library に登録されています。

WLDIC_抽出_英文から用語集候補をエクセルへ抜く.txt

この辞書で行っていることは、以下のような文字列を検索し、蛍光ペン付けをしてテキスト抽出しています。

  1. 頭文字が大文字で始まる単語
  2. その単語が連続した連語

具体的にどういうものか? 上記の1「頭文字が大文字で始まる単語」とは、Hello とか HELLO のような単語です。2「その単語が連続した連語」とは、Hello World とか HELLO World など、頭文字が大文字で始まる単語のセットのことです。

用語集候補は、例えば「Microsoft Visual Basic」や「National Art Museum」に見られるように、単語の頭文字が大文字になっている単語/連語の場合が多いので、そういう単語を検索して抜いてしまおうと言うのがアイデアです。

辞書の記述は以下の通り。(わかり易くする為にくどい書き方をしています。)

[A-Z&][A-Za-z0-9\-&]{1,}[ ]
[A-Z&][A-Za-z0-9\-&]{1,}
[&][ ]
ExtractH2Excel

1行目は、頭文字がアルファベットの大文字で、それに続く文字列が英数字で、最後が半角スペースのものを検索して蛍光ペンをつけます。
2行目は、頭文字がアルファベットの大文字で、それに続く文字列が英数字のものを検索して蛍光ペンをつけます。
3行目は、半角のアンドマークと半角スペースのセットを検索して蛍光ペンをつけます。

1行目と2行目は記述が似ています。違いは終端の半角スペースだけです。1行目で、殆どの単語と連語が蛍光ペン付けされますが、文末にある単語は残ってしまいます。それを2行目の記述で蛍光ペン付けします。
何故こんなやり方をしているかと言うと、改行を抽出対象としない為です(抽出されなくなる)
3行目は、単語が&で繋がれている連語を、連語として抽出する為に検索して蛍光ペン付けします。

この辞書ではあくまでも「候補」の抽出しかできません。お分かりの通り、文頭の単語は無条件で抽出対象となります(頭文字が大文字だから)。

抽出された単語/連語を自分の目で見て、不要物を除去して下さい。面倒だと思われる方は、例えば潔く連語だけを残すと言う考え方もあります(用語集に盛り込むべき連語の可能性が高い)。

この辞書の記述はひとつの例でしかありませんので、皆さんの使途に合わせて変えて使ってみて下さい。

[テキスト抽出のポイント]
抽出対象の検索は、ワイルドカードを一文で表現する必要はありません。抽出部位を別々に検索して、蛍光ペン付けするようにします。(これがWildLightの強みです)
蛍光ペンのテキスト抽出機能は、蛍光ペンが付いている連続した文字列を1つの塊として抜き出します。従って、別々に検索して色付けされても、最終的に蛍光ペンでひと塊りになっていれば問題ないのです。

簡易対訳表を作ってみる

WL_HowToAlign

原稿と訳文を比較して、訳抜けを検出する事を目的に、簡易的に対訳表を作成するおまけ機能を WildLight に盛り込んであります。但し、他ソフトウェアのように完璧なものではありません。あくまでもチェックして問題を検出する事を目的としているので、この程度のレベルでも目的十分と考えています。

  1. プルダウンメニューの「機能」→「2文書を比較表にする(β)」を選択する
  2. ファイル選択ウインドウが出たら、原稿ファイルを選択する。
  3. ファイル選択ウインドウが出たら、訳文ファイルを選択する。
  4. 機能が実行され、対訳表が作成されれば終了です。
  5. 表操作を使い、原文と訳文をアライメントします。

表作成後のアライメント作業は、メニューの「表操作」にセルの削除・挿入・結合機能があり、それを使う方法がありますが、毎回メニュー選択するのは作業効率が良くありません。そこで、これらの機能をショートカットキーに登録して作業する事をお勧めします。

方法は、ショートカットキー登録の方法のマニュアルを作ってありますので参照して下さい。

テンプレート辞書

指定した用語や単語だけに蛍光ペン付けをして、チェックし易くしたい…という目的から、WildLight を利用して頂いている方もいるようです。

その上で、辞書の作成で戸惑うのではないかと思い、テンプレート辞書を作成しました。
(クリックして表紙された状態で、Ctrl+S すると保存できます)

このテキストファイルに、どんどんとチェックしたい単語や用語を追加するだけで、WildLight の辞書として使用できます。

作った辞書ファイルをリネームして、分野別や文書種類別に辞書を作って使用するのがいいでしょう。

なぜ、ワードなのか?

翻訳の支援ツールは色々と出回っていますが、何故、WildLightはワードマクロを使って開発したのか? その理由は以下のようなものです。

  • Microsoft Word は、翻訳関係者ならまず間違いなくみんなが使っている
  • つまり、新たなソフトウェアを購入するなど、コスト的負担が無い
  • また、新たなソフトウェアの取り扱いを覚える必要が無い。
  • 法人の場合、新しいソフトウェアを導入する場合、社内申請・審査・承認等のプロセスを通す必要があり、予算的観点も含め、手軽に導入し辛い環境にある。しかし、既に導入済みのワードへのアドイン導入であれば、それらの煩雑な処理が最小限に抑えられる。
  • コスト的投資が無いので、翻訳者さんへ導入を勧め易い。
  • つまり、思い立ったら直ぐに使い始められる。

翻訳者さんに使って貰うには?…そこが発想の起点です。余計なものを買わなくても、手軽に導入ができる、そんなものを作りたかったのです。

WildLightの起動方法

WL_HowToExecute

問合せを頂いて調べてみれば、どうやってWildLightを起動するのかを書いたものがない事に、いまさらながら気が付きました。以下に起動方法を記します。

【WildLightの起動方法】

  1. 作業を行う文書を表示した状態で、メニューの「アドイン」をクリックする。
  2. 「WildLight」をクリックするとプルダウンメニューが表示される。
  3. プルダウンメニューにある「WildLight」をクリックする。
  4. すると辞書ファイルを指定するダイアログボックスが現れる。
  5. 適用したい辞書ファイルを指定しOKを押す。
  6. WildLightが辞書の記述に従い実行される。
    (上のデモは「数チェック」辞書を適用したところです。数に色付けがされ、原文と訳文で比較する事でチェックができます。)

 

単純なチェック辞書の作り方

WildLight で用語や単語を蛍光ペン付けしたい…という単純な使い方をする場合、辞書ファイルはとても簡単に作成できます。

テキストファイルを新規作成し、蛍光ペン付けしたい文字列を入れていけばいいのです。

<

p style=”padding-left:30px;”>例)
見れ
食べれ

(ら抜き言葉に蛍光ペンを付ける)

この使い方が一番単純でありながら、用途が多いのではないかと思います。ワイルドカードって何?って方でも、この方法でチェックしたい単語や用語をそのまま登録してしまえばいいのです。

WildLight の辞書の作り方がよく分からないという方は、この方法からスタートしてみましょう。

※Windowsであれば「メモ帳」を使えば作成できます。

英数字の全角・半角チェック

翻訳チェックの中で、スタイルガイドの指定に従って英数字の全角・半角チェックを行う事があります。また、翻訳文中で同じ文字種において全角と半角の不統一は好ましくありません。ここでは、英数字の半角・全角チェックをWildLightで行うための辞書の記述方法を説明します。

全角数字のチェック: [0-9]
全角英字のチェック: [a-zA-Z]
半角数字のチェック: [0-9]
半角英字のチェック: [a-zA-Z]

これらの文字列を、行いたいチェックに合わせて組合せ、WildLight用の辞書に記述すれば良いわけです。

例えば、半角英数字を検出して蛍光ペンをつける場合は、以下のように辞書に記述します。

[0-9]
[a-zA-Z]

これだけです。これだけを記述したテキストファイルを準備して WildLight に読み込ませると半角英数字に蛍光ペンが付きます。

ワイルドカードに詳しい方は、 [0-9a-zA-Z] と一文に書き直して頂いても構いません。

WildLightの良いところは、辞書に記述されたワイルドカードを順次に処理してくれるところです。ワードの検索や置換機能を使って一発で処理しようと、ワイルドカードの記述に頭を悩ますくらいなら、やりたい事を分割してワイルドカードで表現し、WildLightの辞書にして実行すれば、簡単に処理ができます。

マクロは忘れて下さい

一昨日のサンフレアアカデミーのオープンスクールで、遠田先生がWildLightをご紹介下さった事は別ブログで報告しましたが、その後に何人かと話をさせて頂いて分かった事があります。

それは、以下のような事です。
1)WildLightはマクロを知らないと使えないと思っていた。
2)ブログの印象から有料マクロだと思っていた。

このあたりを含め、もっと説明をしていかないといけないなと思いました。

まず、必要となるマクロに類する知識は、WildLightのイントール方法だけです。あとはメニューからWildLightを選択して、自分の目的の辞書ファイルを読み込ませるだけで利用できます。セミナーや説明の中で「インストールしたらマクロは忘れて下さい」とお話ししているのは、そう言う理由です。

それに、もし辞書を自作される方で、WildLightの特殊コマンドを使用されない場合は、現バージョンさえインストールできてしまえばアップデートも必要ありません。(基本機能で不具合修正が発生しない限り)

WildLightの基本的使用法は「ファミコン」を目指しています。つまり、本体(WildLight)へカートリッジ(辞書ファイル)をポン!と入れさえすれば使える環境です。(カートリッジを作ってくれる人が増えると嬉しい)

また、WildLightはフリーウェアです。翻訳品の凡ミス撲滅を祈って、未来永劫有料にするつもりはありません。

赤文字のみ文字カウントする

クライアントからの翻訳指示で、部分翻訳の場合、様々な方法で翻訳対象を指示してきます。フォント色を変える事もその手段のひとつで、「赤字だけを翻訳して下さい」といった指示がされます。

そんな時、見積もりを出すための文字カウントが必要になりますが、普通なら、対象外箇所を削除してカウントするなどの手間を掛けざるを得ません。

WildLightの場合、「CountFontColor」コマンドを使えば、特定色の文字だけの文字カウントができます。赤字だけをカウントする場合、以下の1文を記述した辞書を準備することで、赤字部の文字カウントが行えます。

CountFontColor:Red

この辞書を実行すると、赤文字部の文字カウント情報を出力した新規文書が作成されます。

出力例

【Red色文字のカウント】
単語数:37
文字数(スペースを含めない):82
文字数(スペースを含める):92
全角文字+半角カタカナの数:24

[注]図形やテキストボックス内はカウントされません。

青文字をカウントしたければ、「Blue」を指定すればいい事になります。

蛍光ペン部の文字カウントをする

クライアントからの翻訳指示で、部分翻訳の場合、様々な方法で翻訳対象を指示してきます。蛍光ペンもその手段のひとつで、「蛍光ペンの付いているところだけを翻訳して下さい」といった指示がされます。

そんな時、見積もりを出すための文字カウントが必要になりますが、普通なら、対象外箇所を削除してカウントするなどの手間を掛けざるを得ません。

WildLightの場合、以下の1文を記述した辞書を準備することで、蛍光部の文字カウントが行えます。

CountH

この辞書を実行すると、蛍光ペン部の文字カウント情報を出力した新規文書が作成されます。

出力例

【蛍光ペン部のカウント】
単語数:36
文字数(スペースを含めない):75
文字数(スペースを含める):85
全角文字+半角カタカナの数:24

[注]図形やテキストボックス内はカウントされません。