【開催報告】WildLight中級セミナー

昨日、9月6日に(株)翻訳センター様の会議室をお借りして、WildLight中級セミナーを開催しました。

今回の中級セミナーの主目的は以下の通りです。

  • WildLight 辞書の作り方を学ぶ
    • ワイルドカード
    • WildLight 特殊コマンド

受講者の方から事前に頂いた「困っている事」「やりたい事」を課題として、実際の辞書の記述方法をお話ししました。具体的には、ワイルドカードの基本的な使い方と、それを使った記述方法、そしてWildLightの特殊コマンドとの組み合わせによって、翻訳周辺作業やチェック作業をどう自動化するかというものです。

セミナー後、受講者の方からは、具体的にどのような事にWildLightが使えるかをイメージし易くなったとご意見を頂きました。

今回のセミナーで発覚したバグや、頂いた要望事項は、次回のバージョンアップへ盛り込んで行く予定です。

WildLightセミナーについて
今後のWildLight セミナーは、「東京ほんま会」で開催して頂く事になりました。私自身での開催や、ネットセミナーは状況を見て開催する場合がありますが、基本的には、東京ほんま会にお願いしていくつもりです。告知は、Facebook や東京ほんま会ブログ等を使って行われると思います。

WildLight Ver. 1.15をリリース

9月6日に予定しているWildLight中級セミナーに先駆け、Ver. 1.15 をリリース致します。今回の変更内容は、WildLight Users Group やメールでご報告頂いたバグの修正と、要望を盛り込みました。

【追加コマンド】
今回盛り込んだ特殊コマンドは、以下の3つです。

  • SingleUL:ON/OFF/CLEAR (上付き文字)
  • SingleStrike:ON/OFF/CLEAR (下付き文字)
  • DoubleStrike:ON/OFF/CLEAR (ボールド体)

【追加機能】
上記の特殊コマンドに加え、プルダウンメニューに以下の機能を追加しました。

  • 「機能」に「改行コードを揃える」の項目を追加しました。
    この機能は、Mac/Windowsの違いにより発生するワード上の改行コードを ^13 から ^p へ全文置換する事で揃えるものです。
  • 「一覧表作成」に「文書間の類似文リスト作成」の項目を追加しました。
    この機能は、2文書を読み込ませ、文書1の各文節に対して文書2の文節の類似度を調べ、もっとも類似している文書2の文節と対にして一覧表を作成します。

【仕様変更】
対訳表作成時のアライメントアルゴリズムを根本的に変更しました。
精度もスピードもかなり向上しましたので、当バージョンからβマークを外しました(笑)
また、特許翻訳者の方から要望の多かった文節番号によるアライメントも実装しましたので、番号が付いている限り、確実にアライメントされます。

【バグ修正・対応】
今回修正したバグ、及び対応を追加した不具合は以下の通りです。

  • 「WL_和暦西暦変換」機能において、変換する和暦が範囲指定されていない場合に手入力となるが、手入力後にカーソル位置直後のテキストが全て西暦に置換されてしまうというバグがありましたが、これを修正しました。
  • 対訳表作成において、Mac/Windowsの違いで発生するワードの改行コード違いにより、パラグラフ判断が狂い、セル分割が正しく行われない現象に対して対策を行いました。

【その他】
今回より、Microsoft Office の Word/Excel/PowerPoint セット版をお使いの方用の WildLight を別バージョン (Ver. 1.15F) として WildLight Users Group でのみ公開しています。
このバージョンの違いは、ワードのみならず、エクセルファイル、パワーポイントファイルを直接読ませる事でワードへのテキスト抽出が行えます。ご使用になりたい方は、Users Group へご登録ください。

以上、バグレポートありましたら、ご連絡をお願い致します。

上付/下付の指定忘れをチェックする

多項式や化学式を記述するのに、上付や下付を多用しますが、その指定を忘れてしまったものを検出する WildLight 辞書の紹介です。

このチェック辞書を作る上で使用する特殊コマンドは「Superscript」と「Subscript」です。
(Users Groupで、この機能実装のアイデアは Kanbayashi さん、以下のチェック方法のアイデアは Yamauchi さんに頂きました。ありがとうございました)

上付も下付も、チェックの手法は同じですので、ここでは下付(Subscript)を例に説明致します。

H2O の2や、CO2の2を下付指定し忘れたものを検出してみましょう。

【考え方】

  • 下付指定されていないもの を検出して蛍光ペン付けする。
  • 「下付でない= Subscript:OFF」を指定して「H2O」「CO2」を検索する。
  • 正しく 2 が下付指定されているものは、この検索には引っ掛からない。

【辞書の記述方法】

Subscript:OFF
H2O
CO2
Subscript:CLEAR

1行目は、「下付は検索しないで」という指定です。
2行目から3行目は検索する化学式。ここに検索したい化学式をどんどん追加すれば良い訳です。
4行目で、「下付の検索条件を解除」

これを実際に実行した画像がこれです。(画像をクリックして拡大してご覧ください)

WL_SubscriptCheck

2を下付指定し忘れた H2O に蛍光ペンが付くのが分かると思います。

この辞書は、WildLight Library に「WLDIC_化学式チェック.txt」で登録されていますので、ダウンロードして、ご自身の使用目的に修正してご活用下さい。

 

WildLight Ver. 1.11 (Bugfix版)をリリース

度々のバージョンアップ、申し訳ありません。

このバージョンは、以下の2点のバグ対処版です。

  1. 特殊コマンドのExtractH2ExcelとExtractH2Wordによる蛍光ペン部のテキスト抜き機能が正常に動作しておらず、取りこぼしが発生します。
  2. WildLightをアップデートすると、稀にメニューにWildLightがふたつ現れる場合がある。

上記問題1については原因が特定できた為、バグ修正を行いました。問題2については原因が特定できておりませんが、対処策を盛り込みました

本日公開しています「英文から用語候補を抜く」「和文から用語候補を抜く」辞書を利用される方は、このバージョンへのアップデートをお願い致します。

なお、最新版は「ダウンロード/インストール」のタブから、WildLight共有フォルダーへ行き、入手して下さい。

★ WildLight のメニューが2つ出る場合の暫定対処方法

  • 表示されているふたつのWildLightのメニュー上で右クリックし、「ユーザー設定のコマンドの削除」を選択をして削除して下さい。(ふたつとも)
  • そして、ワードを立ち上げ直して下さい。これで、ひとつになるはずです。

和文から用語集候補をエクセルへ抽出する

英文に続き、今度は和文から用語集候補をエクセルに抜く為の WildLight 辞書です。

過去に「日本語原稿から簡易的に用語を抜く」という記事をアップしていますが、別のアプローチによる抽出です。以下のWildLight辞書をダウンロードして使用して下さい。WildLight Library に登録されています。

WLDIC_抽出_和文から用語集候補をExcelへ抜く.txt

この辞書の記述は以下の通りです。

[『](*)[』]  \1
[「](*)[」]  \1
[a-zA-Za-zA-Z0-90-9]{1,}[ァ-ヾ一-鶴]{1,}
[ァ-ヾ一-鶴]{1,}[a-zA-Za-zA-Z0-90-9]{1,}
[ァ-ヾ一-鶴]{1,}
ExtractH2Excel
  • 1行目と2行目は、「」と『』で囲まれた文字列を括弧なし文字に置換して蛍光ペン付けをしています。これらの括弧に囲まれた文字列には定訳を持つ用語が含まれている可能性が高い為、抽出対象にします。
    この2行だけは括弧を抽出文字から消したい為に、括弧なし文字に置換しています。従って、この辞書を適用すると原稿が加工されてしまいますので上書き保存しないように注意して下さい。
  • 3行目は英数字の文字列に続いて、カタカナ・漢字の文字列で構成される文字列に蛍光ペン付けしています。
    例)「GTP結合タンパク質」とか「ROHS指令物質不使用証明書」といった用語が検索対象になります。
  • 4行目は、カタカナ・漢字の文字列に続いて、英数字の文字列で構成される文字列に蛍光ペン付けしています。
    例)「コプラナーPCB」とか「イムノグロブリンE」といった用語が検索対象となります。
  • 5行目は、カタカナと漢字の文字列に蛍光ペン付けしています。
    例)「高性能液体クロマトグラフィー」とか「プロジェクト管理」といった用語が検索対象になります。
  • 6行目は、蛍光ペンをエクセルへ抽出する特殊コマンドです。

前述の過去記事による用語候補抽出は、5行目の「カタカナと漢字」の文字列だけでしたが、英数字が前後に付くケースも多く見られる事から、3~4行目を追加しました。

英文の抽出と同様、この辞書の適用により抽出された用語も、人間の目で選別を行う必要があります。

英文から用語集候補をエクセルへ抽出する

日本語文書から用語集候補文字列を抽出するWildLight辞書を以前公開しましたが、今回は英語文書から用語集候補の単語もしくは連語を抽出する辞書です。

以前、某社で行ったWildLightセミナーの中で、その抽出方法の考え方をお伝えした事があり、その際「いつ出来ますか?」と質問を受けていながら、長らく放置していました。

以下がそのWildLight 用辞書です。WildLight Library に登録されています。

WLDIC_抽出_英文から用語集候補をエクセルへ抜く.txt

この辞書で行っていることは、以下のような文字列を検索し、蛍光ペン付けをしてテキスト抽出しています。

  1. 頭文字が大文字で始まる単語
  2. その単語が連続した連語

具体的にどういうものか? 上記の1「頭文字が大文字で始まる単語」とは、Hello とか HELLO のような単語です。2「その単語が連続した連語」とは、Hello World とか HELLO World など、頭文字が大文字で始まる単語のセットのことです。

用語集候補は、例えば「Microsoft Visual Basic」や「National Art Museum」に見られるように、単語の頭文字が大文字になっている単語/連語の場合が多いので、そういう単語を検索して抜いてしまおうと言うのがアイデアです。

辞書の記述は以下の通り。(わかり易くする為にくどい書き方をしています。)

[A-Z&][A-Za-z0-9\-&]{1,}[ ]
[A-Z&][A-Za-z0-9\-&]{1,}
[&][ ]
ExtractH2Excel

1行目は、頭文字がアルファベットの大文字で、それに続く文字列が英数字で、最後が半角スペースのものを検索して蛍光ペンをつけます。
2行目は、頭文字がアルファベットの大文字で、それに続く文字列が英数字のものを検索して蛍光ペンをつけます。
3行目は、半角のアンドマークと半角スペースのセットを検索して蛍光ペンをつけます。

1行目と2行目は記述が似ています。違いは終端の半角スペースだけです。1行目で、殆どの単語と連語が蛍光ペン付けされますが、文末にある単語は残ってしまいます。それを2行目の記述で蛍光ペン付けします。
何故こんなやり方をしているかと言うと、改行を抽出対象としない為です(抽出されなくなる)
3行目は、単語が&で繋がれている連語を、連語として抽出する為に検索して蛍光ペン付けします。

この辞書ではあくまでも「候補」の抽出しかできません。お分かりの通り、文頭の単語は無条件で抽出対象となります(頭文字が大文字だから)。

抽出された単語/連語を自分の目で見て、不要物を除去して下さい。面倒だと思われる方は、例えば潔く連語だけを残すと言う考え方もあります(用語集に盛り込むべき連語の可能性が高い)。

この辞書の記述はひとつの例でしかありませんので、皆さんの使途に合わせて変えて使ってみて下さい。

[テキスト抽出のポイント]
抽出対象の検索は、ワイルドカードを一文で表現する必要はありません。抽出部位を別々に検索して、蛍光ペン付けするようにします。(これがWildLightの強みです)
蛍光ペンのテキスト抽出機能は、蛍光ペンが付いている連続した文字列を1つの塊として抜き出します。従って、別々に検索して色付けされても、最終的に蛍光ペンでひと塊りになっていれば問題ないのです。

WildLight Ver. 1.10 をリリース

今月予定されているセミナーに向けて、仕様変更と、若干の機能追加を行いました。

今回のバージョンには重要な仕様変更がありますので、以下を必ずお読みください。

[仕様変更点]

  • WILDCARD のデフォルト設定が OFF となります。
    今まではデフォルトはON でしたが、このバージョンからデフォルトを OFF へ変更いたします。

ユーザー数が増えるにつれ、この仕様変更を早くやらねばと考えていたのです。理由は、初心者が作成する WildLight用辞書ファイルは、通常の用語をただ羅列するだけのものであり、そこに特殊コマンド「WILDCARD:OFF」を記述して貰うのは、どう考えても設計思想として間違っていると思うからです。(初心者でもファミコン感覚で使える…という設計思想に反する)

また、ワイルドカードを使用できる上級者の方は、こういった特殊コマンドも抵抗なく使いこなせるだろうと考え、必要な時は「WILDCARD:ON」と辞書に記述して貰う形に変えました。

なお、この仕様変更に伴い、WildLight Library に入っている辞書ファイルの内容も、WILDCARDスイッチの記述を変更しておりますので、改めてダウンロードし直して利用して下さい。(もしくは、ご自身でWILDCARD:ON/OFF の記述を書き加えて下さい)

プルダウンメニューに「テキスト抽出」の項目を追加し、以下を追加しました。

  • 「テキストをワードへ抽出」:ワードファイルを指定すると、そのファイルから新規ワード文書へテキストを抽出します。
  • 「蛍光ペン部をワードへ抽出」:範囲選択した文字列と同じ蛍光ペン色を持つテキストを、新規ワード文書へ抽出します。
  • 「指定フォント色部をワードへ抽出」:範囲選択した文字列と同じフォント色を持つテキストを、新規ワード文書へ抽出します。

これらの機能へメニューから直接アクセスできます。

バグレポートありましたら、ご連絡をお願い致します。

簡易対訳表を作ってみる

WL_HowToAlign

原稿と訳文を比較して、訳抜けを検出する事を目的に、簡易的に対訳表を作成するおまけ機能を WildLight に盛り込んであります。但し、他ソフトウェアのように完璧なものではありません。あくまでもチェックして問題を検出する事を目的としているので、この程度のレベルでも目的十分と考えています。

  1. プルダウンメニューの「機能」→「2文書を比較表にする(β)」を選択する
  2. ファイル選択ウインドウが出たら、原稿ファイルを選択する。
  3. ファイル選択ウインドウが出たら、訳文ファイルを選択する。
  4. 機能が実行され、対訳表が作成されれば終了です。
  5. 表操作を使い、原文と訳文をアライメントします。

表作成後のアライメント作業は、メニューの「表操作」にセルの削除・挿入・結合機能があり、それを使う方法がありますが、毎回メニュー選択するのは作業効率が良くありません。そこで、これらの機能をショートカットキーに登録して作業する事をお勧めします。

方法は、ショートカットキー登録の方法のマニュアルを作ってありますので参照して下さい。

WildLight Ver. 1.05 をリリース

WildLight Users Group で要望の出された機能を盛り込みました。
今回盛り込んだ特殊コマンドは、以下の4つです。

  • Superscript:ON/OFF/CLEAR (上付き文字)
  • Subscript:ON/OFF/CLEAR (下付き文字)
  • Bold:ON/OFF/CLEAR (ボールド体)
  • Italic:ON/OFF/CLEAR (イタリック体)

スイッチのON, OFF, CLEAR には以下の意味があります。

  • ON : 対象となる文字のみを検索対象とする。
    例) Superscript:ON で上付き文字のみを検索します。
  • OFF : 対象となる文字を検索対象外とする。
    例) Subscript:OFF で下付き文字は検索から除外されます。
  • CLEAR : 設定をクリアします。
    例) Italic:CLEAR でイタリック体へ指定された検索指定を解除します。

例えば、ボールドになっていないイタリック体の半角英文字を検索対象としたい場合は、以下のように辞書へ記述します。

Bold:OFF
Italic:ON
[A-Za-z]
Bold:CLEAR
Italic:CLEAR

上記の特殊コマンドの追加に加え、プルダウンメニューに「ワード設定」の項目を追加し、以下を追加しました。

  • 「オートコレクト」
  • 「オートフォーマット」
  • 「入力オートフォーマット」
  • 「ショートカットキー」

これらの機能へメニューから直接アクセスできます。

バグレポートありましたら、ご連絡をお願い致します。

テンプレート辞書

指定した用語や単語だけに蛍光ペン付けをして、チェックし易くしたい…という目的から、WildLight を利用して頂いている方もいるようです。

その上で、辞書の作成で戸惑うのではないかと思い、テンプレート辞書を作成しました。
(クリックして表紙された状態で、Ctrl+S すると保存できます)

このテキストファイルに、どんどんとチェックしたい単語や用語を追加するだけで、WildLight の辞書として使用できます。

作った辞書ファイルをリネームして、分野別や文書種類別に辞書を作って使用するのがいいでしょう。