WildLight中級セミナー 1/31

[Blog更新] WildLight中級セミナー(1月31日)

初の中級セミナー。ワイルドカードとWildLight特殊コマンドで、いろいろな翻訳周辺作業を簡素化しましょう。

この度、東京ほんま会主催による「WildLight中級セミナー」を、1月31日(日)に開催します。

今まで、初級セミナーは何度となく開催してきましたが、中級は初めてとなります。さて、一体、何が「中級」なのか?(笑)

具体的には、WildLightを活用するための辞書作成を、ワークショップを通じて学ぶスタイルになります。そう、自分で辞書を書きます。やはり、自分で書かないと自分のものになりませんものね!

セミナー最初は初級セミナーのおさらいをします。基本的な動作とメニューにある機能を、デモをご覧に入れながら説明いたします。その後に、参加者の皆さんに答えいただいたアンケート結果を課題として、それらを解決するためのWildLight辞書作りを行っていきます。もちろん、ワイルドカードの学習とWildLight特殊コマンドの学習をあわせて行っていきます。

途中、既存の辞書の中身をみんなで読み解いて、何をしているのかを理解するセッションも設けるつもりです。辞書はあるけど、何やってるの?・・・って知らない人が多いので、その考え方を学ぶことで、自分専用の辞書へ作りかえる力を身につけます。

中級セミナーは、今後の開催は未定ですので、WildLightを使いこなしたいと考えておられる方は、この機会に参加されることをお勧めいたします。

詳細は、以下のリンクをご覧ください。

東京ほんま会「WildLight中級セミナー」

 

蛍光ペンの文字列を抽出する

以前、サンフレアアカデミーのオープンスクールでWildLightの説明をした際に、「蛍光ペンのついた文字列をワードやエクセルへ抜き出せるか?」という質問をいただき、「SFAオープンスクールの質問から」という記事にまとめていますが、改めて別記事として公開しておきます。

ワード文書中の蛍光ペンがついたテキストを抽出できると、ちょっと便利な使い方ができますよね。

例えば、用語集用に必要な単語や表現に蛍光ペンを付けておき、最後にそれらを抽出して用語集にするといった使い方ができます。事実、サンフレアアカデミーのオープンスクールでいただいた質問の目的は、用語集作成に使用したいということでした。

まず、特別な知識なく実現できるように、辞書ファイルを準備してあります。

  1. WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt
  2. WLDIC_抽出_蛍光ペン部をWordへ抜く.txt

エクセルへ抜きたい時は1の辞書、ワードへ抜き出したい時は2の辞書を使います。目的に合わせて辞書ファイルをダウンロードし、WildLightで適用してみてください。用語集作成を目的としているなら、いきなりエクセルへテキストを抜いてしまうと便利かもしれませんね。

では、実際にやってみた映像をこちらに張り付けておきます。(これは「WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt」を適用したケースです。)

ExtractH2Excel

うっかり同じ単語を蛍光ペンしていても大丈夫です。ユニークなものだけを抽出する仕様になっています。(「あれ?これ、さっき色付けたっけ?」なんて、悩まなくて大丈夫。気にしないでどんどん蛍光ペン付けしちゃいましょう)

さて、ここからは中級者/上級者の方への説明です。
蛍光ペンのテキストを抜き出す機能は、以下のWildLightの特殊コマンドで実現できます。

  • ExtractH2Excel
  • ExtractH2Word

前者がエクセルへ抽出、後者がワードへ抽出するための特殊コマンドです。ワイルドカードとの組み合わせで、意図した文字列を抜き出すことができるようになります。例えば、全角カタカナの用語だけを抜き出したい場合は、以下のような記述をした辞書を準備すると良いでしょう。

  1. WILDCARD:ON
  2. [ァ-ヾ]
  3. ExtractH2Excel

1行目は、ワイルドカードモードをONにします。そして2行目に全角カタカナを指定するワイルドカードを記述することで、全角カタカナすべてに蛍光ペンを付けます。そして最後に、それら蛍光ペンが付いた文字列をエクセルへ抽出するために、特殊コマンド ExtractH2Excel を記述します。

2行目のワイルドカードを工夫することで、いろいろな文字列を抜き出すことが可能になります。

例えば、上記ケースでは1文字のカタカナも抽出されます。それでは都合が悪いなぁ、せめて3文字以上のカタカナだけにして欲しいなぁと考えるなら、2行目を以下の記述にすればOKです。

[ァ-ヾ]{3,}

また、もし、5文字の全角カタカナの用語だけを抽出したい!という場合は、以下のようになります。

[ァ-ヾ]{5}

ここまで読まれた方は、ExtractH2Excel, ExtractH2Word がいろいろなことに応用できそうだと感じたことでしょう。実際、WildLight Dictionary Library に登録してある「WLDIC_抽出_和文から用語集候補をExcelへ抜く.txt」では、この特殊コマンドを使って、和文から用語集候補となる単語をエクセルへ抽出しています。

上記の2行目に当たる部分に、以下の記述をしています。

  • [『](*)[』](TAB)\1
  • [「](*)[」](TAB)\1
  • [a-zA-Za-zA-Z0-90-9]{1,}[ァ-ヾ一-鶴]{1,}
  • [ァ-ヾ一-鶴]{1,}[a-zA-Za-zA-Z0-90-9]{1,}
  • [ァ-ヾ一-鶴]{1,}

まず、用語集に必要となる用語には、定訳が存在しそうなものを対象としたいですが、『』や「」内の文字列にはその対象となるものが多いので、『』「」内の文字列を抜くように蛍光ペン付けをしてやります。ただ、そのまま抜いてしまうと『』「」が残ってしまいますので、蛍光ペンを付けつつ、それらの括弧を削除してしまいます。そのための記述が1~2行目です。((TAB)はタブ記号です)

3行目は、全半角の英数字で始まり、全角カタカナと漢字でなる言葉の塊に蛍光ペンを付けます。といってもイメージできないですよね。例えば、「13G45カード基板」とか「1次入力ターミナル」といった類の文字列に蛍光ペンが付きます。

4行目は、全角カタカナと漢字の後ろに全半角の英数字が付いている文字の塊に蛍光ペンを付けます。例えば「プライマリー電源001」とか「角度ABC」といった類の文字列に蛍光ペンが付きます。

そして最後の5行目は、全角カタカナと漢字の塊に蛍光ペンが付きます。「音量スライダー」とか「スライド軸」といった言葉が対象となります。

なぜ、3段階で蛍光ペン付けをしているかといえば、[全角カタカナと漢字]の塊に先に蛍光ペンを付けてしまうと、[全角カタカナと漢字]の前後に全半角英数文字を持つ文字列の検索手段を失ってしまうからです。(蛍光ペンがついているものは検索対象から外れるというWildLightの制限があるため)
少し複雑な検索をして蛍光ペンを付ける場合は、このように、その順番にも注意が必要です。
(このあたりの話は、以前の記事「日本語原稿から簡易的に用語を抜く」にも書いてあります。)

他にもいろいろな応用ができそうですね。

是非、お役立てください。

【例題】全角数字を半角変換

こういう単純な作業はWildLightの得意とするところです。

既に、WildLight Dic Library に全角英数字を半角に変換する辞書ファイルが存在しますが、それを加工して、全角数字のみを半角に変換する辞書を作ってみましょう。

まず、全角英数字を半角に変換する辞書ファイルは「WLDIC_変換_全角英数半角変換.txt」です。その中身は以下のようになっています。

  1. WILDCARD:ON
  2. [0-9a-zA-Z.]
  3. Zen2Han,[0-9a-zA-Z.]

1行目は、ワイルドカードモードをONにするための特殊コマンドです。

そして、2行目は何をやっているかというと、半角変換した文字が視覚的に確認できるよう、変換前に変換対象を蛍光ペンで色をつけているのです。これは、全角半角変換、半角全角変換の特殊コマンド (Zen2Han, Han2Zen) では、他のコマンドと違い、処理後に蛍光ペンが付かないという制限があるため、このような2段構えの記述にしています。もし、色付けは不要ということであれば、この行は削除して構いません。

[0-9] で全角数字、[a-zA-Z] で全角英文字です。最後は[.] ピリオドも変換対象にしています。

そして3行目が、全角から半角へ変換する特殊コマンドです。記述すべき検索語は2行目と同じです。

では、全角数字半角へ変換する辞書を作成するには、どういう記述にしたらいいでしょうか? 簡単ですね。上記の辞書は全角の数字と英文字を対象としていました。つまり、全角数字だけを指定すれば良いことになります。すると、以下のようになりますね。

WILDCARD:ON
[0-9]
Zen2Han,[0-9]

この記述をした辞書を、WildLight Dic Library に登録しておきましたので、お役立てください。辞書名は「WLDIC_変換_全角数字を半角へ変換.txt」です。

SimplyTermsのタグに蛍光ペンをつける

今日、ツイッターでお題をいただきました(笑)

Buckeye さん開発の SimplyTerms で抽出したテキストファイルには、以下のような[[と]]で囲まれたタグ情報が付与されます。

[[S1_BD-1]]
翻訳の品質管理とWildLight
[[S1_BD-2]]
@名古屋翻訳者勉強会 2015年1月18日
[[S2_BD-1]]
説明内容

このタグにグレーの蛍光ペンを付与して、見た目が目立たなくしたいというお題でした。これを実現する方法は簡単で、WildLightの特殊コマンドにある HColor コマンドを使用します。このコマンドは、以下のような記述の仕方になります(WildLight取扱説明書参照のこと)

HColor:[色番号],[検索語]

検索語を検索し、色番号で指定された蛍光ペン色を付けます。 (検索語のみ指定色になる)
[色番号]:01:緑, 02:明緑, 03:青緑, 04:濃青, 05:青, 06:水, 07:桃, 08:紫, 09:濃い赤, 10:赤, 11:濃黄, 12:黄, 13:白, 14:25%灰, 15:50%灰, 16:黒

SimplyTerms のタグを検索するには、ワイルドカードを使用します。そして、その検索式(検索語)は以下の形でいいでしょう。注意が必要なのは、[や]を検索語にするときには、その前に\ (¥)が必要です。

[\[]{2}*[\]]{2}

そして、蛍光ペンの色を50%灰色にしてみましょう。その場合、色番号は 15 ということになります。

これらを辞書ファイル(テキストファイル)に記述するわけですが、以下のような記述になります。

WILDCARD:ON
HColor:15,[\[]{2}*[\]]{2}

もちろん、色番号を変えることによって、自分の好きな色に変更できます。塗りつぶしてしまいたいなら、16の黒を使うと良いでしょう。

この記述をした辞書ファイルを作成して WildLight Dic Library に登録しておきましたので、ご利用ください。ファイル名は「WLDIC_作業_SimplyTermsのタグに蛍光ペン付け.txt」です。

ちなみに、WildLightには SimplyTerms のタグを隠し文字属性にして見えなくするメニューが準備されています。(もとに戻すメニューも準備されています) 併せてご利用ください。

SFAオープンスクールの質問から

昨日、2月28日(土)はサン・フレアアカデミーのオープンスクールでした。

クラスの中でWildLightの使い方に関する質問がありました。これは他の皆さんも利用できる情報ですので、ここにシェアしておきます。

1. 蛍光ペンのついた文字列をワードやエクセルへ抜き出せるか?

WildLight特殊コマンドの「ExtractH2Word」もしくは「ExtractH2Excel」を使います。

例)
ExtractH2Excel

いずれかのコマンドを1行記述した辞書ファイルを準備し、蛍光ペンされたテキストを抜き出したいワード文書へ適用すれば、抜き出せます。

この例を記述した辞書を「WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。

2. PDFファイルからワードにしたものを整形するには、どうしたらいいか?

 この質問については明確な回答ができませんでした。PDFからワードファイルを起こした場合、使用したアプリケーションや原稿PDFの中身によって、出る症状が違うからです。

  • 私の経験した症状として、以下のようなものがあります。
    1. 全角文字間に全半角スペースが紛れ込んでいる。
    2. 全半角数字の後ろに複数の半角スペースが入っている。
    3. 半角英数字間のスペースに全角スペースが入っている。
    4. 文頭に不要なスペースが入っている。

これらへの対処として、以下のような処理を行っています。

' 全角英文字カタカナ漢字の間に挟まった全半角スペースを除去する
 
 ([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])[  ]{1,}([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])     \1\2
' 全半角数字の後のスペースを半角スペース1つにする

 ([0-90-9])[  ]{2,}     \1
' 半角英数字間のスペースを半角スペース1つにする

 ([\!-~])[  ]{1,}([\!-~])     \1 \2
' 文頭の不要なスペースを削除する

 ^13[  ]{1,}     ^p

上記4例とも、[ ]の中は全角スペース1つと半角スペース1つが入っています。
また、セパレーターはTABです。
これらが記述された辞書は、「WLDIC_編集_日本語:PDF抽出文書の成形.txt」として提供しています。

3. エクセルやパワーポイントファイルからテキスト抽出するには、どうしたらいいか?

Microsoft Office Personal以外(Excel, PowerPointが入っているもの)をお使いの方は、WildLight Users Group でのみ配布されている Full バージョンを使えば、エクセルやパワーポイントからテキスト抽出する機能を利用できます。

4. 全角文字の間にまぎれた半角スペースを除去する方法は?

全角文字の間に半角スペースが入っているケースは、PDFファイルからワードへ変換した時に良く見かけるので、質問2への対処の1つとしても有効だと思います。

全角文字をワイルドカードで表現すると以下のようになります。

 、-鶴

そして、全角文字に挟まれる半角スペースを検出して削除するには、辞書に次のように記述します。

 ([、-鶴])[ ]([、-鶴])                  \1\2

[ ]の間には半角スペースを入れます。
([、-鶴]) ([、-鶴])と\1\2の間はセパレーターのTABです。

この辞書を「WLDIC_変換_全角文字間の半角スペースを除去.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。

上付/下付の指定忘れをチェックする

多項式や化学式を記述するのに、上付や下付を多用しますが、その指定を忘れてしまったものを検出する WildLight 辞書の紹介です。

このチェック辞書を作る上で使用する特殊コマンドは「Superscript」と「Subscript」です。
(Users Groupで、この機能実装のアイデアは Kanbayashi さん、以下のチェック方法のアイデアは Yamauchi さんに頂きました。ありがとうございました)

上付も下付も、チェックの手法は同じですので、ここでは下付(Subscript)を例に説明致します。

H2O の2や、CO2の2を下付指定し忘れたものを検出してみましょう。

【考え方】

  • 下付指定されていないもの を検出して蛍光ペン付けする。
  • 「下付でない= Subscript:OFF」を指定して「H2O」「CO2」を検索する。
  • 正しく 2 が下付指定されているものは、この検索には引っ掛からない。

【辞書の記述方法】

Subscript:OFF
H2O
CO2
Subscript:CLEAR

1行目は、「下付は検索しないで」という指定です。
2行目から3行目は検索する化学式。ここに検索したい化学式をどんどん追加すれば良い訳です。
4行目で、「下付の検索条件を解除」

これを実際に実行した画像がこれです。(画像をクリックして拡大してご覧ください)

WL_SubscriptCheck

2を下付指定し忘れた H2O に蛍光ペンが付くのが分かると思います。

この辞書は、WildLight Library に「WLDIC_化学式チェック.txt」で登録されていますので、ダウンロードして、ご自身の使用目的に修正してご活用下さい。

 

WildLight Ver. 1.05 をリリース

WildLight Users Group で要望の出された機能を盛り込みました。
今回盛り込んだ特殊コマンドは、以下の4つです。

  • Superscript:ON/OFF/CLEAR (上付き文字)
  • Subscript:ON/OFF/CLEAR (下付き文字)
  • Bold:ON/OFF/CLEAR (ボールド体)
  • Italic:ON/OFF/CLEAR (イタリック体)

スイッチのON, OFF, CLEAR には以下の意味があります。

  • ON : 対象となる文字のみを検索対象とする。
    例) Superscript:ON で上付き文字のみを検索します。
  • OFF : 対象となる文字を検索対象外とする。
    例) Subscript:OFF で下付き文字は検索から除外されます。
  • CLEAR : 設定をクリアします。
    例) Italic:CLEAR でイタリック体へ指定された検索指定を解除します。

例えば、ボールドになっていないイタリック体の半角英文字を検索対象としたい場合は、以下のように辞書へ記述します。

Bold:OFF
Italic:ON
[A-Za-z]
Bold:CLEAR
Italic:CLEAR

上記の特殊コマンドの追加に加え、プルダウンメニューに「ワード設定」の項目を追加し、以下を追加しました。

  • 「オートコレクト」
  • 「オートフォーマット」
  • 「入力オートフォーマット」
  • 「ショートカットキー」

これらの機能へメニューから直接アクセスできます。

バグレポートありましたら、ご連絡をお願い致します。

単純なチェック辞書の作り方

WildLight で用語や単語を蛍光ペン付けしたい…という単純な使い方をする場合、辞書ファイルはとても簡単に作成できます。

テキストファイルを新規作成し、蛍光ペン付けしたい文字列を入れていけばいいのです。

<

p style=”padding-left:30px;”>例)
見れ
食べれ

(ら抜き言葉に蛍光ペンを付ける)

この使い方が一番単純でありながら、用途が多いのではないかと思います。ワイルドカードって何?って方でも、この方法でチェックしたい単語や用語をそのまま登録してしまえばいいのです。

WildLight の辞書の作り方がよく分からないという方は、この方法からスタートしてみましょう。

※Windowsであれば「メモ帳」を使えば作成できます。

赤文字のみ文字カウントする

クライアントからの翻訳指示で、部分翻訳の場合、様々な方法で翻訳対象を指示してきます。フォント色を変える事もその手段のひとつで、「赤字だけを翻訳して下さい」といった指示がされます。

そんな時、見積もりを出すための文字カウントが必要になりますが、普通なら、対象外箇所を削除してカウントするなどの手間を掛けざるを得ません。

WildLightの場合、「CountFontColor」コマンドを使えば、特定色の文字だけの文字カウントができます。赤字だけをカウントする場合、以下の1文を記述した辞書を準備することで、赤字部の文字カウントが行えます。

CountFontColor:Red

この辞書を実行すると、赤文字部の文字カウント情報を出力した新規文書が作成されます。

出力例

【Red色文字のカウント】
単語数:37
文字数(スペースを含めない):82
文字数(スペースを含める):92
全角文字+半角カタカナの数:24

[注]図形やテキストボックス内はカウントされません。

青文字をカウントしたければ、「Blue」を指定すればいい事になります。

蛍光ペン部の文字カウントをする

クライアントからの翻訳指示で、部分翻訳の場合、様々な方法で翻訳対象を指示してきます。蛍光ペンもその手段のひとつで、「蛍光ペンの付いているところだけを翻訳して下さい」といった指示がされます。

そんな時、見積もりを出すための文字カウントが必要になりますが、普通なら、対象外箇所を削除してカウントするなどの手間を掛けざるを得ません。

WildLightの場合、以下の1文を記述した辞書を準備することで、蛍光部の文字カウントが行えます。

CountH

この辞書を実行すると、蛍光ペン部の文字カウント情報を出力した新規文書が作成されます。

出力例

【蛍光ペン部のカウント】
単語数:36
文字数(スペースを含めない):75
文字数(スペースを含める):85
全角文字+半角カタカナの数:24

[注]図形やテキストボックス内はカウントされません。