ウエブにある用語集をWildLight辞書に変換してみる

インターネット上には専門分野に特化した用語集が多く公開されており、翻訳作業の中でその業界や分野で使用される用語を理解するために、良く利用されていると思います。ただ、インターネット上にあることで検索性が乏しく、PC内にある辞書と同じように簡単に検索出来たらと考えるのは、翻訳を仕事にしている人間なら当然のことでしょう。

私が良くやるのは、それらのウエブ用語集を変換してWildLight用辞書にしてしまうという方法です。一度変換しておけば、他への流用もできますからとても有益な作業なのですが、ただ、それを簡単に実現する方法がありませんよね?
私もいろいろな方法を使っていますが、1つの方法としてWildLightを使う方法です。

今回は、その方法の一例をご紹介します。

今回、題材にあげるのは統計用語集(http://software.ssri.co.jp/statweb2/gloss/glossary.html) です。この用語集を例にした理由は、通常、公開されている用語集には表形式が多く、それらはどちらかといえば変換が容易な形式ですが、この統計用語集は日本語と英語が複数行に跨いでおり、変換が難しいと思われたからです。

こういったウエブ用語集は、その作り方により、変換が可能なものとそうでないものに分かれますが、表示される画面のソースを見て判断することになります。今回は、以下のようなアプローチで変換を試みます。

  1. ソースファイルを読み解く。
  2. 変換するための作戦を決める。
  3. ワイルドカードとWildLight特殊コマンドを記述する。

1.ソースファイルを読み解く

統計用語集の「ア行」を表示し、ブラウザ上で右クリックしてソースを表示します。すると、こんな記述がみられます。

ア行

この場合、用語集として必要になるのは日本語と英語のペアですが、ソースファイルを上から下まで眺めていくと、どうも、この用語ペアは以下のような記述になっているようです。

<h3 id=”a022″>アドホック調査<br>ad hoc survey</h3>

2.変換するための作戦を決める

ソースを良く見て、すべてが以下のような構成になっているかを確認します。「<h3 id=”????”>」や「<br>」「</h3>」が他に使用されていないかもあわせて確認します。

<h3 id=”????”>検索語<br>置換語</h3>

他の読み行のソースも含めて確認し、すべてこの構成で成り立っていて、かつ、他に使用されていないことが確認できました。では、以下の作戦でやってみましょう。

  • 「<h3 」で始まるタグを用語ペアの先頭(3の後ろには半角スペースがあります)
  • 「<br>」をセパレータ
  • 「</h3>」を用語ペアの終端

これらの条件で用語ペアの検索を掛けて、対象に蛍光ペン付けし、WildLightの特殊コマンド ExtractH2Word で蛍光ペン部をワードへ抜き出します。

1回の作業で用語集ができそうな感じに見えますが、実は、<br>をタブに変換した後に特殊コマンド(ExtractH2Word)でワードへ抽出した場合、タブが消えてしまうという制限があるため、2段階で作業をする必要があります。つまり、まず、1)用語ペアを抜き、それから2)セパレータをタブへ置換する、という流れになります。

3.ワイルドカードとWildLight特殊コマンドを記述する

用語ペアの抜き出しの記述を考える前に、用語ペアを抜いた後の処理を少し意識しておきたいと思います。それは、今後もいろいろな形式の用語集を変換することになると想像され、二度目の処理としてセパレータの置換が必ず発生するわけですから、できれば毎回同じWildLight辞書で処理できるように、最初の処理である「用語ペア抜き」の結果が、いつも同じスタイルになるようにルールを決めておきたいと思います。

そのルールとは、用語ペアは「●」で囲み、セパレータは「■」とするスタイルです。

では、今回のケースでも、抜き出し結果がこのスタイルになるように用語ペアを抜いてみます。

  • 「<h3 」で始まるタグを「●」に変換
  • 「<br>」を「■」に変換
  • 「</h3>」を「●」に変換

次に、作業の流れを作ります。

  1. 蛍光ペンを付けずに、「<h3 」で始まるタグを「●」に変換
  2. 蛍光ペンを付けずに、「<br>」を「■」に変換
  3. 蛍光ペンを付けずに、「</h3>」を「●」に変換
  4. 「●」と「●」に挟まれた文字列へ蛍光ペンを付ける。
  5. 蛍光ペン部を新文書へ抽出する。

この流れにより、「●検索語■置換語●」というスタイルで用語ペアが抽出されることになります。では、具体的にワイルドカードと特殊コマンドで記述してみます。

  1. WILDCARD:ON
    まず、ワイルドカードが利用できるようにONにします。
  2. ~\<h3 *\>(tab)
    置換後の文字に蛍光ペンを付けないため、先頭に「~」を付与し、検索語「\<h3 *\>」を記述します。(「<」や「>」などのワイルドカード文字を検索語とするときは、その前に「\」を付けなくてはなりません。)
    そしてセパレータのタブを入れ、置換語の「●」を記述します。
  3. ~\<br\>(tab)
    同様に蛍光ペンなしの「~」を先頭に入れて、検索語「\<br\>」を記述し、セパレータのタブを入れて、置換語の「■」を記述します。
  4. ~\<\/h3\>(tab)
    同様に蛍光ペンなしの「~」を先頭に入れて、検索語「\<\/h3\>」を記述し、セパレータのタブを入れて、置換語の「●」を記述します。
  5. ●*●
    ●で挟まれた文字列をすべて蛍光ペン付けします。
  6. ExtractH2Word
    蛍光ペンがついた文字列をワードへ新規文書として抽出します。

これらを記述した辞書を作成し、統計用語集のア行のソースに適用してみます。
(「WLDIC_Sample_抽出_統計用語集.txt」としてWildLight Dic Library に登録しておきましたので、ご覧ください)

抽出用語ペア

上手く用語ペアが抽出できたようです。あとは、最後の料理として、「●」を消し、「■」をタブに置き換えます。そのための記述は以下のようになります。

  1. WILDCARD:ON
    ワイルドカードが利用できるようにONにします。
  2. ~●(*)●(tab)\1
    置換結果に蛍光ペンが付かないよう先頭に「~」を付与し、「●」で挟まれた文字列を検索して、「●」を除いた文字列へ置き換えます。
  3. ~■(tab)^t
    置換結果に蛍光ペンが付かないよう先頭に「~」を付与して「■」を検索し、タブ(^t)へ置換します。

これらを記述した辞書ファイルを「WLDIC_変換_●■●記述を辞書へ変換する.txt」として登録してありますので、ご利用ください。(今後、「●検索語■置換語●」スタイルで用語ペアを抽出すれば、この辞書を流用できます)

この辞書を、上記の抽出結果に適用すると、以下のようになります。

変換後

この作業を各「読み行」で実施し、変換された用語ペアを合体すれば、WildLight辞書の出来上がりです。

こんなやり方で、ウエブに公開されているいろいろな用語集を変換してみると良いと思います。

広告

蛍光ペンの文字列を抽出する

以前、サンフレアアカデミーのオープンスクールでWildLightの説明をした際に、「蛍光ペンのついた文字列をワードやエクセルへ抜き出せるか?」という質問をいただき、「SFAオープンスクールの質問から」という記事にまとめていますが、改めて別記事として公開しておきます。

ワード文書中の蛍光ペンがついたテキストを抽出できると、ちょっと便利な使い方ができますよね。

例えば、用語集用に必要な単語や表現に蛍光ペンを付けておき、最後にそれらを抽出して用語集にするといった使い方ができます。事実、サンフレアアカデミーのオープンスクールでいただいた質問の目的は、用語集作成に使用したいということでした。

まず、特別な知識なく実現できるように、辞書ファイルを準備してあります。

  1. WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt
  2. WLDIC_抽出_蛍光ペン部をWordへ抜く.txt

エクセルへ抜きたい時は1の辞書、ワードへ抜き出したい時は2の辞書を使います。目的に合わせて辞書ファイルをダウンロードし、WildLightで適用してみてください。用語集作成を目的としているなら、いきなりエクセルへテキストを抜いてしまうと便利かもしれませんね。

では、実際にやってみた映像をこちらに張り付けておきます。(これは「WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt」を適用したケースです。)

ExtractH2Excel

うっかり同じ単語を蛍光ペンしていても大丈夫です。ユニークなものだけを抽出する仕様になっています。(「あれ?これ、さっき色付けたっけ?」なんて、悩まなくて大丈夫。気にしないでどんどん蛍光ペン付けしちゃいましょう)

さて、ここからは中級者/上級者の方への説明です。
蛍光ペンのテキストを抜き出す機能は、以下のWildLightの特殊コマンドで実現できます。

  • ExtractH2Excel
  • ExtractH2Word

前者がエクセルへ抽出、後者がワードへ抽出するための特殊コマンドです。ワイルドカードとの組み合わせで、意図した文字列を抜き出すことができるようになります。例えば、全角カタカナの用語だけを抜き出したい場合は、以下のような記述をした辞書を準備すると良いでしょう。

  1. WILDCARD:ON
  2. [ァ-ヾ]
  3. ExtractH2Excel

1行目は、ワイルドカードモードをONにします。そして2行目に全角カタカナを指定するワイルドカードを記述することで、全角カタカナすべてに蛍光ペンを付けます。そして最後に、それら蛍光ペンが付いた文字列をエクセルへ抽出するために、特殊コマンド ExtractH2Excel を記述します。

2行目のワイルドカードを工夫することで、いろいろな文字列を抜き出すことが可能になります。

例えば、上記ケースでは1文字のカタカナも抽出されます。それでは都合が悪いなぁ、せめて3文字以上のカタカナだけにして欲しいなぁと考えるなら、2行目を以下の記述にすればOKです。

[ァ-ヾ]{3,}

また、もし、5文字の全角カタカナの用語だけを抽出したい!という場合は、以下のようになります。

[ァ-ヾ]{5}

ここまで読まれた方は、ExtractH2Excel, ExtractH2Word がいろいろなことに応用できそうだと感じたことでしょう。実際、WildLight Dictionary Library に登録してある「WLDIC_抽出_和文から用語集候補をExcelへ抜く.txt」では、この特殊コマンドを使って、和文から用語集候補となる単語をエクセルへ抽出しています。

上記の2行目に当たる部分に、以下の記述をしています。

  • [『](*)[』](TAB)\1
  • [「](*)[」](TAB)\1
  • [a-zA-Za-zA-Z0-90-9]{1,}[ァ-ヾ一-鶴]{1,}
  • [ァ-ヾ一-鶴]{1,}[a-zA-Za-zA-Z0-90-9]{1,}
  • [ァ-ヾ一-鶴]{1,}

まず、用語集に必要となる用語には、定訳が存在しそうなものを対象としたいですが、『』や「」内の文字列にはその対象となるものが多いので、『』「」内の文字列を抜くように蛍光ペン付けをしてやります。ただ、そのまま抜いてしまうと『』「」が残ってしまいますので、蛍光ペンを付けつつ、それらの括弧を削除してしまいます。そのための記述が1~2行目です。((TAB)はタブ記号です)

3行目は、全半角の英数字で始まり、全角カタカナと漢字でなる言葉の塊に蛍光ペンを付けます。といってもイメージできないですよね。例えば、「13G45カード基板」とか「1次入力ターミナル」といった類の文字列に蛍光ペンが付きます。

4行目は、全角カタカナと漢字の後ろに全半角の英数字が付いている文字の塊に蛍光ペンを付けます。例えば「プライマリー電源001」とか「角度ABC」といった類の文字列に蛍光ペンが付きます。

そして最後の5行目は、全角カタカナと漢字の塊に蛍光ペンが付きます。「音量スライダー」とか「スライド軸」といった言葉が対象となります。

なぜ、3段階で蛍光ペン付けをしているかといえば、[全角カタカナと漢字]の塊に先に蛍光ペンを付けてしまうと、[全角カタカナと漢字]の前後に全半角英数文字を持つ文字列の検索手段を失ってしまうからです。(蛍光ペンがついているものは検索対象から外れるというWildLightの制限があるため)
少し複雑な検索をして蛍光ペンを付ける場合は、このように、その順番にも注意が必要です。
(このあたりの話は、以前の記事「日本語原稿から簡易的に用語を抜く」にも書いてあります。)

他にもいろいろな応用ができそうですね。

是非、お役立てください。

SFAオープンスクールの質問から

昨日、2月28日(土)はサン・フレアアカデミーのオープンスクールでした。

クラスの中でWildLightの使い方に関する質問がありました。これは他の皆さんも利用できる情報ですので、ここにシェアしておきます。

1. 蛍光ペンのついた文字列をワードやエクセルへ抜き出せるか?

WildLight特殊コマンドの「ExtractH2Word」もしくは「ExtractH2Excel」を使います。

例)
ExtractH2Excel

いずれかのコマンドを1行記述した辞書ファイルを準備し、蛍光ペンされたテキストを抜き出したいワード文書へ適用すれば、抜き出せます。

この例を記述した辞書を「WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。

2. PDFファイルからワードにしたものを整形するには、どうしたらいいか?

 この質問については明確な回答ができませんでした。PDFからワードファイルを起こした場合、使用したアプリケーションや原稿PDFの中身によって、出る症状が違うからです。

  • 私の経験した症状として、以下のようなものがあります。
    1. 全角文字間に全半角スペースが紛れ込んでいる。
    2. 全半角数字の後ろに複数の半角スペースが入っている。
    3. 半角英数字間のスペースに全角スペースが入っている。
    4. 文頭に不要なスペースが入っている。

これらへの対処として、以下のような処理を行っています。

' 全角英文字カタカナ漢字の間に挟まった全半角スペースを除去する
 
 ([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])[  ]{1,}([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])     \1\2
' 全半角数字の後のスペースを半角スペース1つにする

 ([0-90-9])[  ]{2,}     \1
' 半角英数字間のスペースを半角スペース1つにする

 ([\!-~])[  ]{1,}([\!-~])     \1 \2
' 文頭の不要なスペースを削除する

 ^13[  ]{1,}     ^p

上記4例とも、[ ]の中は全角スペース1つと半角スペース1つが入っています。
また、セパレーターはTABです。
これらが記述された辞書は、「WLDIC_編集_日本語:PDF抽出文書の成形.txt」として提供しています。

3. エクセルやパワーポイントファイルからテキスト抽出するには、どうしたらいいか?

Microsoft Office Personal以外(Excel, PowerPointが入っているもの)をお使いの方は、WildLight Users Group でのみ配布されている Full バージョンを使えば、エクセルやパワーポイントからテキスト抽出する機能を利用できます。

4. 全角文字の間にまぎれた半角スペースを除去する方法は?

全角文字の間に半角スペースが入っているケースは、PDFファイルからワードへ変換した時に良く見かけるので、質問2への対処の1つとしても有効だと思います。

全角文字をワイルドカードで表現すると以下のようになります。

 、-鶴

そして、全角文字に挟まれる半角スペースを検出して削除するには、辞書に次のように記述します。

 ([、-鶴])[ ]([、-鶴])                  \1\2

[ ]の間には半角スペースを入れます。
([、-鶴]) ([、-鶴])と\1\2の間はセパレーターのTABです。

この辞書を「WLDIC_変換_全角文字間の半角スペースを除去.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。

日本語原稿から簡易的に用語を抜く

昨年11月12日に行った翻訳勉強会「十人十色」のワイルドカードセミナーでちょっとお見せした「用語抜き」ですが、1月11日のWildLightセミナーで紹介したら、同様に関心を示して頂けましたので、その考え方をブログ記事にしておきます。

用語集は、顧客が使用する単語を正しく訳文へ適用し、文書内での揺れを無くす上で不可欠な物です。しかし、用語集を作成し管理している顧客や、それを提供してくれる顧客は非常に限られているのが現状です。

ここで説明する方法は、完璧ではないにしろ、翻訳品質管理上、用語集にして翻訳者へ事前提供した方が良い「用語の候補」を、日本語原稿から自動で抜き出す事を目的としています。

では、どうやって用語と思われるものを判断させるか?

実際に日本語原稿を眺め、用語として抜き出した方がいいものを探してみて欲しいのですが、そこから何と無く見えてくるものがあります。

それは…
用語となるものの多くは「漢字とカタカナの塊」であると言う事です。

つまり、漢字とカタカナの塊を抜き出してやると、用語集に必要な用語と思わしきものが抜き出せる事になります。

まず、「漢字とカタカナの塊」を検索して蛍光ペン付けする方法を考えてみましょう。それぞれを検索するワイルドカード文字列は以下の通りです。

漢字は、[一-鶴]
全角カタカナは、[ァ-ヾ]

これを1行で表すと、[ァ-ヾ一-鶴]となります。これをWildLight用辞書に記述する事で、漢字とカタカナの塊に蛍光ペンが付くことになります。あとは、蛍光ペンが付いたところをワードやエクセルへ抜き出してやれば良いわけですが、そのための特殊コマンドが以下のものです。

ExtractH2Word : 蛍光ペン部をワードへ抜く
ExtractH2Excel : 蛍光ペン部をエクセルへ抜く

エクセルへ抜く場合の記述例)

[ァ-ヾ一-鶴]
ExtractH2Excel

ExtractH2WordとExtractH2Excelでは、ユニークな文字列(用語と思わしきもの)だけが抽出され、文字数の大きい順に出力されます。(重複したものは削除される)
また、エクセルへの出力の場合、文書内での登場頻度の情報も付加して出力されます。

抜き出された用語らしきものは、当然、ひとつづつ精査して、本当に必要なものだけを用語として残す作業が必要です。

そもそも、この作業は完璧を全く求めていません。30%の完成度でも無いよりマシである…というところが発想の原点になっています。この考え方はツールを使う上でとても大切だと私は考えています。

TIPS:他の方法
例えば、文書名や文献、規程、規約、法律などの固有名詞は、良く括弧付きで記載されている場合が多いです。つまり、「」『』で括られた文字列は、用語集に必要な用語である場合が多いです。

同様にワイルドカードで記述して蛍光ペン付けを行えば、用語として抜く事ができます。
ちょっと雑ですが、

[『]{1}(*)[』]{1}(tab)¥1
[「]{1}(*)[」]{1}(tab)¥1
ExtractH2Excel

こんな感じになるでしょうか?

これらの処理を行う辞書は、WildLight Library に登録されていますので、ご活用下さい。

WLDIC_抽出和文から用語集候補をWordへ抜く.txt
WLDIC
抽出_和文から用語集候補をExcelへ抜く.txt

抜き出す対象を色々変えて、自分の意図に合う辞書に作り変えてみて下さい。