SFAオープンスクールの質問から

昨日、2月28日(土)はサン・フレアアカデミーのオープンスクールでした。

クラスの中でWildLightの使い方に関する質問がありました。これは他の皆さんも利用できる情報ですので、ここにシェアしておきます。

1. 蛍光ペンのついた文字列をワードやエクセルへ抜き出せるか?

WildLight特殊コマンドの「ExtractH2Word」もしくは「ExtractH2Excel」を使います。

例)
ExtractH2Excel

いずれかのコマンドを1行記述した辞書ファイルを準備し、蛍光ペンされたテキストを抜き出したいワード文書へ適用すれば、抜き出せます。

この例を記述した辞書を「WLDIC_抽出_蛍光ペン部をExcelへ抜く.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。

2. PDFファイルからワードにしたものを整形するには、どうしたらいいか?

 この質問については明確な回答ができませんでした。PDFからワードファイルを起こした場合、使用したアプリケーションや原稿PDFの中身によって、出る症状が違うからです。

  • 私の経験した症状として、以下のようなものがあります。
    1. 全角文字間に全半角スペースが紛れ込んでいる。
    2. 全半角数字の後ろに複数の半角スペースが入っている。
    3. 半角英数字間のスペースに全角スペースが入っている。
    4. 文頭に不要なスペースが入っている。

これらへの対処として、以下のような処理を行っています。

' 全角英文字カタカナ漢字の間に挟まった全半角スペースを除去する
 
 ([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])[  ]{1,}([a-zA-Zァ-ヾ一-鶴ぁ-ゞ])     \1\2
' 全半角数字の後のスペースを半角スペース1つにする

 ([0-90-9])[  ]{2,}     \1
' 半角英数字間のスペースを半角スペース1つにする

 ([\!-~])[  ]{1,}([\!-~])     \1 \2
' 文頭の不要なスペースを削除する

 ^13[  ]{1,}     ^p

上記4例とも、[ ]の中は全角スペース1つと半角スペース1つが入っています。
また、セパレーターはTABです。
これらが記述された辞書は、「WLDIC_編集_日本語:PDF抽出文書の成形.txt」として提供しています。

3. エクセルやパワーポイントファイルからテキスト抽出するには、どうしたらいいか?

Microsoft Office Personal以外(Excel, PowerPointが入っているもの)をお使いの方は、WildLight Users Group でのみ配布されている Full バージョンを使えば、エクセルやパワーポイントからテキスト抽出する機能を利用できます。

4. 全角文字の間にまぎれた半角スペースを除去する方法は?

全角文字の間に半角スペースが入っているケースは、PDFファイルからワードへ変換した時に良く見かけるので、質問2への対処の1つとしても有効だと思います。

全角文字をワイルドカードで表現すると以下のようになります。

 、-鶴

そして、全角文字に挟まれる半角スペースを検出して削除するには、辞書に次のように記述します。

 ([、-鶴])[ ]([、-鶴])                  \1\2

[ ]の間には半角スペースを入れます。
([、-鶴]) ([、-鶴])と\1\2の間はセパレーターのTABです。

この辞書を「WLDIC_変換_全角文字間の半角スペースを除去.txt」として作成しておきました。ライブラリーからダウンロードしてご利用下さい。

広告

日本語原稿から簡易的に用語を抜く

昨年11月12日に行った翻訳勉強会「十人十色」のワイルドカードセミナーでちょっとお見せした「用語抜き」ですが、1月11日のWildLightセミナーで紹介したら、同様に関心を示して頂けましたので、その考え方をブログ記事にしておきます。

用語集は、顧客が使用する単語を正しく訳文へ適用し、文書内での揺れを無くす上で不可欠な物です。しかし、用語集を作成し管理している顧客や、それを提供してくれる顧客は非常に限られているのが現状です。

ここで説明する方法は、完璧ではないにしろ、翻訳品質管理上、用語集にして翻訳者へ事前提供した方が良い「用語の候補」を、日本語原稿から自動で抜き出す事を目的としています。

では、どうやって用語と思われるものを判断させるか?

実際に日本語原稿を眺め、用語として抜き出した方がいいものを探してみて欲しいのですが、そこから何と無く見えてくるものがあります。

それは…
用語となるものの多くは「漢字とカタカナの塊」であると言う事です。

つまり、漢字とカタカナの塊を抜き出してやると、用語集に必要な用語と思わしきものが抜き出せる事になります。

まず、「漢字とカタカナの塊」を検索して蛍光ペン付けする方法を考えてみましょう。それぞれを検索するワイルドカード文字列は以下の通りです。

漢字は、[一-鶴]
全角カタカナは、[ァ-ヾ]

これを1行で表すと、[ァ-ヾ一-鶴]となります。これをWildLight用辞書に記述する事で、漢字とカタカナの塊に蛍光ペンが付くことになります。あとは、蛍光ペンが付いたところをワードやエクセルへ抜き出してやれば良いわけですが、そのための特殊コマンドが以下のものです。

ExtractH2Word : 蛍光ペン部をワードへ抜く
ExtractH2Excel : 蛍光ペン部をエクセルへ抜く

エクセルへ抜く場合の記述例)

[ァ-ヾ一-鶴]
ExtractH2Excel

ExtractH2WordとExtractH2Excelでは、ユニークな文字列(用語と思わしきもの)だけが抽出され、文字数の大きい順に出力されます。(重複したものは削除される)
また、エクセルへの出力の場合、文書内での登場頻度の情報も付加して出力されます。

抜き出された用語らしきものは、当然、ひとつづつ精査して、本当に必要なものだけを用語として残す作業が必要です。

そもそも、この作業は完璧を全く求めていません。30%の完成度でも無いよりマシである…というところが発想の原点になっています。この考え方はツールを使う上でとても大切だと私は考えています。

TIPS:他の方法
例えば、文書名や文献、規程、規約、法律などの固有名詞は、良く括弧付きで記載されている場合が多いです。つまり、「」『』で括られた文字列は、用語集に必要な用語である場合が多いです。

同様にワイルドカードで記述して蛍光ペン付けを行えば、用語として抜く事ができます。
ちょっと雑ですが、

[『]{1}(*)[』]{1}(tab)¥1
[「]{1}(*)[」]{1}(tab)¥1
ExtractH2Excel

こんな感じになるでしょうか?

これらの処理を行う辞書は、WildLight Library に登録されていますので、ご活用下さい。

WLDIC_抽出和文から用語集候補をWordへ抜く.txt
WLDIC
抽出_和文から用語集候補をExcelへ抜く.txt

抜き出す対象を色々変えて、自分の意図に合う辞書に作り変えてみて下さい。