GlossaryMatch Ver. 0.14

個人的な話ですが、最近、ローカルLLM(生成AI)を利用するようになり、生成AIの翻訳力評価を行っているのですが、それなりに使えるレベルになっていることを確認したので、これを翻訳のツールに活用しない手はないと考えました。

GlossaryMatch の開発は、WildLight開発に移行したことで終了し、今後アップデートしないことにしていましたが、ローカルLLMを操作できるようにすることで、例えば自動翻訳に利用するなど、使用範囲が広がります。

今回、GlossaryMatchを以下の2つのアプリケーションに対応させ、
関数 AskAI(Prompt1, [Prompt2]) を追加しました。

これらをサーバーモードで動作させている環境において、上記関数が利用できます。
どう使うかは、アイデアとプロンプト次第です。

使用するPCのパフォーマンスや利用するモデルによって、処理速度が変わりますが、実用域にあるかどうかは実際に使ってみて、評価してください。

複数定義ファイル(辞書)の一括処理 [wprjファイル]

複数の定義ファイル(辞書ファイル)を一括で適用する方法はないかという問合せをいただきました。

以下のページで紹介しているプロジェクトファイル(.wprj)を使うことで、実現できます。
https://wildlight.blog/2017/05/05/wildlight-ver-250/

WildLightセミナーでも説明したことがなく、当ブログでも上記ページしか説明がありませんので、認識している方が少ないかもしれません。

  1. まず、テキストファイルを作成してください。適当なファイル名をつけてください。
    例)日本語チェック.txt
  2. テキストファイルには、一度に実行したい定義ファイル(辞書ファイル)を実行したい順番に入力してください。以下の例のように記述します。

    例)
    WL_変換_カタカナ全角半角変換.txt
    WL_変換_英数全角半角変換.txt
    WL_JCHK_日本語校正.txt
  3. テキストファイルを保存し、拡張子を「.wprj」に変更します。
    例)日本語チェック.wprj
  4. WildLightにて「定義ファイルの実行」ボタンを押した際、作成したwprjファイルを指定すると、プロジェクトファイルに記述された定義ファイルを順に実行します。

WildLightプロジェクトファイルは、単なるテキストファイルです。拡張子は「wprj」です。
行の先頭が「’」で始まる行は無視されます。(WildLightの定義ファイルと同じ仕様)

ご存じのとおり、WildLightは翻訳チェックを目的とした文字列の色付けが行えますが、そういった用途以外に、翻訳コーディネータが多用する変換/置換作業などにも利用できるよう設計しています。

私の実使用例でいえば、イメージPDFからテキスト原稿の作成作業があります。
翻訳原稿がイメージPDFだった場合、PDFをOCRした後、さまざまなゴミ除去や修正処理を行って、翻訳に使用できるテキスト原稿に仕上げますが、それらの処理、例えば、「不要な改行修正」「誤読文字の修正」「行折れ修正」などを、それぞれ定義ファイルを作成して定義しています。実務では、これらの複数の修正作業を一括処理する必要がありますが、上記のようにプロジェクトファイルへ登録して、一括処理するといった使い方をしていました。

消えない半角スペース

久しぶりにWildLight用辞書ファイルへのワイルドカードの記述方法について問合せをいただきましたので、記事にしたいと思います。

問合せいただいたトラブルは、「改行前の半角スペースを検索し削除しても、消えないスペースがある」というものでした。

この原因は、消えなかったスペースが「改行をしないスペース」だったからです。ワードの「検索と置換」窓を開き、「特殊文字」ボタンを押してプルダウンメニューを表示すると、そこに「改行をしないスペース」があると思います。これが犯人です。

「改行をしないスペース」を選択すると「^s」が「検索する文字列」の欄に入力されるはずですが、この「^s」が検索するための文字列になります。

以下は、問合せいただいた「改行前の半角スペース(と、改行をしないスペース)を検索し、削除する」ためのWildLight用辞書ファイルの記述例です。

WILDCARD:ON
[ ^s]{1,}^13
DeleteH

この記述にある [ ^s] の角括弧の中は、半角スペースと ^s です。
「半角スペース」もしくは「改行をしないスペース」のいずれか、という意味になります。

ChotTTS (音声読上げ)

10月27日のJTF翻訳祭にて翻訳チェックに関する講演をしましたが、その際に「ホモグラフエラー」や「タイポグリセミア」は、音声読み上げソフトウェアに音読させると検出可能であるというお話しをしました。

そういう認識をお持ちの方は、既に有償ソフトウェア(例えば、JustSystemの詠太など)を利用されていると思います。ちょっと試してみたいと考えた方が気軽に使えるフリーウェアがあると良いなぁ…ということで、作ってみました。といっても、私が本業で必要となり(でもお金はかけらないので)仕方なく自作したスクリプトを、今回、公開できるように形を整えただけの代物です(笑)ので、あまり期待しないでください。

「ChotTTS」という名称で公開いたします。(ちょっと試せる Text To Speech)

ダウンロードは、WildLightライブラリからしてください。
https://app.box.com/v/WildLight
ファイル名: ChotTTS.zip

【概要】

  • ChotTTS は、クリップボードにコピーされたテキストを音読します。
  • 日本語で発話しますが、2バイト文字の含まない文は、英語で発話します。
    (つまり、英文は英語で音読されます)
  • Microsoft Speech APIで発話を実現しているため、(ご存じのとおり)日本語の読みがデタラメなときがあり、気になります。それをカバーするため、読み辞書を登録/編集できるようにしています。
  • ただしイントネーションなどはまったく変えられません。

【インストール方法】

  1. ChotTTS.zip を解凍すると、以下の2つのファイルができます。
    ・ChotTTS.exe (ソフトウェア本体)
    ・ChotTTS_ReadMe.txt (簡単な説明書)
  2. ChotTTS.exe を任意のフォルダにコピーしてください。

【起動方法】

  1. ChotTTS.exe をダブルクリックして起動してください。
  2. 起動すると、タスクバーにアイコンが表示されます。(メモリに常駐します)

    PC起動時に自動的に起動したい場合は、1) Win + R キーを押して「ファイル名を指定して実行」画面を出し、「名前」に「shell:startup」と入力して「OK」を押すとスタートアップフォルダが開きます。 2) スタートアップフォルダに「ChotTTS.exe」本体もしくはショートカットをコピーしてください。

【使い方】

  1. タスクバーのChotTTSアイコンを右クリックするとメニューが現れます。
  2. クリップボードを読み上げる:クリップボードの監視を開始し、新たなテキスト文字列がコピーされると読み上げます。
  3. 読み上げを終了:読み上げを終了します。
  4. 読み辞書登録:文字列とその読みを辞書に登録できます。読みは「カタカナ」もしくは「ひらなが」で入力してください。(日本語の読み上げにのみ適用されます)
    なお、正規表現を利用できます。
    正規表現は、以下のURLを参照してください。(AutoHotKeyの正規表現)
    https://www.autohotkey.com/docs/v1/misc/RegEx-QuickRef.htm
  5. 読み辞書編集:メモ帳が起動し、登録した読み辞書を編集できます。
    辞書形式は、TAB区切りです。「用語<TAB>ヨミ」という形式です。

【その他】
開発言語は AutoHotKey です。ゆえに、時々ウイルス検出ソフトにウイルス認定されて使えないことがあります(そういう声が既に聞こえています)。使えなかったら、素直に諦めてくださいm(_ _)m
プログラムを知っている方なら簡単に作れる類いのソフトウェアです。VBAなどでも実現可能です。事実、私は本業のOutlookにVBAで組み込み、自分宛のメールを音読させています。(作業をしていても、すぐにメールに認識でき、かつ、耳でメールが確認できるので重宝しています。)

AutoHotKey で省入力/キーアサイメント変更などやってみよう

以下の別記事の内容を実行された方は、既にAutoHotKeyが使える状態にあると思います。

  1. AutoHotKeyをインストールする
  2. AutoHotKeyを使う準備をする
  3. AHKスクリプトを作ったら、おまじないを追加する

この記事では、比較的ハードルの低い「Hotstrings」の機能を使った文字入力の省力化を、まずはご紹介します。その後で、キーのアサイメントの変更方法をご紹介したいと思います。

“AutoHotKey で省入力/キーアサイメント変更などやってみよう”の続きを読む

AHKスクリプトを作ったら、おまじないを追加する

AutoHotKeyを使う準備をする」の記事にしたがってAutoHotKeyのスクリプトファイルを作成すると、ファイルの中身は以下のような記述になっていると思います。

“AHKスクリプトを作ったら、おまじないを追加する”の続きを読む

AutoHotKeyを使う準備をする

AutoHotKeyをインストールする」の記事にしたがって、AutoHotKeyのインストールが終わったら、AutoHotKeyを実際に使うための準備をします。

具体的には、AutoHotKeyのスクリプトファイルを作成し、編集できるようにする手順を以下に示します。

“AutoHotKeyを使う準備をする”の続きを読む

AutoHotKeyをインストールする

AutoHotKey にはさまざまな機能がありますが、翻訳者にとって嬉しいのは、キー入力をいろいろと便利にしてくれる機能でしょう。そのため、このツールを利用している翻訳者は多いようです。

過去記事を見渡してみましたが、AutoHotKeyのインストール方法を記事にしていないようなので、こちらにインストール方法をまとめておきます。

“AutoHotKeyをインストールする”の続きを読む

1/23日WildLight初級オンラインセミナー開催

Twitterで先行して公開いたしましたが、WildLight初級セミナーをオンラインにて開催いたします。

コロナ影響もあり、集合セミナーを開催できずにおりましたが、今後はZoomを使ったオンラインセミナーに切換えて開催していきます。

日時:2021年1月23日(土) 13:00開始 (最長で2時間)
申込み方法: 次のURLにあるPassMarket から申し込んでください。

https://passmarket.yahoo.co.jp/event/show/detail/014ezc11fcm0t.html

参加費:無料。ただし、今回はWildLightの精神に則り、カンパ式セミナーとします。
セミナー後、セミナー内容が有益だった、価値があったと評価していただけるようでしたら、カンパをお願いいたします。(強要するものではございません)

【ご注意】

  • ZOOM接続URLなどは、参加登録された方へ別途ご案内いたします。
  • ZOOMへの接続について、主催者側は一切のサポートを行いません。参加される方は事前に接続方法を確認し、実績のある機器で接続するようにお願いいたします。
  • WildLightのインストール方法をセミナー内でご説明する予定ですが、インストールのサポートはセミナー内で行いませんので、御了承ください。

内容
予定している内容は、次のとおりです。

  1. WildLight開発の背景
  2. WildLightの基本機能
  3. 提供辞書の使い方 (WildLight-Dic-Library)
  4. 簡単な辞書ファイルの作成
  5. 翻訳への応用方法

【ワイルドカード】英単語を検索する上でのお約束技

英単語を検索する場合のお約束技です。
次のように記述します。(英数字とハイフンからなる単語が検索される)

<[0-9a-zA-Z\-]@>

これを基本形にして、ing形を検索したいなど、単語の接尾辞を指定して検索する場合は、以下のように記述します。

<[0-9a-zA-Z\-]@ing>

はい、そうです。@の後に(>の前に)ingを付ければOKです。
sやed、er、ableなどを付けて検索するなど、さまざまな活用が想像できますね。

では、単語の接頭辞を付けて検索する場合は、どう記述するでしょうか?
例えば、unを頭に持つ単語を検索する場合は、以下のように記述します。

<un[0-9a-zA-Z\-]@>

はい、そうです。<の後にunを付ければOKです。

いずれも<の後、>の前に挿入すると覚えると覚えやすいです。