« カルメンとアボリジニ | トップページ | 買っちまった… »

2006-04-10

ユーザー辞書の作り方

 今週からの新しい仕事に備えて、ユーザー辞書を作った。自分への備忘録も兼ねて、ここにやり方を記しておく。
 辞書ブラウザにはいろいろあるが、私の場合は、ウィンドウズ及びMac両方でソフトを作っているのに惹かれて使い出した、Jammingである。串刺し検索(複数の辞書で同時に検索)もでき、市販の辞書(電子辞書&CD)に対応している。
 Jammingのホームページ
 
 1.辞書を作る。最近は、辞書もいっぱい出回っているので、つまりは辞書に載っていない単語、専門用語、新出用語になる。ということは、必然的に簡単なものになるということ。英語の単語、それの意味(日本語)で十分。和英が必要なら、ひらがなで読み方を書いておく。また必要に応じて、備考があってもよい。

 ファイルは、後で加工しやすいように、エクセルで作る。特にアルファベット順に並べる必要はなく、ランダムでよい。ここでは、A列に英単語、B列に日本語にする。

 2.辞書を加工する。以下は、Jammingの仕様に従う。Jammingのユーザ辞書では、見出し語に■をつける。
   エクセルで一斉に単語の頭に■をつけるには、ある列(ここではD列)の一番上(セルD1)に関数「="■"&A1」を入れる。すると、単語の頭に■がつく。そのまま関数を下方コピーすると、全ての単語に■がつく。

 必要なのは、見出しに■のついた英単語と、日本語訳なので、別のシートに、D列とB列をコピーする。このとき、そのままコピー&ペーストしたら「参照できませんエラー」がでるので、「値だけコピー」する。

 3.CSVへ出力する。エクセルのデータは、そのままでは使えないので、CSVで保存する。これは、データとデータの間を、カンマで区切って、一行ごとに出力してくれる形式である。
 ■snare,スネア,
 ■○○,○○,

4.改行を入れる。Jammingのユーザ辞書形式では、改行を入れて、縦に並べなければならない。そこで、このCSVで保存したファイルを、テキストエディタ(私は、秀丸を使っています)で開き、カンマを全て改行コードで置換してやる。改行も実は、コンピュータ用語では文字があり、正規表現で\nで表される。そこで、正規表現を使った全置換で、カンマ(、)を改行(\n)で置き換えてやると、スクロールをしながらものすごい早さでばーーーと置き換えてくれ、数秒間はなんだかパソコンを使っているぞ~という気持ちにさせてくれる。
 できあがると
 ■snare
 スネア
 ■○○
 ○○
 と置き換わる。

 4.インデックスを作る。辞書で使うためには、インデックスを作ってやらなけばならない。これには、JamminDicTools というソフトが配布されているので、これの「見出し語からインデックスを作る」を利用すれば、
 ■snare
 △snare▽
スネア
 などなどと、置き換えてくれる。データの作業フォルダの作り方に気をつければ、一瞬でできる。
 注)いつも悩むので追記。フォルダ内にDATAフォルダを作る。そこにさっき作ったファイルを入れるが、フォルダ指定は、DATAフォルダの一つ上の階層を指定する。さっき作ったファイルは書き換えられるので、バックアップを取る。

 5.辞書ブラウザJamming本体に辞書を認識させる(辞書の追加と削除)と、OK。
  

|

« カルメンとアボリジニ | トップページ | 買っちまった… »

コメント

あかんわあ。。。

 一斉に同じルールで書き換えるってのがコンピュータの一番得意とするところなんだろうけど、その方法がわからずに放置してしまっているもののいかに多いことか。でも、全置換なんてのを良く使うので、頭の中はきっとそういう発想で動いているんだけど、それをコンピュータにやらせるとなると、てんでダメ。

 きっとこれは、他国言語を操る脳と一緒なんだな。
 どのように置き換えすればいいかわかるんだけど、その方法について、うまく覚えられない。

 こういう状況というか、こういう機能的な脳の問題が個性として現れて来ることだって、わかる?

 いえ、けっして、外国語ができないことの言い訳に使おうとしているのではなく。。。orz

投稿: kajipa | 2006-04-10 22:59

あれ?改行記号のnの前にあるのは日本円のマークなんですが、なぜかスラッシュになっている…。なんで?

 カジパさん、前に、ニフティのFLORDで聖書の切り出しツールみたいなものがあったのです。JBIBLEというソフトなんだけど、文頭の番号(だっけか?)を、何書何章何節に置き換えるソフト。どんなソフトを使ったかよく覚えてないけど、多分最終工程で全部置き換えてくれて、その様子を見て非常に興奮しました。コンピュータ駆使しているって感じで(爆)
 そのときに、論理だけはなんとなく分かった…。そっちの方が今回よりもっと複雑。

 私としては、パソコンを駆使しているカジパさんの方が得意そうに見えるけど…

投稿: めぐ | 2006-04-11 01:15

えっと、円マークは、シフトJISの文字で表示されます。

ここのブログはおそらくUTF-8に自動で変更されているはずですので、
UTF-8では、円マークがバックスラッシュとして表示されるためです。

えのくのパソコンは、EUCの文字コードなので、おのずとしてバックスラッシュで使用しておりますです(^^;

投稿: えのく | 2006-04-13 21:36

あ~~!、えのくさん、お久しぶり!

 そうなんだ~。エンコードの種類によって字が表示されないのね。

 そういえば、昔のMacの聖書切り出しツールの、一行なんとかっていうソフトの使い方教えてもらったのえのくさんだったような気がする…

 時は過ぎて、お互いWINを使うようになりましたなぁ……しみじみ

投稿: めぐ | 2006-04-15 00:20

一行なんとかって記憶がありません(笑)
聖書の切り出しスクリプトをハイパーカードで書いた記憶はあります。
サブデータを無理矢理作ってもらって(爆笑)

時はすぎて、Perlを使いこなしてCGIを作っています(^^;
ちなみに、えのくのメインのパソコンは、Linuxなんですが(^^;

投稿: えのく | 2006-04-16 23:21

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/21295/9509901

この記事へのトラックバック一覧です: ユーザー辞書の作り方:

« カルメンとアボリジニ | トップページ | 買っちまった… »