Mozc UT Dictionary

Additional Japanese dictionary for Mozc.
It will add over 350,000 words.

I modified these dictionaries.
My big thanks go to the authors/maintainers.

■ Dictionaries enabled by default

+ alt-cannadic
+ Japanese names (I wrote it)
+ hatena keywords
+ SKK-JISYO.L
+ EDICT
+ station names

+ katakana-English dictionary generated from EDICT
e.g.
いんたーねっと ⇨ Internet

　If you don't want to use it, run
　$ /usr/lib/mozc/mozc_tool --mode=config_dialog
　and uncheck "Katakana to English conversion" in "Dictionary" tab.

+ zip code dictionary and place names generated from Japan Post's zip code
e.g.
920-2368 ⇨ 石川県白山市出合町
はくさんしで ⇨ 白山市出合町 will be suggested.

　If you need the latest zip code and place names,
　apply the mozcdic-ut patch to the official Mozc.
　⇨ See "Advanced".
　It will download the latest Japan Post's zip code file.

■ Dictionaries disabled by default (See also "Advanced")

+ English-Japanese dictionary generated from Japanese WordNet
e.g.
Press Caps Lock and type "dolphin" and Tab.

If you need a human readable dictionary, check this page.
http://www.geocities.jp/ep3797/wordnet-ejdic_01.html

+ niconico daihyakka IME dictionary

License:
altcanna, jinmei, skk: GPL
hatena: unknown
EDICT: Creative Commons Attribution-ShareAlike Licence (V3.0)
ekimei: redistributable
zip code: public domain
Japanese WordNet: http://nlpwww.nict.go.jp/wn-ja/license.txt
niconico: unknown
ruby/shell scripts: GPL

I think we can redistribute hatena's yomigana-hyouki pairs,
but I can't believe we can redistribute niconico's pairs.
If you want to make redistributable mozc-ut,
keep #NICODIC="true" in generate-mozc-ut.sh.

Install:
See mozc's official "LinuxBuildInstructions".

If you are using Arch Linux (tested on Antergos Linux),
you can make and install packages as follows:
$ mkdir mozc-tmp
$ mv mozc-ut-2.16.2014.102.20150114.7z mozc-tmp/
$ cd mozc-tmp/
$ 7z x mozc-ut-2.16.2014.102.20150114.7z
$ cp mozc-ut-2.16.2014.102.20150114/PKGBUILD .
$ makepkg -f
$ makepkg -i

Advanced: Generate your mozc-ut
Arch Linux users must change the symlink for python.
$ cd /usr/bin/
$ sudo rm python
$ sudo ln -s python2 python

1. Get official mozc source files.
$ mkdir mozc-tmp
$ mv mozcdic-ut-20150114.tar.bz2 mozc-tmp/
$ cd mozc-tmp/
$ tar jxf mozcdic-ut-20150114.tar.bz2
$ cd mozcdic-ut-20150114
$ ./get-official-mozc.sh
$ mv mozc-2.16.2014.102.tar.bz2 ..

2. Select optional dictionaries.
Open "generate-mozc-ut.sh".

If you want to use an English-Japanese dictionary,
uncomment the following line.
#EJDIC="true"

If you want to use a niconico dictionary,
uncomment the following line.
#NICODIC="true"

3. Generate a mozc-ut dictionary.
You need ruby > 1.9.
$ ./generate-mozc-ut.sh
Wait for a few minutes.

4. Install mozc-ut.
$ cd ../mozc-ut-2.16.2014.102.20150114/
Build mozc-ut.


Mozc UT辞書

■ 内容
Mozc用の追加辞書です。
バージョンにもよりますが35万語以上追加します。

■ 収録基準
単語のヒット数を検索し、一定数以上ヒットしたものを収録しています。
ヒット数以外にも各種の条件を設定して、
収録単語を増やしつつもなるべくMozcの変換を壊さないよう気をつけています。

人名はなるべく多く収録するため基準を甘めにしていますが、
それ以外の単語は抑制的に収録しています。

■ 辞書の形式
読み　品詞　ヒット数　表記

ヒット数は「キーボード」が75万件ヒットする場合の数値。
例えば「冷蔵庫」が400万件ヒットして「キーボード」が150万件ヒットする場合、
補正して200万件にする。

得られるヒット数は時期によって差が激しいので、
「マイナーな単語を除外する」という程度の効果しかないと思います。
