2019年3月2日土曜日

OLD REVIEWSへの通は遠い^^;

 昨日のブログを専門家に見てもらった。もらったアドバイスは、「旧字体での校正は非常に大変なので策を考えろ…」というもの。OCRで旧字体は認識しないことが多い、その字を手入力するときに変換候補がなかなか見つからないのだそうだ。

***
 やってみなければ、大変さそのものがわからない。が、ともかくやってみるということすら、まだできない。なにか参考資料はないかとググってみたら、適当と思われるモノが見つかった。次のpdfファイル。

コンピュータによる旧字旧かな文書作成入門


 100ページ位あって少しひるんだが、「いだてん」の再放送を見ながら目を通したら、なんとかポイントはつかめた。ともかく、

Google日本語入力用正字正かな辭書

を入れれば前に進めそうだ。無料だ。作った方(野嵜健秀(Takehide Nozaki)さん)に感謝しながら入れてみた。舊字體が変換候補に出てくる。

***

 昨日OCRした原稿を校正してみた。わりと上手く行った。二つ引っかかった。「通」の点は一つか二つか問題。そして「ゐ」はどうやって入れるのか。

 後者はwyiと入力することを思い出した。50音図を眺めれば思いつく。「通」の件は、かなりググってみたが、まだ良くわからない。次の文書

(「表外漢字(1022字)について、その印刷標準字体を示すもの 文部科学省」)

を見ると、どちらでもいいあるいは点一つでいいらしい。でも、まだ確信がもてない。もっと調べる。

***
 上の問題でいろいろなページを見ていたら、なつかしい青空文庫のページがヒットした。

「旧字ファイルに紛れ込んだ新字や俗字を、拾い出すツール『校閲君』」を使ってみようというページ。

 OCR原稿を校正した後、『校閲君』のオンラインサイトでチェックしてもらえる。早速やってみた。幸い(?)、今回のものにはミスは発見されなかった。「通」もこのままで良いとしてくれた。つまり原稿中の「通讀」という単語はパスした。国会図書館デジタルでの原文では点は二つなのだが?

 青空文庫さんのように、同じ作品を旧字と新字両方発行しているというのは大変な作業だろうと思う。頭が下がる。

***
 機種依存文字というものがあるらしい。これをどうするかも問題だ。が、今日は疲れたのでここまで。明日また検討しよう。

***
 今日見つけた、OLD REVIEWS掲載作品候補。

 はやく、こういうものをバリバリOLD REVIEWSに掲載したいものだ。

***
 これからは練習の爲、ブログも舊字體で書いてみるか。讀めないなど問題を發見なさった方は當方へご聯絡ください。

0 件のコメント: