2019年5月7日火曜日

OLD REVIEWS用に、「OCR」アプリを本格的に使い始めよう

昨日「発見」したOCRアプリの使い勝手をためした。

4月24日に途中までやっておいた、谷崎源氏の多分初版本の訳者序文の残り6ページほどをデジタル化してみた。結果は上々、つまり今までは校正特に、旧字の入力にかかっていた時間が大幅に短縮された。2時間以上かかり、途中で休憩もしていたのが、1時間連続でできた。ストレスも軽減できたのだろう。



改めて、校正をしてみた感想、
(1)「OCR」は旧字の認識率が良い。おかげで、校正時の文字変換そのものが殆ど不要になった。
(2)旧仮名の「ゐ」を認識してくれるので、これも校正時の作業効率を上げてくれる。

***
OLD REVIEWSの記事作成手順は次の通り。

(1)対象記事を、主に国会図書館デジタルコレクションで探す。ここはMac上のブラウザでやるほうが効率が良い。

(2)記事にするページを、画像化する。今回はiPadのアプリ「帝國圖書館」で拡大表示してスナップショットを撮る。複数ページになることが多い。「写真」アプリで、スクリーンショット中の日付時刻など余分な情報をカットする。

(3)iPadのアプリ「OCR」でスナップショットを文字化する。

(4)文字化されたものを「メモ」に貼り付ける。

(5)MacにiCloudで「自動転送」された「メモ」を開き、「テキストエディット」に記事をコピー後、「半角スペース」を一括消去する。

(6)Webアプリ「Writer」に記事をコピー。(エディターなら何でもいいが、私はWriterが好み。)

(7)国会図書館デジタルコレクションの元画像を参照しながら、記事を校正する。

(8)校正が一旦終わったら「校閲君」のWebページを利用して、旧字に関して校正結果の確認をする。必要に応じて「Writer」上で修正。なるべく元の版面の字を尊重する。

(9)ブログ記事に仕立てる。

***
この手順でいうと、(7)に最も時間がかかっていたが、そこが手早くできるようになった。

***
OCRソフトの内部構造にも興味が出てきた。文字認識に関する学習機能が付けばいいと思ったからで、そんなソフトを今後も探していきたい。「OCR」アプリをもっと使いこなす工夫はもちろんやっていく。

0 件のコメント: