>>ブログトップへ

2012年9月

9月 30 2012

OCRについて

OCRとはOptical Character Readerの略で文字をパソコン上で認識できるようにすることを言います。

OCR処理されていないPDFでは全体的に画像としてしか認識されておらず文字もただの図形や模様です。人間の目で文字として認識しているだけであってパソコンにとってはただの画像です。そこでOCR処理をすることによりパソコン上でも文字として扱えるようになり文字の検索はコピー&ペーストができるようになります。

弊社ではこのOCRはオプションではなく通常処理になっています。

しかし、そのOCR処理も残念ながらすべての文字を正しく認識できません。対象の本にもよるのですが、弊社では平均95%の認識率です。バックが黒で文字が白やバックに絵が入っているなどするとほとんど認識いたしません。また、振り仮名や傍線が引かれている文字や表内の文字も認識率が劣ります。

あと、文字数が膨大になる辞書などの検索は検索に時間がかかりすぎ全くもって実用的ではございませんのでご注意ください。

(辞書などを検索に使いたい場合はあらかじめ検索文字をインデックスしたソフトの使用をお勧めいたします。)

0コメント

9月 07 2012

Gメール未着の件につきまして

8月中旬よりGoogleのGメールにおきまして弊社からのご案内メールが「迷惑メール」フォルダに入ってしまうというトラブルが起こっておりました。何よりお客様にご迷惑をおかけいたしましたことをお詫び申し上げます。9月7日現在、ほぼ解消したような感じがいたしますが、もし、ご案内のメールが届かない場合は「迷惑メール」フォルダをご確認していただけますよう、よろしくお願いいたします。
弊社からのメールは「受注確認メール」「お支払い完了メール」「書籍受領確認メール」「作業完了のお知らせ」の4件は必ず送付させていただいております。
以上、よろしくお願いいたします。
総責任者 杉山謙

0コメント