TOEIC学習に、GoogleドライブのOCR機能を使う



仕事でテキストデータの入っていないPDFを扱うのに、簡単な方法でOCR(光学文字認識→デジタルデータへの変換)ができないかなあと調べていたら、なんとGoogleドライブでできるのですね!

Googleドライブ→設定(歯車のアイコン)→アップロード設定→「アップロードしたPDFや画像ファイルからテキストに変換」にチェックを入れることで、できるようになります。
PDFのカラムごとに切り取って画像として読み込みました。
ドキュメントとしてアップロードされ、上部に画像ファイル、その下に変換されたテキストが表示されます。
英文でしたが、かなり正確に読み取れていたので、ちょっと感動しました。

日本語での精度を検証されている方もいらっしゃいました。

無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね
http://blog.56doc.net/Entry/454/

そこで日本語と中国語、フォトショップでちょっとノイズを加えたもので試してみましたが、両方ともテキストに変換されませんでした。あれれれ?
検索してみると、同様の問題が起きている模様。一時期はできていたようですが、今は日本語の読み取りはできないようです。

英語の読み取りの活用法として。
最近私は、かさばる教材を少しずつ自炊しています。TOEICのパート3,4のスクリプトや、パート7の長文問題部分をテキストデータ化できたら便利なのになと思っていたところでした。
スキャンするときにOCRをかけると時間がすごくかかってしまいますが、画像として手早く取り込んで、必要なところだけGoogleドライブにアップロードすれば、余計な手間もかからずよさそうです。

シェアする

フォローする

スポンサーリンク