Convertire i pdf in txt (pdf2txt)

Molte volte non e’ possibile eseguire il copia/incolla di un file PDF in modo proficuo. Quando andiamo ad incollare la selezione in Notepad, Word o OpenOffice quello che otteniamo sono solo caratteri strani.
Quello proposto di seguito e’ uno script che partendo dai PDF, ottiene delle immagini ad alta risoluzione. Queste vengono poi passate in ingresso ad un software OCR (ocrad oppure gocr).
Come risultato avremo tanti file di testo quante le pagine del PDF originale.

#!/bin/bash
for i in $(ls *.pdf)
do
  echo PDF $i
  pdf2ps $i
  #Creazione delle immagini
  for x in $(ls *.ps)
  do
   echo PS $x
   pstopnm -xsize=5000 $x
  done
  #Conversione in TXT
  for x in $(ls *.ppm)
  do
   echo TXT $x
   ocrad $x > ocrad/$x.txt
   #Programma ocr alternativo
   # gocr $x > gocr/$x.txt
  done
  rm -f *.ps
  rm -f *.ppm
done

~ di beppefux su Ottobre 19, 2007.

Lascia una Risposta

Occorre aver fatto il login per inviare un commento