Convertire i pdf in txt (pdf2txt)

Molte volte non e’ possibile eseguire il copia/incolla di un file PDF in modo proficuo. Quando andiamo ad incollare la selezione in Notepad, Word o OpenOffice quello che otteniamo sono solo caratteri strani.
Quello proposto di seguito e’ uno script che partendo dai PDF, ottiene delle immagini ad alta risoluzione. Queste vengono poi passate in ingresso ad un software OCR (ocrad oppure gocr).
Come risultato avremo tanti file di testo quante le pagine del PDF originale.

#!/bin/bash
for i in $(ls *.pdf)
do
echo PDF $i
pdf2ps $i
#Creazione delle immagini
for x in $(ls *.ps)
do
echo PS $x
pstopnm -xsize=5000 $x
done
#Conversione in TXT
for x in $(ls *.ppm)
do
echo TXT $x
ocrad $x > ocrad/$x.txt
#Programma ocr alternativo
# gocr $x > gocr/$x.txt
done
rm -f *.ps
rm -f *.ppm
done

Questa voce è stata pubblicata in Script e contrassegnata con , , , , , . Contrassegna il permalink.

Lascia un commento