Convertire i pdf in txt (pdf2txt)

Molte volte non e’ possibile eseguire il copia/incolla di un file PDF in modo proficuo. Quando andiamo ad incollare la selezione in Notepad, Word o OpenOffice quello che otteniamo sono solo caratteri strani.
Quello proposto di seguito e’ uno script che partendo dai PDF, ottiene delle immagini ad alta risoluzione. Queste vengono poi passate in ingresso ad un software OCR (ocrad oppure gocr).
Come risultato avremo tanti file di testo quante le pagine del PDF originale.

#!/bin/bash
for i in $(ls *.pdf)
do
echo PDF $i
pdf2ps $i
#Creazione delle immagini
for x in $(ls *.ps)
do
echo PS $x
pstopnm -xsize=5000 $x
done
#Conversione in TXT
for x in $(ls *.ppm)
do
echo TXT $x
ocrad $x > ocrad/$x.txt
#Programma ocr alternativo
# gocr $x > gocr/$x.txt
done
rm -f *.ps
rm -f *.ppm
done

Annunci
Questa voce è stata pubblicata in Script e contrassegnata con , , , , , . Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...