Post contrassegnati da taggocr

Convertire i pdf in txt (pdf2txt)

Molte volte non e’ possibile eseguire il copia/incolla di un file PDF in modo proficuo. Quando andiamo ad incollare la selezione in Notepad, Word o OpenOffice quello che otteniamo sono solo caratteri strani.
Quello proposto di seguito e’ uno script che partendo dai PDF, ottiene delle immagini ad alta risoluzione. Queste vengono poi passate in ingresso ad un software OCR (ocrad oppure gocr).
Come risultato avremo tanti file di testo quante le pagine del PDF originale.

#!/bin/bash
for i in $(ls *.pdf)
do
echo PDF $i
pdf2ps $i
#Creazione delle immagini
for x in $(ls *.ps)
do
echo PS $x
pstopnm -xsize=5000 $x
done
#Conversione in TXT
for x in $(ls *.ppm)
do
echo TXT $x
ocrad $x > ocrad/$x.txt
#Programma ocr alternativo
# gocr $x > gocr/$x.txt
done
rm -f *.ps
rm -f *.ppm
done

Add comment 19 Ottobre 2007


Pagine

Twitter

RSS

Cloud

antivirus backup COMODO dialer divx DVB-T fail Filosofia firewall gocr hacker hard disk ocrad ocs partizioni corrotte pdf pdf2txt ProjectX recupero dati recupero hard disk Script sicurezza virtualdub virus XP xvid