Zoeken in PDF scans (OCR, etc)

Tomby
Elite Poster
Elite Poster
Berichten: 4155
Lid geworden op: 01 Feb 2006
Bedankt: 277 keer
Recent bedankt: 2 keer
Uitgedeelde bedankjes: 573 keer

Zoeken in PDF scans (OCR, etc)

Berichtdoor Tomby » 17 Okt 2019, 18:04

Heb recent op iBood een multi-functional gekocht met dubbelzijdige scanner en automatische document feeder. Dat maakt het nu ineens heel gemakkelijk om van alles en nog wat uit mijn administratie (facturen, contracten, etc...) te gaan scannen en digitaal te bewaren.
Echter, de pdf's zijn uiteraard gewoon 'afbeeldingen' en je kan dus achteraf ook geen search gaan doen in deze scans.

Is er een manier om achteraf OCR te gaan doen op deze pdf's, zodat die ook meta-data of iets dergelijks krijgen, waardoor je er dan toch kunt in gaan zoeken ? Liefst gratis :).
Afbeelding

Gebruikersavatar
heist_175
Elite Poster
Elite Poster
Berichten: 8002
Lid geworden op: 07 Okt 2010
Locatie: Kempen
Bedankt: 575 keer
Recent bedankt: 11 keer
Uitgedeelde bedankjes: 348 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor heist_175 » 17 Okt 2019, 18:29

Able 2 extract

Gebruikersavatar
raf1
Elite Poster
Elite Poster
Berichten: 4499
Lid geworden op: 17 Nov 2009
Bedankt: 1456 keer
Recent bedankt: 9 keer
Uitgedeelde bedankjes: 230 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor raf1 » 17 Okt 2019, 18:55


jutuiz
Pro Member
Pro Member
Berichten: 259
Lid geworden op: 23 Okt 2016
Bedankt: 15 keer
Uitgedeelde bedankjes: 31 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor jutuiz » 17 Okt 2019, 20:36

Scannen met NAPS.
Je kan ook scannen met je normaal programma. De Pdf's slepen naar NAPS en laten OCR'en.

fred_be9300
Plus Member
Plus Member
Berichten: 224
Lid geworden op: 30 Nov 2005
Bedankt: 10 keer
Uitgedeelde bedankjes: 69 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor fred_be9300 » 18 Okt 2019, 13:59

Ik gebruik ook naps2, voor privé gebruik (alle rekeningen, medische documenten, administratie, etc).

Naps2 gebruikt ook tesseract4 , en sinds de laatste major release een snellere workflow, met OCR die in de achtergrond plaatsvindt. Handige tool.

Gebruikersavatar
devilkin
Elite Poster
Elite Poster
Berichten: 2533
Lid geworden op: 17 Mei 2006
Twitter: jdeluyck
Locatie: Gent
Bedankt: 100 keer
Recent bedankt: 7 keer
Uitgedeelde bedankjes: 228 keer
Contact:

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor devilkin » 21 Okt 2019, 09:39

Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen (ik heb reeds een paar honderden documenten ingescanned) - blijkbaar verwacht dat ding wel steevast dat je ook gaat scannen. Iemand ervaring met batch import/export?

Edit: profiel aangemaakt met WAI, geen scanner geselecteerd, werkt. Ding komt effe kreften dat ie geen scanner kan vinden, maar #care.
Orange Love Trio -- using Ubiquiti USG-3
Orange Dolphin & Proximus (corporate) -- Using OnePlus 6 (ROM: Stock)

fred_be9300
Plus Member
Plus Member
Berichten: 224
Lid geworden op: 30 Nov 2005
Bedankt: 10 keer
Uitgedeelde bedankjes: 69 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor fred_be9300 » 21 Okt 2019, 10:14

devilkin schreef:Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen


Er is ook een command line versie meegeinstalleerd. Ik heb die zelf ook ooit gebruikt om ocr te doen (jpg -> ocr'd pdf). Misschien interessant voor jou

Tomby
Elite Poster
Elite Poster
Berichten: 4155
Lid geworden op: 01 Feb 2006
Bedankt: 277 keer
Recent bedankt: 2 keer
Uitgedeelde bedankjes: 573 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor Tomby » 21 Okt 2019, 14:20

Merci al voor de nuttige suggesties !
Ik merk echter dat ik nog wel enkele wensen heb, en vraag me af of hoe anderen dit doen:
1. Ivm PDF OCR. Krijg je dan een PDF die wedersamengesteld is, maar waarbij de originele scan dus niet meer in de pdf zit, of heb je dan een pdf die er uitziet als het origineel document maar waarbij de content dus wel searchable is (als meta-content of zo) ?
2. En hoe kan je dan gemakkelijkst zoeken over alle documenten heen ? Da's dan wellicht eer een OS en indexing vraag. Al mijn docs staan op een Synology.
3. Wat is de gemakkelijkste manier om doorheen een hoop pdfs te bladeren ? Telkens elke pdf gaan openen via double-click is niet bepaald snel als je dat vergelijkt met gewoon door de papieren versies te snuisteren. Ik kan natuurlijk eerst wel een merge doen in pdfsam van alle losse pdf's maar dat lijkt me nogal een omweg. Ideaal zou een soort Acrobat Reader zijn waarbij je een folder kunt openen en dan heel snel het volgende/vorige document openen, zoals je bvb ook door foto's browset.
Afbeelding

tb0ne
Elite Poster
Elite Poster
Berichten: 988
Lid geworden op: 24 Aug 2012
Bedankt: 84 keer
Uitgedeelde bedankjes: 28 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor tb0ne » 21 Okt 2019, 14:33

Je bent op zoek naar een document management systeem.
Bijvoorbeeld:
https://docs.mayan-edms.com/
https://ambar.cloud/
https://github.com/the-paperless-project/paperless

Tomby
Elite Poster
Elite Poster
Berichten: 4155
Lid geworden op: 01 Feb 2006
Bedankt: 277 keer
Recent bedankt: 2 keer
Uitgedeelde bedankjes: 573 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor Tomby » 21 Okt 2019, 16:05

tb0ne schreef:Je bent op zoek naar een document management systeem.
Bijvoorbeeld:
https://docs.mayan-edms.com/
https://ambar.cloud/
https://github.com/the-paperless-project/paperless


Thanks. Ja, misschien ben ik ineens een beetje te ambitieus.
Als ik zie hoe gemakkelijk ik iets terugvind in bvb OneNote (die automatisch OCR doet) of GMail, dan dacht ik dat het wel leuk zou zijn als dat ook het geval zou zijn op alles wat ik nu momenteel aan het inscannen ben. Het digitalizeren van mijn papierwerk gaat ook veel vlotter dan ik verwacht had (niet moeilijk met een printer die nu een pak papier scant aan 30 pages per minuut single-sided) dus wou ik toch al even nadenken over de voordelen van alles op mijn NAS te hebben.
Afbeelding

jutuiz
Pro Member
Pro Member
Berichten: 259
Lid geworden op: 23 Okt 2016
Bedankt: 15 keer
Uitgedeelde bedankjes: 31 keer

Re: Zoeken in PDF scans (OCR, etc)

Berichtdoor jutuiz » 22 Okt 2019, 13:32

Een document management systeem is natuurlijk ook "the whole chabang". Dat wou ik zelf niet.

Ik heb me recent na een zoektocht van een week een Directory Opus licentie gekocht. Is een Windows Explorer vervanger die nog stamt uit de goede oude Amiga tijd.

Directory Opus heeft dual pane en een preview pane, voor elk mogelijk bestand, dus ook voor PDF'en. Zoekfunctie ook zeer uitgebreid. Laat toe om bvb. pdf te previewen en tegelijk te hernoemen ifv de inhoud.

Er zijn veel van die dual pane explorers, maar nog nooit kon er mijn één bekoren. Tot nu. Het is een zéér zéér goede tool.

Naast Naps en Fineprint weet ik nu al dat dit een blijvertje zal worden.


Terug naar “Windows”

Wie is er online

Gebruikers op dit forum: Geen geregistreerde gebruikers en 1 gast