Zoeken in PDF scans (OCR, etc)

Windows, Android, iOS, Linux, Chrome OS, ...
Plaats reactie
Tomby
Elite Poster
Elite Poster
Berichten: 6350
Lid geworden op: 01 feb 2006, 12:36
Uitgedeelde bedankjes: 1287 keer
Bedankt: 486 keer
Recent bedankt: 2 keer

Heb recent op iBood een multi-functional gekocht met dubbelzijdige scanner en automatische document feeder. Dat maakt het nu ineens heel gemakkelijk om van alles en nog wat uit mijn administratie (facturen, contracten, etc...) te gaan scannen en digitaal te bewaren.
Echter, de pdf's zijn uiteraard gewoon 'afbeeldingen' en je kan dus achteraf ook geen search gaan doen in deze scans.

Is er een manier om achteraf OCR te gaan doen op deze pdf's, zodat die ook meta-data of iets dergelijks krijgen, waardoor je er dan toch kunt in gaan zoeken ? Liefst gratis :).
Gebruikersavatar
heist_175
Moderator
Moderator
Berichten: 14885
Lid geworden op: 07 okt 2010, 09:35
Locatie: Kempen
Uitgedeelde bedankjes: 484 keer
Bedankt: 1054 keer
Recent bedankt: 15 keer

Able 2 extract
Gebruikersavatar
raf1
Elite Poster
Elite Poster
Berichten: 5785
Lid geworden op: 17 nov 2009, 22:39
Uitgedeelde bedankjes: 261 keer
Bedankt: 1771 keer
Recent bedankt: 4 keer

Gebruikersavatar
jutuiz
Premium Member
Premium Member
Berichten: 725
Lid geworden op: 23 okt 2016, 15:26
Locatie: West-Vlaanderen
Uitgedeelde bedankjes: 163 keer
Bedankt: 53 keer

Scannen met NAPS.
Je kan ook scannen met je normaal programma. De Pdf's slepen naar NAPS en laten OCR'en.
fred_be9300
Pro Member
Pro Member
Berichten: 248
Lid geworden op: 30 nov 2005, 20:42
Uitgedeelde bedankjes: 85 keer
Bedankt: 12 keer

Ik gebruik ook naps2, voor privé gebruik (alle rekeningen, medische documenten, administratie, etc).

Naps2 gebruikt ook tesseract4 , en sinds de laatste major release een snellere workflow, met OCR die in de achtergrond plaatsvindt. Handige tool.
Gebruikersavatar
devilkin
Administrator
Administrator
Berichten: 6012
Lid geworden op: 17 mei 2006, 20:10
Uitgedeelde bedankjes: 829 keer
Bedankt: 507 keer
Recent bedankt: 3 keer

Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen (ik heb reeds een paar honderden documenten ingescanned) - blijkbaar verwacht dat ding wel steevast dat je ook gaat scannen. Iemand ervaring met batch import/export?

Edit: profiel aangemaakt met WAI, geen scanner geselecteerd, werkt. Ding komt effe kreften dat ie geen scanner kan vinden, maar #care.
Telenet All-Internet -- using CV8560E & OPNsense on PCEngines APU2E4
Proximus & Mobile Vikings -- Using OnePlus 8 Pro (ROM: Stock)
fred_be9300
Pro Member
Pro Member
Berichten: 248
Lid geworden op: 30 nov 2005, 20:42
Uitgedeelde bedankjes: 85 keer
Bedankt: 12 keer

devilkin schreef:Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen
Er is ook een command line versie meegeinstalleerd. Ik heb die zelf ook ooit gebruikt om ocr te doen (jpg -> ocr'd pdf). Misschien interessant voor jou
Tomby
Elite Poster
Elite Poster
Berichten: 6350
Lid geworden op: 01 feb 2006, 12:36
Uitgedeelde bedankjes: 1287 keer
Bedankt: 486 keer
Recent bedankt: 2 keer

Merci al voor de nuttige suggesties !
Ik merk echter dat ik nog wel enkele wensen heb, en vraag me af of hoe anderen dit doen:
1. Ivm PDF OCR. Krijg je dan een PDF die wedersamengesteld is, maar waarbij de originele scan dus niet meer in de pdf zit, of heb je dan een pdf die er uitziet als het origineel document maar waarbij de content dus wel searchable is (als meta-content of zo) ?
2. En hoe kan je dan gemakkelijkst zoeken over alle documenten heen ? Da's dan wellicht eer een OS en indexing vraag. Al mijn docs staan op een Synology.
3. Wat is de gemakkelijkste manier om doorheen een hoop pdfs te bladeren ? Telkens elke pdf gaan openen via double-click is niet bepaald snel als je dat vergelijkt met gewoon door de papieren versies te snuisteren. Ik kan natuurlijk eerst wel een merge doen in pdfsam van alle losse pdf's maar dat lijkt me nogal een omweg. Ideaal zou een soort Acrobat Reader zijn waarbij je een folder kunt openen en dan heel snel het volgende/vorige document openen, zoals je bvb ook door foto's browset.
tb0ne
Elite Poster
Elite Poster
Berichten: 1020
Lid geworden op: 24 aug 2012, 11:49
Uitgedeelde bedankjes: 27 keer
Bedankt: 85 keer

Je bent op zoek naar een document management systeem.
Bijvoorbeeld:
https://docs.mayan-edms.com/
https://ambar.cloud/
https://github.com/the-paperless-project/paperless
Tomby
Elite Poster
Elite Poster
Berichten: 6350
Lid geworden op: 01 feb 2006, 12:36
Uitgedeelde bedankjes: 1287 keer
Bedankt: 486 keer
Recent bedankt: 2 keer

tb0ne schreef:Je bent op zoek naar een document management systeem.
Bijvoorbeeld:
https://docs.mayan-edms.com/
https://ambar.cloud/
https://github.com/the-paperless-project/paperless
Thanks. Ja, misschien ben ik ineens een beetje te ambitieus.
Als ik zie hoe gemakkelijk ik iets terugvind in bvb OneNote (die automatisch OCR doet) of GMail, dan dacht ik dat het wel leuk zou zijn als dat ook het geval zou zijn op alles wat ik nu momenteel aan het inscannen ben. Het digitalizeren van mijn papierwerk gaat ook veel vlotter dan ik verwacht had (niet moeilijk met een printer die nu een pak papier scant aan 30 pages per minuut single-sided) dus wou ik toch al even nadenken over de voordelen van alles op mijn NAS te hebben.
Gebruikersavatar
jutuiz
Premium Member
Premium Member
Berichten: 725
Lid geworden op: 23 okt 2016, 15:26
Locatie: West-Vlaanderen
Uitgedeelde bedankjes: 163 keer
Bedankt: 53 keer

Een document management systeem is natuurlijk ook "the whole chabang". Dat wou ik zelf niet.

Ik heb me recent na een zoektocht van een week een Directory Opus licentie gekocht. Is een Windows Explorer vervanger die nog stamt uit de goede oude Amiga tijd.

Directory Opus heeft dual pane en een preview pane, voor elk mogelijk bestand, dus ook voor PDF'en. Zoekfunctie ook zeer uitgebreid. Laat toe om bvb. pdf te previewen en tegelijk te hernoemen ifv de inhoud.

Er zijn veel van die dual pane explorers, maar nog nooit kon er mijn één bekoren. Tot nu. Het is een zéér zéér goede tool.

Naast Naps en Fineprint weet ik nu al dat dit een blijvertje zal worden.
Plaats reactie

Terug naar “Software en apps”