PDF-documenten transformeren naar JSON met ChatGPT

door | apr 24, 2025

CAPE bestaat 25 jaar!

2025 staat in het teken van ons 25-jarig bestaan!

Het hele jaar door zullen wij dit gaan vieren:

  • Intern met collega’s
  • Samen met al onze familie
  • Samen met onze klanten 

Dit vieren we onder andere met diverse activiteiten, een compleet nieuwe huisstijl met bijbehorend logo en een nieuwe website.

Hou onze socials in de gaten voor meer informatie!

  2025

  Gehele jaar door

  Op locatie & Online

De digitalisering van het verwerken van PDF-documenten, zoals facturen en transportdocumenten, is een cruciaal aspect van de moderne bedrijfsvoering. Het converteren van deze documenten van PDF naar JSON is een uitdaging vanwege de variabiliteit in structuur, taal en jargon. In dit artikel bespreken we hoe we deze uitdagingen aanpakken met behulp van ChatGPT.

Uitdagingen

Het verwerken van PDF-documenten brengt verschillende uitdagingen met zich mee:

  • Variabiliteit in opmaak en structuur: PDF-documenten kunnen sterk variëren in opmaak en structuur, wat het moeilijk maakt om een uniforme aanpak te hanteren voor het extraheren van gegevens.
  • Taal en jargon: Documenten kunnen in verschillende talen en met uiteenlopend jargon worden opgesteld, wat een flexibele oplossing vereist.
  • Ongestructureerde gegevens: Veel PDF-documenten bevatten ongestructureerde gegevens die moeilijk te verwerken zijn met traditionele tekstverwerkingshulpmiddelen.

Onze aanpak

PDF naar tekstconversie met AWS Textract

We converteren de PDF naar tekst met AWS Textract. Dit vereenvoudigt de tekst voor GPT-4 en maakt het toegankelijker voor verdere verwerking.

GPT-4 voor definitieve transformatie

Met een gespecialiseerde prompt instrueren we ChatGPT om de tussenrepresentatie naar JSON te converteren. Dit proces maakt gebruik van de kracht van GPT-4 om nauwkeurige en consistente JSON-uitvoer te genereren.

Experimenten en optimalisatie

Door middel van experimenten met prompt engineering hebben we de resultaten aanzienlijk verbeterd. We hebben de markdown representatie van de data verfijnd en de prompts geoptimaliseerd om een consistente JSON-uitvoer te verkrijgen.

Creëren van een tussenweergave

De inhoud van het PDF-document wordt omgezet in een CSV-formaat, inclusief andere tekstregels en key-waarden. Deze tussenweergave integreert verschillende elementen uit het document en maakt het geschikt voor verdere verwerking.

Integratie van cloud-componenten

Voor de verwerking van transportdocumenten hebben we gebruik gemaakt van AWS S3, SNS, SQS en Lambda. Deze cloud-componenten zorgen voor opslag, taakverdeling en rekenkracht, waardoor het proces efficiënt en schaalbaar wordt.

Vergelijking en evaluatie

Onze aanpak met GPT-4 leverde nauwkeurige resultaten op, zelfs bij niet-gestandaardiseerde PDF-structuren of onbekende talen. De transformatie naar JSON was gebruiksvriendelijk en efficiënt. Bij het verwerken van facturaties en transportdocumenten zonder vaste structuur, hebben we een vergelijkbare aanpak gevolgd, waarbij AWS Textract OCR uitvoerde om tekst uit documenten te extraheren en GPT-4 hielp bij het omzetten van de geëxtraheerde tekst naar JSON.

Toekomstige mogelijkheden

Hoewel er geen training bij te pas komt, zit er nog wel een klein deel in de oplossing dat document specifiek is, waarvoor een extra stap in het proces toegevoegd moet worden. De algehele doorvoer is beperkt door de limieten die OpenAI oplegt. Een positieve gedachte hierbij is dat deze oplossing in de toekomst alleen maar beter, sneller, makkelijker en beter uit te breiden wordt. Wanneer GPT-5 of een vergelijkbaar model beschikbaar komt, passen we eenvoudig het gebruikte model aan. Deze oplossing is zeer innovatief.

Conclusie

Onze experimenten met GPT-4 hebben aangetoond dat het mogelijk is om PDF-documenten met hoge nauwkeurigheid en efficiëntie van PDF naar JSON te transformeren. Deze blog laat de ongekende kracht zien van recente ontwikkelingen in AI, specifiek voor technieken zoals (Chat)GPT. Dit samen met kant-en-klare cloud-native componenten en een nieuwe vorm van ‘low-code’ ontwikkeltactieken maakten dit een spannend en uitdagend traject. Waarbij je met een traditionele oplossing wellicht enkele dagen kwijt zou zijn om de training van een model goed te verzorgen, gaf onze aanpak positief resultaat binnen één werkdag.

Andere blogs:

Zo helpt onze workshopdag lokale ondernemers vooruit

Over Hollandia Hollandia is een lokale onderneming met een lange geschiedenis in de foodbranche. Al decennialang staat het bedrijf bekend om de productie van ambachtelijke en smaakvolle bakkerijproducten. Van luchtige beschuiten tot knapperige crackers en andere...

Lees meer