De digitalisering van het verwerken van PDF-documenten, zoals facturen en transportdocumenten, is een cruciaal aspect van de moderne bedrijfsvoering. Het converteren van deze documenten van PDF naar JSON is een uitdaging vanwege de variabiliteit in structuur, taal en jargon. In dit artikel bespreken we hoe we deze uitdagingen aanpakken met behulp van ChatGPT.
Uitdagingen
Het verwerken van PDF-documenten brengt verschillende uitdagingen met zich mee:
- Variabiliteit in opmaak en structuur: PDF-documenten kunnen sterk variëren in opmaak en structuur, wat het moeilijk maakt om een uniforme aanpak te hanteren voor het extraheren van gegevens.
- Taal en jargon: Documenten kunnen in verschillende talen en met uiteenlopend jargon worden opgesteld, wat een flexibele oplossing vereist.
- Ongestructureerde gegevens: Veel PDF-documenten bevatten ongestructureerde gegevens die moeilijk te verwerken zijn met traditionele tekstverwerkingshulpmiddelen.
Onze aanpak
PDF naar tekstconversie met AWS Textract
We converteren de PDF naar tekst met AWS Textract. Dit vereenvoudigt de tekst voor GPT-4 en maakt het toegankelijker voor verdere verwerking.
GPT-4 voor definitieve transformatie
Met een gespecialiseerde prompt instrueren we ChatGPT om de tussenrepresentatie naar JSON te converteren. Dit proces maakt gebruik van de kracht van GPT-4 om nauwkeurige en consistente JSON-uitvoer te genereren.
Experimenten en optimalisatie
Door middel van experimenten met prompt engineering hebben we de resultaten aanzienlijk verbeterd. We hebben de markdown representatie van de data verfijnd en de prompts geoptimaliseerd om een consistente JSON-uitvoer te verkrijgen.
Creëren van een tussenweergave
De inhoud van het PDF-document wordt omgezet in een CSV-formaat, inclusief andere tekstregels en key-waarden. Deze tussenweergave integreert verschillende elementen uit het document en maakt het geschikt voor verdere verwerking.
Integratie van cloud-componenten
Voor de verwerking van transportdocumenten hebben we gebruik gemaakt van AWS S3, SNS, SQS en Lambda. Deze cloud-componenten zorgen voor opslag, taakverdeling en rekenkracht, waardoor het proces efficiënt en schaalbaar wordt.
Vergelijking en evaluatie
Onze aanpak met GPT-4 leverde nauwkeurige resultaten op, zelfs bij niet-gestandaardiseerde PDF-structuren of onbekende talen. De transformatie naar JSON was gebruiksvriendelijk en efficiënt. Bij het verwerken van facturaties en transportdocumenten zonder vaste structuur, hebben we een vergelijkbare aanpak gevolgd, waarbij AWS Textract OCR uitvoerde om tekst uit documenten te extraheren en GPT-4 hielp bij het omzetten van de geëxtraheerde tekst naar JSON.
Toekomstige mogelijkheden
Hoewel er geen training bij te pas komt, zit er nog wel een klein deel in de oplossing dat document specifiek is, waarvoor een extra stap in het proces toegevoegd moet worden. De algehele doorvoer is beperkt door de limieten die OpenAI oplegt. Een positieve gedachte hierbij is dat deze oplossing in de toekomst alleen maar beter, sneller, makkelijker en beter uit te breiden wordt. Wanneer GPT-5 of een vergelijkbaar model beschikbaar komt, passen we eenvoudig het gebruikte model aan. Deze oplossing is zeer innovatief.
Conclusie
Onze experimenten met GPT-4 hebben aangetoond dat het mogelijk is om PDF-documenten met hoge nauwkeurigheid en efficiëntie van PDF naar JSON te transformeren. Deze blog laat de ongekende kracht zien van recente ontwikkelingen in AI, specifiek voor technieken zoals (Chat)GPT. Dit samen met kant-en-klare cloud-native componenten en een nieuwe vorm van ‘low-code’ ontwikkeltactieken maakten dit een spannend en uitdagend traject. Waarbij je met een traditionele oplossing wellicht enkele dagen kwijt zou zijn om de training van een model goed te verzorgen, gaf onze aanpak positief resultaat binnen één werkdag.