PDF račun v priponki e-pošte je najpogostejša oblika prejetega računa v slovenskih podjetjih. Kljub razmahu strukturiranih e-računov (eSlog) glavnina dobaviteljev še vedno pošlje navaden PDF, pogosto skeniran ali izvožen iz njihove fakturne aplikacije. Avtomatska prepoznava teh dokumentov je največja praktična zmaga avtomatizacije računovodstva.

Ta članek pojasnjuje, kako ta prepoznava tehnično deluje, kaj je v praksi enostavno in kaj zahteva več prilagajanja, ter kaj realno pričakovati od dobrega sistema.

Najprej: kaj je PDF račun za računalnik

PDF račun ni račun. Je slika ali besedilna datoteka, ki jo mora program najprej spremeniti v podatke.

PDF format je oblikovni standard, ne podatkovni. Računalnik na PDF datoteki vidi troje:

Besedilni PDF (digital): izvožen iz aplikacije (Word, fakturni program, ERP). Besedilo je dostopno kot tekst, samo razporejeno v dvodimenzionalnem prostoru.
Slikovni PDF (skeniran): fotografija ali sken papirnatega računa, shranjen v PDF ovoju. Računalnik vidi le slikovne pike, brez besedila.
Hibridni PDF: kombinacija obojega, npr. skenirana glava z digitalno generiranim DDV obrazcem spodaj. To je v praksi pogostejše, kot bi pričakovali.

Razlika je pomembna, ker zahteva različne tehnične korake. Dober sistem zna oba primera obravnavati avtomatsko in se odločiti, kateri pristop uporabiti za vsak dokument.

Kaj se mora iz PDF-ja izvleči

Ne zadošča le »znesek« in »dobavitelj«. Polno avtomatizirana knjižba zahteva:

Identifikacija dobavitelja (ime, davčna številka, naslov)
Številka računa in datum izdaje
Datum opravljene storitve ali dobave
Datum zapadlosti
Skupne vrednosti (neto, DDV, bruto)
Razdelitev po DDV stopnjah (22 %, 9,5 %, 5 %, oproščeno, obrnjena obveznost)
Posamezne postavke z opisom in zneski
Sklic za plačilo (BIC, IBAN, referenca)
Posebne oznake (predračun, dobropis, opomin)

To je 9 različnih kategorij podatkov, ki jih je treba prepoznati, povezati med seboj in preveriti za doslednost (npr. ali se vsota postavk ujema z bruto zneskom).

Kako AI prepoznava PDF račune

Avtomatska prepoznava ima tri sloje, ki se zgradijo eden na drugem. Vsak sloj rešuje drugačen problem, vsi trije pa skupaj omogočajo, da iz PDF priponke pride knjižba v ERP-ju.

PDF

→

OCR

→

Struktura

→

Kontekst

→

ERP

Kaj je OCR za račune (sloj 1)

Pri besedilnem PDF se besedilo le prebere iz datoteke. Pri slikovnem PDF se uporabi OCR (optično prepoznavanje znakov), ki sliko spremeni v besedilo. Pri kakovostnih skenih je OCR običajno zelo zanesljiv. Pri slabih (slabe ločljivosti, rotirane, fotografirane z mobilnikom) je natančnost občutno nižja in pogosto zahteva ročno preverjanje.

Ta sloj sam po sebi ne razume nič. Vrne le surovo besedilo z oznakami, kje na strani se kateri del besedila nahaja.

Kako sistem razume strukturo računa (sloj 2)

Nad surovim besedilom deluje model, ki razume, kaj posamezni deli pomenijo. Razlikuje glavo računa (kdo je dobavitelj), telo (postavke), nogo (skupni znesek in DDV razčlenitev), sklicne podatke. Ta sloj uporablja strojno učenje, ker je vsak dobavitelj svoj postavitveni svet.

Tipičen izziv: dobavitelj ima logotip, ki vsebuje ime, in ločeno glavo z imenom v drugi obliki. Sistem mora znati prepoznati, da gre za isto pravno entiteto. Drugi izziv: večstranski računi, kjer se postavke nadaljujejo na drugi strani.

Kako deluje avtomatsko knjiženje (sloj 3)

Najpomembnejši in najtežji sloj. Sistem prepozna, da je dobavitelj »KOVINARSTVO NOVAK D.O.O.« iz vaše zgodovine običajno knjižen na konto materialnih stroškov, da je njegov običajen DDV 22 %, da plačujete v 30 dneh in da ima posebnost pri obravnavi prevozov. Brez tega sloja je avtomatizacija le polovica rešitve.

Ta sloj zahteva učenje na vaših podatkih. Generičen model brez vaše zgodovine bo znal prepoznati podatke, ne bo pa znal predlagati pravilne knjižbe.

Kaj je v praksi enostavno in kaj zahteva več dela

Visoka zanesljivost

Računi v digitalnem PDF-ju iz znanega dobavitelja
Strukturirani e-računi (eSlog)
Standardne EU pridobitve s tipičnimi dobavitelji
Energetski računi (predvidljiva struktura)

Srednja zanesljivost

Skenirani računi iz tujine s tujimi formati
Ročno pisani dodatki na PDF (»prosim plačaj do …«)
Prvi računi novega dobavitelja
Računi z nestandardno postavitvijo (npr. več valut)

Nižja zanesljivost (zahteva več učenja)

Fotografije računov iz mobilnika z odbleskom ali rotacijo
Predračuni, ki postanejo končni računi
Dobropisi, ki niso eksplicitno označeni
Dokumenti, kjer računovodja sam ne ve takoj, kaj je

Pomembno: težavni primeri se s časom postopno izboljšajo, ko se sistem nauči vašega vzorca. Po nekaj mesecih pri istem dobavitelju je zanesljivost običajno bistveno višja kot na začetku.

Najpogostejše pasti

Šumniki in slovenski formati

Tuji OCR sistemi pogosto napačno prepoznajo č, š, ž in jih pretvorijo v c, s, z. Decimalna vejica se pogosto interpretira kot tisočica (1.234,56 € prebran kot 1234,56 ali celo 1,23456). Datumi v formatu DD.MM.YYYY se napačno razumejo kot MM/DD/YYYY pri datumih do 12. v mesecu (kar so tihe napake brez opozorila).

Postavke vs. povzetek

Računi imajo običajno postavke (kaj je bilo dobavljeno) in povzetek (skupni neto, DDV, bruto). Povzetek se mora ujemati z vsoto postavk. Če se ne, je to znak za ročno preverjanje. Dobri sistemi to preverijo avtomatsko in dvignejo opozorilo.

Priloge in večstranski računi

Marsikateri PDF vsebuje glavni račun in priloge (specifikacija, dobavnica). Sistem mora prepoznati, kateri del je račun in kateri je spremni dokument. Pri večstranskih računih se postavke pogosto razdelijo, kar zahteva pravilno združitev.

Kako povezati OCR z ERP sistemom

Prepoznava sama po sebi ni avtomatizacija. Polna avtomatizacija pomeni, da se po računovodski potrditvi predloga knjižba avtomatsko prenese v ERP (Vasco, Pantheon, SAOP iCenter, Minimax). Brez te povezave računovodja še vedno ročno prenaša podatke iz enega sistema v drugi, kar izniči glavnino prihranka.

Smiselno je preveriti pri ponudniku, ali ima referenčno integracijo z vašim ERP-jem in koliko obstoječih strank to integracijo aktivno uporablja. Splošen API ni isto kot delujoča integracija pri konkretnem ERP-ju.

Bistvo

Avtomatska prepoznava PDF računa ima tri tehnične sloje: izvlečenje besedila, prepoznava strukture, kontekstualna razlaga. Prva dva sta danes običajno rešljiva. Tretji sloj je tisti, ki loči generičen sistem od uporabnega in zahteva učenje na vaših podatkih.

Pri izboru orodja je pomembno preveriti realno natančnost na vaših dejanskih dokumentih (ne na demo podatkih) in obstoj polne integracije z vašim ERP-jem. Obe stvari sta razlika med delujočim demom in delujočo avtomatizacijo v praksi.

Kako avtomatsko prepoznati PDF račun: od priponke do knjižbe v nekaj sekundah

Najprej: kaj je PDF račun za računalnik

Kaj se mora iz PDF-ja izvleči

Kako AI prepoznava PDF račune

Kaj je OCR za račune (sloj 1)

Kako sistem razume strukturo računa (sloj 2)

Kako deluje avtomatsko knjiženje (sloj 3)

Kaj je v praksi enostavno in kaj zahteva več dela

Visoka zanesljivost

Srednja zanesljivost

Nižja zanesljivost (zahteva več učenja)

Najpogostejše pasti

Šumniki in slovenski formati

Postavke vs. povzetek

Priloge in večstranski računi

Kako povezati OCR z ERP sistemom

Bistvo

Preizkusite sami

Sorodni članki

OCR in prepoznava računov: kako deluje in zakaj klasični OCR ni dovolj

Klasičen OCR vs AI prepoznava finančnih dokumentov

Štiri stopnje avtomatizacije knjiženja: koliko časa prihrani vsak korak

Produkt

Podjetje

Kontakt