Skeniranje i prepoznavanje teksta

Dobar dan.

Vjerojatno se svatko od nas suočio s zadatkom, kada je potrebno prevesti papirnati dokument u elektronički oblik. Posebno često je potrebno učiniti one koji studiraju, rade s dokumentacijom, prevode tekstove pomoću elektroničkih rječnika itd.

U ovom članku želio bih podijeliti neke od osnova ovog procesa. Općenito, skeniranje i prepoznavanje teksta prilično je naporno jer se većina operacija mora obaviti ručno. Pokušat ćemo razumjeti korake koje, kako i zašto.

Nisu svi odmah razumiju jednu stvar. Nakon skeniranja (skaliranje svih listova na skeneru) imat ćete slike formata BMP, JPG, PNG, GIF (mogu postojati i drugi formati). Dakle, s ovom slikom morate dobiti tekst - ovaj postupak se zove priznanje. U ovom redoslijedu i bit će izjava u nastavku.

sadržaj

  • 1 1. Što trebam skenirati i prepoznati?
  • 2 2. Opcije skeniranja za tekst
  • 3 3. Prepoznavanje teksta dokumenta
    • 3.1 3.1 Tekst
    • 3.2 3.2 Slike
    • 3.3 3.3 Tablice
    • 3.4 3.4 Nepotrebne stavke
  • 4 4. Prepoznavanje datoteka PDF / DJVU
  • 5 5. Provjera pogrešaka i spremanje rezultata rada

1. Što trebate skenirati i prepoznati?

1) Skener

Za prevođenje tiskanih dokumenata u tekstualni oblik, potreban vam je skener i, prema tome, "izvorni" programi i upravljački programi koji su isporučeni s njim. Uz njih možete skenirati dokument i spremiti ga za daljnju obradu.

Možete koristiti i druge analogne, ali softver koji je isporučen s skenerom u kompletu obično radi brže i ima više opcija.

Ovisno o vrsti skenera - brzina rada može se značajno razlikovati. Postoje skeneri koji mogu dobiti sliku s listova za 10 sekundi. Postoje neki koji će biti primljeni u 30 sekundi. Ako skenirate knjigu za 200-300 listova - mislim da nije teško izračunati koliko puta će biti vremenske razlike?

2) Program priznavanja

U ovom članku pokazat ću vam rad u jednom od najboljih programa za skeniranje i prepoznavanje apsolutno svih dokumenata - ABBYY FineReader. jer program je plaćen, a zatim ću odmah dati link na drugu - njegov besplatni analogni Cunei obrazac. Međutim, ne bih ih usporedio, s obzirom na činjenicu da FineReader osvaja u svakom pogledu, preporučujem da i dalje pokušavam.

ABBYY FineReader 11

Službena web stranica: http://www.abbyy.ru/

Jedan od najboljih programa takve vrste. Namijenjen je prepoznavanju teksta na slici. Ugradjene su mnoge opcije i funkcije. Može analizirati hrpu fontova, podržava čak i rukom pisane verzije (iako, osobno, ne pokušavate, mislim da je vrlo malo vjerojatno prepoznati rukopisnu verziju osim ako nemate savršen rukopis rukopisa). Više pojedinosti o tome kako raditi s njim bit će opisano u nastavku. Ovdje napominjemo da vam članak govori o radu u verziji programa 11.

U pravilu, različite inačice ABBYY FineReadera se međusobno ne razlikuju mnogo. Jednostavno možete učiniti isto u drugoj. Glavne razlike mogu biti u udobnosti, brzini programa i njegovim mogućnostima. Na primjer, ranije verzije odbijaju otvaranje PDF i DJVU ...

3) Dokumenti za skeniranje

Da, ovako, odlučio sam prikazati dokumente u zasebnom okviru. U većini slučajeva skenirati sve udžbenike, novine, članke, časopise itd. one knjige i onu literaturu koja je potrebna. Je li to ono što vodim? Iz osobnog iskustva mogu toliko reći da želite skenirati - možda već postoji na mreži! Koliko puta sam osobno uštedio vrijeme kada sam pronašao ovu ili onu knjigu već skeniranu u mreži. Mogu samo kopirati tekst dokumentu i nastaviti raditi s njom.

Iz ovog jednostavnog savjeta - prije nego što nešto skenirate, provjerite je li ga netko već pregledao i ne morate izgubiti svoje vrijeme.

2. Opcije skeniranja teksta

Ovdje neću govoriti o vašim vozačima za skener, programima koji su ga pratili, jer su svi modeli skenera različiti, softver je također različit posvuda i pogodite, a još više da pokažete kako izvršiti operaciju je nerealno.

No, u svim skenerima postoje iste postavke koje mogu uvelike utjecati na brzinu i kvalitetu vašeg rada. To je samo o njima i ovdje ćemo razgovarati. Navest ću ih u red.

1) Kvaliteta skeniranja - DPI

Prvo, kvaliteta skeniranja treba biti postavljena na najmanje 300 DPI. Preporučljivo je staviti čak i više ako je moguće. Što je veći DPI, to će jasnije biti istaknut vaša slika, pa će daljnja obrada biti brža. Osim toga, to je veća kvaliteta skeniranja - manje pogreške koje ćete morati ispraviti kasnije.

Optimalna varijanta daje obično 300-400 DPI.

2) Kromatičnost

Ovaj parametar uvelike utječe na vrijeme skeniranja (usput, DPI također utječe, ali one su tako jake, a tek kada korisnik postavlja visoke vrijednosti).

Postoje obično tri načina rada:

- crno-bijelo (savršeno za običan tekst);

- siva (pogodna za tekst s tablicama i slikama);

- boja (za časopise u boji, knjige, općenito, dokumente gdje je važno kromatičnost).

Obično vrijeme skeniranja ovisi o odabiru boje. Uostalom, ako imate veliki dokument, čak i dodatnih 5-10 sekundi na stranici kao cjelini izlijeće u pristojno vrijeme ...

3) Fotografije

Dokument možete primiti ne samo skeniranjem već i fotografiranjem. U pravilu, u ovom slučaju imat ćete neke druge probleme: izobličenje slike, mutno. Zbog toga se može zahtijevati daljnje uređivanje i obrada primljenog teksta. Osobno, ne preporučujem upotrebu fotoaparata za ovaj slučaj.

Važno je napomenuti da neće svaki takav dokument biti prepoznat; Kvaliteta skeniranja može biti izuzetno niska ...

3. Prepoznavanje teksta dokumenta

Pretpostavljamo da ste primili željene skenirane stranice. Najčešće su formati: tif, bmb, jpg, png. Općenito, za ABBYY FineReader - to nije jako važno ...

Nakon otvaranja slika u ABBYY FineReader programu, u pravilu, na automatskom stroju počinje dodjeljivati ​​područja i prepoznati ih. Ali ponekad to ne čini dobro. Zbog toga ćemo razmotriti ručno dodjeljivanje potrebnih područja.

Važno! Nisu svi odmah shvatili da se nakon otvaranja dokumenta u programu izvorni dokument prikazuje na lijevoj strani prozora u kojem odabirete različita područja. Nakon što kliknete gumb "prepoznavanje", program u prozoru s desne strane prikazuje gotov tekst za vas. Nakon priznanja, usput, preporučljivo je provjeriti tekst pogreške u istom FineReaderu.

3.1 Tekst

Ovo se područje koristi za odabir teksta. Slike i tablice moraju biti isključeni iz nje. Rijetki i neobični fontovi morat će se unijeti ručno ...

Da biste označili tekstualno područje, obratite pozornost na ploču pri vrhu FineReadera. Tu je gumb "T" (pogledajte donji screenshot, pokazivač miša je samo na ovom gumbu). Kliknite na nju, a zatim na donjoj slici odaberite uredno pravokutno područje na kojem se tekst nalazi. Usput, u nekim slučajevima, trebate stvoriti blokove teksta od 2-3, a ponekad i 10-12 po stranici, jer Oblikovanje teksta može biti različito, a jedan pravokutnik ne dodjeljuje cijelo područje.

Važno je napomenuti da tekstno polje ne bi trebalo dobiti slike! U budućnosti to će vam uštedjeti puno vremena ...

3.2 Slike

Koristi se za označavanje slika i područja koja je teško prepoznati zbog slabe kvalitete ili neobičnog fonta.

Na slici ispod, pokazivač miša je na gumbu koji se koristi za odabir područja "slike". Usput, u ovom području možete odabrati apsolutno bilo koji dio stranice, a FineReader će je kasnije umetnuti u dokument kao redovnu sliku. tj samo "glupa" kopija ...

Obično se ovo područje koristi za označavanje loših skeniranih tablica, za isticanje nestandardnog teksta i fonta, za sebe slike.

3.3 Tablice

Snimak zaslona u nastavku prikazuje gumb za odabir tablica. Općenito, osobno ga vrlo rijetko koristim. Činjenica je da ćete morati rutinski crtati (u stvari) svaku liniju na stolu i pokazati što i kako programirati. Ako je stol mali i ne baš dobre kvalitete, preporučujem da koristite područje "slike" za ove namjene. To štedi puno vremena, a možete brzo izraditi proračunsku tablicu u programu Word na temelju slike.

3.4 Nepotrebne stavke

Važno je napomenuti. Ponekad na stranici postoje nepotrebni elementi koji ometaju prepoznavanje teksta ili vam uopće ne omogućuju odabir željenog područja. Oni se mogu izbrisati uz pomoć brisača.

Da biste to učinili, idite na način uređivanja slika.

Odaberite alat "brisalo" i odaberite nepotrebno područje. Briše se i na njemu će biti bijeli list papira.

Usput, preporučujem vam da ovu opciju koristite što je češće moguće. Isprobajte sva tekstualna područja koje ste označili, gdje vam nije potreban dio teksta ili postoje nepotrebne točke, zamućenost i iskrivljenost - izbrišite brisalo. Zahvaljujući tom priznanju bit će brže!

4. Prepoznavanje datoteka PDF / DJVU

Općenito, ovaj format prepoznavanja neće se razlikovati od bilo čega drugog - tj. Možete raditi s njom, kao i sa slikama. Jedina stvar koju program ne smije biti previše stara verzija, ako ne otvorite PDF / DJVU datoteke - ažuriranje verzije na 11.

Malo savjeta. Nakon otvaranja dokumenta u FineReaderu - automatski će započeti prepoznavanje dokumenta. Često u PDF / DJVU datotekama, određeno područje stranice nije potrebno tijekom čitavog dokumenta! Da biste izbrisali takvo područje na svim stranicama, učinite sljedeće:

1. Idite na odjeljak za uređivanje slika.

2. Omogućite mogućnost obrezivanja.

3. Odaberite željeno područje na svim stranicama.

4. Kliknite na sve stranice i obradite.

5. Provjera pogrešaka i spremanje rezultata rada

Čini se da možda i dalje postoje problemi, kada su sva područja dodijeljena, a zatim prepoznata - uzmi i spasi ... Nije bilo tamo!

Prvo, trebate provjeriti dokument!

Da biste ga omogućili, nakon prepoznavanja, u prozoru s desne strane, bit će "ček", pogledajte snimku zaslona u nastavku. Nakon što je kliknete, program FineReader automatski će vam pokazati područja na kojima program ima pogreške i nije mogao pouzdano identificirati određeni simbol. Samo ćete morati odabrati, slažete li se s mišljenjem programa ili unesite simbol.

Usput, u pola slučajeva, približno, program će vam ponuditi gotovu pravu riječ - morat ćete odabrati pravu opciju mišem.

Drugo, nakon provjere, morate odabrati format u kojem ćete spasiti rezultat vašeg posla.

Ovdje FineReader vam daje puni skretanje: možete jednostavno prenijeti podatke u programu Word jedan do jedan, a možete ga spremiti u jednom od desetaka formata. No, želio bih istaknuti još jedan važan aspekt. Koji format neće biti odabran, važno je odabrati vrstu kopije! Razmotrite najzanimljivije opcije ...

Točna kopija

Sva područja koja ste odabrali na stranici u priznatom dokumentu točno će odgovarati izvornom dokumentu. Vrlo povoljna opcija kada je važno da ne izgubite oblikovanje teksta. Usput, fontovi će također biti vrlo slični izvornom. Preporučujem ovu opciju za slanje dokumenta u Word kako biste nastavili dalje.

Izmjenjivo kopiranje

Ova je opcija dobra jer ste već dobili oblikovanu verziju teksta. tj uvlačenje iz "kilometra", koje je možda bilo u izvornom dokumentu - nećete se susresti. Korisna opcija kada značajno uredite informacije.

Međutim, nije potrebno odabrati, ako je važno da zadržite stil uređenja, fontova, uvlake. Ponekad, ako prepoznavanje nije jako uspješno - vaš se dokument može "presaviti" zbog promijenjenog oblikovanja. U ovom slučaju, poželjno je odabrati točnu kopiju.

Jednostavan tekst

Opcija za one koji samo žele tekst sa stranicom bez svega ostalog. Prikladno za dokumente bez slika i stolova.

Ovaj članak o skeniranju i priznavanju dokumenta završio je. Nadam se da ćete uz ove jednostavne savjete moći riješiti svoje probleme ...

Sretno!