Prepoznavanje teksta. Besplatni program - analogni FineReader

Prije ili kasnije, svatko tko često radi s uredskim programima suočava se s tipičnim zadatkom - skeniranje teksta iz knjige, časopisa, novina, samo letaka, a zatim ih prevesti u tekstualni format, na primjer, u Word dokumentu.

Da biste to učinili, potreban vam je skener i poseban program za prepoznavanje teksta. U ovom ćemo članku govoriti o besplatnom analognom FineReaderu - CuneiFormu (o prepoznavanju u FineReaderu - pogledajte ovaj članak).

Počnimo ...

sadržaj

  • 1. Značajke CuneiForm, značajke
  • 2 2. Primjer prepoznavanja teksta
  • 3 3. Batch Text Recognition
  • 4 4. Zaključci

1. Značajke CuneiForm, značajke

klinasto pismo

Možete je preuzeti s web mjesta razvojnog programera: http://cognitiveforms.com/

Program za prepoznavanje teksta s otvorenim izvorom. Osim toga, on radi u svim verzijama sustava Windows: XP, Vista, 7, 8, koji se svidi. Uz to, dodajte puni ruski prijevod programa!

Pros:

- prepoznavanje teksta na 20 najpopularnijih svjetskih jezika (samo je engleski i ruski uključeni u ovaj broj);

- ogromna podrška za različite tiskane fontove;

- provjerite rječnik priznatog teksta;

- mogućnost spremanja rezultata rada u nekoliko varijanti;

- očuvanje strukture dokumenta;

- izvrsna podrška i priznavanje tablica.

kontra:

- ne podržava prevelike dokumente i datoteke (više od 400 dpi);

- ne podržava izravno neke vrste skenera (dobro, nije zastrašujuće, upravljački program skenera dolazi s posebnim programom za skeniranje);

- Dizajn ne sjaji (ali tko to treba, ako program u potpunosti riješi problem).

2. Primjer prepoznavanja teksta

Pretpostavljamo da ste već primili potrebne slike za prepoznavanje (skenirane tamo ili preuzete knjigu u pdf / djvu formatu na internetu i izdvojile potrebne slike od njih.) Da biste to učinili, pogledajte ovaj članak.)

1) Otvorite željenu sliku u programu CuineForm (datoteka / otvorena ili "Cntrl + O").

2) Za početak prepoznavanja - najprije morate odabrati različita područja: tekst, slike, tablice itd. U Cuneiformu to se može obaviti ne samo ručno nego i automatski ! Da biste to učinili, kliknite gumb "označavanje" na vrhu zaslona prozora.

3) Nakon 10-15 sekundi. program će automatski označiti sva područja s različitim bojama. Na primjer, područje teksta je označeno plavom bojom. Usput, ona je ispravno istaknula sva područja i prilično brzo. Iskreno, nisam očekivala tako brzu i točnu reakciju od nje ...

4) Za one koji ne vjeruju automatskom označavanju, možete koristiti priručnik. Da biste to učinili, nalazi se alatna traka (pogledajte donju sliku), zahvaljujući kojoj možete odabrati: tekst, tablicu, sliku. Pomicanje, povećanje / smanjenje početne slike, rubovi usjeva. Općenito, dobar set.

5) Nakon što su sva područja označena, možete početi prepoznati . Da biste to učinili, jednostavno kliknite gumb s istim imenom, kao na donjoj slici.

6) Doslovno za 10-20 sekundi. prije nego što otvorite dokument u Microsoft Wordu s prepoznatim tekstom. Zanimljivo je, u tekstu za ovaj primjer, pogreške, naravno, bile, ali ih ne postoji mnogo! Posebno, dano u kakvoj je neizvrsnoj kvaliteti izvorni materijal - slika.

Brzinom i kvalitetom je sasvim usporedivo s FineReaderom!

3. Batch Text Recognition

Ova funkcija programa može biti korisna kada trebate prepoznati više od jedne slike, ali nekoliko odjednom. Oznaka za pokretanje prepoznavanja paketa obično je skrivena u izborniku "start".

1) Nakon otvaranja programa, morate stvoriti novi paket ili otvoriti prethodno spremljenu. U našem primjeru stvorite novu.

2) U sljedećem koraku dajemo mu ime, po mogućnosti tako da ćemo za pola godine sjetiti što se nalazi u njemu.

3) Zatim odaberite jezik dokumenta (ruski-engleski), navedite postoje li slike i tablice u skeniranom materijalu.

4) Sada morate odrediti mapu u kojoj se nalaze datoteke za prepoznavanje. Usput, zanimljivo, sam program će pronaći sve slike i druge grafičke datoteke koje ih može prepoznati i dodati ih u projekt. Morat ćete ukloniti one dodatne.

5) Sljedeći korak nije važno, odlučite što učiniti s izvornim datotekama, nakon prepoznavanja. Preporučujem da odaberete potvrdni okvir "ništa ne učinite".

6) Ostaje samo odabrati format u kojem će se priznati dokument spremiti. Postoji nekoliko opcija:

- rtf - datoteku iz dokumenta riječi, otvara se svim popularnim uredima (uključujući besplatne, link na programe);

- txt - format teksta, možete spremiti samo tekst, slike i tablice u njoj;

- htm - hipertekstualna stranica, prikladno je ako skenirate i prepoznate datoteke za web mjesto. Mi ćemo ga odabrati u našem primjeru.

7) Nakon što kliknete gumb "spreman", započinje obrada vašeg projekta.

8) Program radi vrlo brzo. Nakon priznanja pojavljuje se kartica s htm datotekama. Ako kliknete na takvu datoteku, počinje preglednik gdje možete vidjeti rezultate. Usput, paket se može spremiti za daljnji rad s njom.

9) Kao što možete vidjeti, rezultati rada su vrlo impresivni. Program je bio lako prepoznatljiv po programu, a pod njom je lako prepoznati tekst. S činjenicom da je program besplatan - to je obično super!

4. Zaključci

Ako često ne skenirate i prepoznate dokumente, onda nema smisla kupiti FineReader. Kod većine zadataka CuneiForm jednostavno obrađuje.

S druge strane, ima i kontra.

Prvo, previše je alata za uređivanje i provjeru rezultata. Drugo, kada morate prepoznati puno slika, onda je u FineReaderu prikladnije odmah vidjeti sve što se dodaje projektu u stupcu desno: brzo ukloniti nepotrebne, ispravke itd. I treće, na dokumentima vrlo slabe kvalitete, CuneiForm gubi kao priznanje: Potrebno je uzeti dokument - ispraviti pogreške, staviti interpunkcijske znakove, obrnute zareze itd.

To je sve. Poznajete li još jednog vrijednog besplatnog programa za prepoznavanje teksta?