""

Phần mềm ocr hỗ trợ tiếng việt

Share:
VietOCR – ứng dụng nhận dạng văn bạn dạng tiếng Việt

VietOCR là ứng dụng nhận dạng văn bản tiếng Việt (Phần mượt OCR giờ đồng hồ Việt, Phần mềm dấn dạng chữ viết tay giờ Việt, Phần mượt quét chữ trên ảnh cho PC) từ những hình hình ảnh (bằng biện pháp chụp màn hình hiển thị hoặc các hình ảnh có chứa văn bạn dạng tiếng Việt). Nói bí quyết khác, đây là phần mềm gửi hình ảnh có đựng chữ thành văn bạn dạng và lưu dưới dạng tệp tin text (.txt).

Bạn đang đọc: Phần mềm ocr hỗ trợ tiếng việt

1 trình làng phần mượt VietOCR nhận dạng văn phiên bản tiếng Việt

VietOCR là phần mềm mã mối cung cấp mở (miễn phí) có những phiên bạn dạng cho Java cùng .NET executable, là một trong GUI frontend cho Tesseract OCR engine. Cả nhì phiên bạn dạng đều tất cả giao diện tương tự và tất cả cùng khả năng nhận diện ký kết tự từ các loại dạng ảnh phổ thông. Lịch trình còn có khả năng vận hành như một áp dụng console, thực hành lệnh từ bỏ command line.

Batch processing cũng được hỗ trợ. Chương trình theo dõi một watch folder cho những tập tin ảnh mới, tự động hóa xử lý chúng qua OCR engine, cùng xuất hiệu quả nhận dạng ra một output đầu ra folder.

Language data mang lại Việt ngữ cùng Anh ngữ đã có đóng gói đi kèm theo sẵn cùng với chương trình. Data cho các ngôn ngữ khác hoàn toàn có thể hạ download từ Tesseract website và đề xuất đặt vào tessdata folder. Chú ý rằng language data files mang lại Tesseract 2.0x với 3.0 tất cả định dạng không giống nhau và không hoán đổi lẫn nhau được, do vậy hãy hạ mua files tương xứng với phiên bản Tesseract chúng ta có (2.0x – 3.02, 3.03, và 4.00).

Lưu ý: một số trong những ngôn ngữ — như là Ả-Rập hoặc Ấn Độ — có cube components; chúng cũng cần được được downloaded và copied vào tessdata.

2. Cài đặt phần mềm VietOCR

Phiên bản Java đòi hỏi Java Runtime Environment 8 hoặc bắt đầu hơn (hướng dẫn cài đặt đặt).

Cho Linux, Tesseract cùng language data packages phía trong Graphics (universe) repository. Chúng rất có thể được tải qua Synaptic hoặc trường đoản cú lệnh sau:

sudo apt-get install tesseract-ocr tesseract-ocr-vie

Files sẽ tiến hành đặt trong /usr/bin và /usr/share/tesseract-ocr/tessdata, trong trang bị tự đó.

Mặt khác, nếu như Tesseract được xuất bản và mua từ mã nguồn, chúng sẽ được đặt trong /usr/local/bin và /usr/local/share/tessdata. Bạn cần chỉ định directory của Tesseract executable từ bỏ Settings thực đơn của VietOCR. VietOCR được thiết kế theo phong cách để phân biệt các tập tin language data sinh sống những địa điểm đó; tuy nhiên, trong trường hợp tessdata được nhằm vào vào một directory không giống với phần đông directory sẽ đề cập, các bạn sẽ cần đặt trở nên môi trường TESSDATA_PREFIX environment variable, ví dụ:

export TESSDATA_PREFIX=/usr/local/share/

(hoặc tương đương) trong .profile của bạn hoặc setenv để đặt thay đổi môi trường. Hãy chăm chú rằng băng thông tới directory buộc phải kết với cam kết tự /.

Hỗ trợ tùy chọn đến thư viện Tess4J được cung cấp. Xin chú ý rằng bất cứ biệt lệ exception từ phía bên trong Tess4J đã làm ứng dụng crash.

Phiên phiên bản .NET cần Microsoft .NET Framework 4.8. Trường hợp bạn gặp gỡ lỗi biệt lệ “Exception has been thrown by the target of an invocation” hoặc “The program can’t start because VCRUNTIME140.dll is missing from your computer“, xin hãy mua đặt Microsoft Visual C++ 2015-2019 Redistributable Package.

Xem thêm: Top 10+ Phim Cuộc Chiến Quái Vật Khổng Lồ Hay Nhất, Top 10+ Phim Quái Vật Hay Mà Bạn Không Thể Bỏ Lỡ

Hỗ trợ quét văn bản trên Windows được cung cấp qua Windows Image Acquisition Library v2.0, thư viện này đòi hỏi Windows XP Service Pack 1 (SP1) hoặc new hơn; thư viện này đổi thay thành phần tiêu chuẩn chỉnh của Windows Vista với 7. Để setup WIA Library trên Windows XP, copy file wiaaut.dll vào System32 directory (thường để ở C:WindowsSystem32) với chạy lệnh từ command line:

regsvr32 C:WindowsSystem32wiaaut.dll

Trên Linux, scanning đòi hỏi thiết lập các gói SANE packages:

sudo apt-get install libsane sane sane-utils libsane-extras xsane

Hỗ trợ đến PDF được khả thi qua GPL Ghostscript. Sau khi thiết lập thư viện, hãy bảo đảm shared library object (gsdll32.dll hoặc libgs.so) ở trong tìm kiếm path bằng phương pháp chỉnh biến môi trường phù hợp. Trên Windows, tiếp đuôi (append) đoạn sau vào quý hiếm của biến Path (truy cập được qua Control Panel > System > Advanced > Environment Variables) mang đến GS phiên phiên bản 9.52:

;C:Program Filesgsgs9.52in

Để setup GS trên Linux:

sudo apt-get install ghostscript

Để chỉnh mặt đường dẫn:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib

nơi trong /usr/local/lib, libgs.so link tới libgs.so.9.52 được đặt. Mặc dù nhiên, bước này có thể không yêu cầu bởi path rất có thể đã được chỉnh trong lúc thiết lập GS.

Tính năng Duyệt bao gồm tả (spellcheck) có được qua Hunspell, mà lại các dictionary files trực nằm trong (.aff, .dic) nên được sắp xếp trong dict folder của VietOCR. user.dic là một tệp tin được mã hóa vào UTF-8 đựng một danh sách những từ riêng, một từ mỗi hàng.

Trên Linux, Hunspell cùng tự điển của nó hoàn toàn có thể được thiết lập bởi Synaptic hoặc apt, như sau:

sudo apt-get install hunspell hunspell-en-us

3. Cách gửi văn bản hình ảnh sang chữ dạng text

VietOCR là ứng dụng chuyển hình ảnh thành văn bản tiếng Việt. Để thực hiện giao diện giờ Việt, các bạn chọn Setting – User interface language – Vietnamese (Tiếng Việt).

*

Thông số vượt trội cho quét ảnh là 300 DPI và 1 bpp (bit per pixel) trắng black hoặc 8 bpp grayscale dạng không nén (uncompressed) TIFF tốt PNG. PNG nhỏ tuổi gọn hơn mọi dạng ảnh khác mà vẫn giữ được rất chất lượng nhờ sử dụng thuật toán lossless data compression; TIFF có ích điểm ngơi nghỉ khả năng đựng nhiều trang hình ảnh (multi-page) trong một file.Chế độ Screenshot Mode hỗ trợ độ dìm dạng giỏi hơn cho gần như hình ảnh có độ sắc nét thấp, chẳng hạn như hình ảnh in màn hình, bằng phương pháp rescaling bọn chúng tới 300 DPI.Mẹo vặt: OCR trên các vùng khoanh chọn lựa được định vì chưng rê chuột thường cho ra kết quả đúng mực hơn.Ngoài thuật toán hậu xử lý xây vào chương trình, bạn cũng có thể thêm cách thức thay thế từ ngữ sệt riêng của doanh nghiệp qua một tập tin text UTF-8-encoded tab-delimited gồm tên x.DangAmbigs.txt, nhưng x là ISO639-3 language code. Cả hai cách sửa chữa thay thế text dễ dàng và đơn giản và Regex đông đảo được hỗ trợ.Vài công cụ nối liền được hỗ trợ để nối các file hình ảnh hoặc PDF vào trong 1 file đơn để dễ dàng cho những tác vụ OCR, hoặc tách một tệp tin PDF thành nhiều file bé dại hơn nếu như nó quá lớn, điều mà rất có thể gây ra biệt lệ cạn bộ nhớ. Chép ảnh (paste image) trường đoản cú clipboard đã có được hỗ trợ.

Hậu xử lý

Các lỗi thừa nhận diện cam kết tự Việt hoàn toàn có thể phân làm ba loại. Các lỗi hay bị do do lẫn lộn chữ hoa với chữ thường xuyên (upper and lower) — ví dụ: hOa, nhắc — rất có thể dễ dàng thay thế sửa chữa sử dụng những chương trình Unicode text editor. Lỗi bởi vì sự giải pháp xử lý không chủ yếu xác, khiến ra các lỗi như thiếu hụt sót dấu, lầm với ký kết tự có dáng vẻ tương tự, v.v… — huu – hưu, có – marg, h0a – hoa, la – 1a, uhìu – nhìn. Đa số các lỗi này cũng có thể dễ dàng thay thế dùng các phần mềm duyệt bao gồm tả. Hàm Hậu giải pháp xử lý của VietOCR rất có thể sửa được rất nhiều lỗi nêu trên.

Loại lỗi sau cuối khó phát hiện nay hơn vị chúng liên quan đến ngữ nghĩa, semantics, tức là những chữ tiến công vần đúng (tức là mục từ gồm trong tự điển), nhưng mà sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này rất cần được có fan đọc chăm chút lại và sửa theo bạn dạng gốc vào hình.

Quy trình biên tập sau đây với thực hiện các công dụng được tích hòa hợp sẵn được đề ý:

Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), vày khi được OCR, mỗi hàng chữ trở nên đoạn 1-hàng bóc riêng. Dùng tính năng Nối dòng trong menu Định dạng. Xem xét rằng tác vụ này hoàn toàn có thể không buộc phải cho thi thơ.Cũng trong menu Định dạng, bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa ngay gần như toàn bộ các lỗi chữ hoa-thường. Hãy dò tìm cùng sửa các lỗi hoa-thường còn sót.Sửa lỗi thiết yếu tả bởi công cụ Dò chủ yếu tả.

Qua quá trình trên, đa số các lỗi thường thì sẽ được nhiều loại trừ. đa số lỗi ngữ nghĩa semantic còn còn lại ít, nhưng yên cầu người phê chuẩn đọc dò lại tổng thể văn bản để được giống như y như văn bản gốc quét. Nếu buộc phải biên chỉnh nặng trĩu hơn, bạn cũng có thể dùng các chương trình word processor xuất xắc text editor có đầy đủ tính năng — Word, Writer, Notepad, VietPad, v.v… — cho quy trình đó.

Hạn chế của phần mềm

Tesseract 2.0x không hỗ trợ dàn trang, vì vậy chỉ rất có thể nhận diện văn bạn dạng có một cột text. Tesseract 3.0x đã tích hợp tính đối chiếu dàn trang, cung cấp nhận dạng các văn bản có các cột.

Bài viết liên quan