Professional Documents
Culture Documents
OCRnew
OCRnew
3.Threshold Image
CÁC BƯỚC THỰC HIỆN
4. Remove Noise
GUIDE 5. Segmentation
6. Character
THỰC NGHIỆM Recognition
OCR là gì?
OCR là thuật ngữ được viết tắt bởi cụm từ Optical Character Recognition (dịch là:
nhận dạng ký tự quang học). Đây là ứng dụng công nghệ chuyên dùng để đọc text ở file
ảnh. Được biết đến là một công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ
viết tay, hay chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ liệu.
Một số các trường mà các ứng dụng OCR đã được sử dụng chẳng hạn như trong
kinh doanh, ngân hàng, chính phủ, ngành du lịch và khách sạn. bên trong kinh doanh,
các ứng dụng OCR được sử dụng cho tự động nhập dữ liệu để nhập đơn hàng và theo
dõi thư mục tệp của tên và số. Bên cạnh đó, trong chính phủ, các ứng dụng OCR đã
được sử dụng để thanh toán tiện ích như thuế, nước, lệ phí, thẻ biểu quyết và hóa đơn
giấy phép.
TÓM TẮT
OCR using
Template Matching
Nhận dạng ký tự quang học bằng cách sử dụng Đối sánh Mẫu là một nguyên mẫu
hệ thống hữu ích để nhận ra ký tự hoặc bảng chữ cái bằng so sánh hai hình ảnh của Ký
tự. Các mục tiêu của nguyên mẫu hệ thống này là phát triển một nguyên mẫu cho Ký tự
quang học Hệ thống nhận dạng (OCR) và để triển khai thuật toán Đối sánh Mẫu trong
việc phát triển nguyên mẫu hệ thống.
Nguyên mẫu hệ thống này có phạm vi của riêng nó đang sử dụng Mẫu Đối sánh
như thuật toán áp dụng cho nhận dạng các ký tự, ký tự được kiểm tra là bảng chữ cái
(A - Z), số đếm (0-9) và dấu, ký hiệu..., sử dụng định dạng hình ảnh bitmap với kích
thước giống nhau và nhận ra bằng cách so sánh giữa hai hình ảnh.
TÓM TẮT
OCR using
Template Matching
Đối sánh mẫu là một trong những Nhận dạng Ký tự Quang học kỹ thuật. Đối sánh
mẫu là quá trình tìm vị trí của một hình ảnh phụ được gọi là mẫu bên trong hình ảnh.
Từng là một số các mẫu tương ứng được tìm thấy ở trung tâm của chúng được sử
dụng làm điểm tương ứng để xác định các thông số đăng ký.
Đối sánh mẫu liên quan đến việc xác định những điểm tương đồng giữa một mẫu
đã cho và các cửa sổ có cùng kích thước trong một hình ảnh và xác định cửa sổ tạo ra
độ đo tương đương cao nhất. Nó hoạt động bằng cách so sánh các tính năng hình ảnh
có nguồn gốc của hình ảnh và mẫu cho mỗi loại có.
TÓM TẮT
Tóm tắt
Matlab 2016b là công cụ phần mềm được sử dụng trong việc phát triển hệ thống.
Hệ thống sử dụng các ảnh mẫu bằng phông chữ Arial có kích thước 42x24 có thể nhận
dạng được chữ cái (A-Z), số đếm (0-9) và dấu cách. Các ký tự đều phải đảm bảo chính
xác và đúng thứ tự.
CÁC BƯỚC THỰC HIỆN
Các bước để nhận biết Thuật toán so khớp mẫu
được triển khai các bước sau:
Hình 1_Lưu đồ thuật toán các bước triển khai Thuật toán so khớp mẫu.
CÁC BƯỚC THỰC HIỆN
Hình 2_Lưu
đồ thuật
toán các
bước thực
hiện trong
nhận dạng
ký tự quang
học.
CÁC BƯỚC THỰC HIỆN
1. Preprocessing
Bức ảnh trước khi được xử lý nhận dạng thì phải trải qua quá trình tiền xử lý . Trong quá
trình tiền xử lý sẽ loại bỏ nhiễu, loại bỏ các bức ảnh chồng lấn và đoạn văn bản không mong
muốn.
CÁC BƯỚC THỰC HIỆN
2. Gray scaling
Là bước đế chuyển đổi ảnh màu sang ảnh đen trắng. Bức ảnh để nhận dạng phải được chuyển
sang ảnh đen trắng để được nhận dạng.
Threshold Image là một loại phân đoạn hình ảnh bằng cách sử dụng một hoặc nhiều đặc điểm
của pixel (ví dụ: giá trị cường độ, giá trị màu).
Đối tượng là tạo ra một phiên bản nhị phân của hình ảnh đầu vào, đặt mỗi pixel vào một trong
hai danh mục, ví dụ: "đen" hoặc "trắng".
Để loại bỏ nhiễu không mong muốn khỏi hình ảnh đen và trắng, tôi đã sử dụng chức năng
'bwareaopen' trong MATLAB để loại bỏ tất cả các thành phần nhỏ dưới 30 điểm ảnh khỏi hình ảnh.
Việc loại bỏ các thành phần nhỏ hơn là một bước quan trọng vì nó sẽ giúp loại bỏ nhiễu không
mong muốn trong hình ảnh mà nếu không loại bỏ cuối cùng có thể ảnh hưởng đến phân đoạn của ký
tự.
CÁC BƯỚC THỰC HIỆN
Hình 7_Thay đổi kích thước hình ảnh cắt thành 42x24 pixel. Hình 8_Bitmap được thực hiện bởi ma trận
42x24 với các tọa độ 0 và 1.
CÁC BƯỚC THỰC HIỆN
6. Character
Recognition
Để nhận dạng các ký tự từ hình ảnh đầu vào được thực hiện bằng phương pháp khớp mẫu.
Sau khi nhận được các hình ảnh phân đoạn thích hợp của ký tự, việc đối sánh chúng với các mẫu
của tập dữ liệu sẽ xác định các ký tự.
Đối sánh mẫu là một thuật toán mà có ý tưởng của đối sánh mọi pixel của một ảnh nhị phân
với mẫu từ dữ liệu thử nghiệm. Ảnh nhị phân được đưa vào sẽ được tính toán giá trị tương quan
(giá trị đối sánh) giá trị tương quan lớn nhất mà được xem xét tùy theo mẫu. Mẫu đối sánh nhận
dạng bằng cách tính toán giá trị tương quan giữa ảnh vào và ảnh mẫu.
Quá trình này liên quan đến việc sử dụng cơ sở dữ liệu của các ký tự hoặc mẫu. Ở đó tồn tại
một mẫu(Templates) cho tất cả các đầu vào có thể có của ký tự Để nhận biết xảy ra,ký tự đầu vào
được so sánh với mỗi mẫu để tìm một kết hợp chính xác hoặc mẫu với đại diện gần nhất của ký tự
đầu vào.Hàm r sau sẽ trả về một giá trị cho biết mức độ tốt của mẫu n khớp với ký tự đầu vào:
CÁC BƯỚC THỰC HIỆN
Hình 9_Ví
dụ của
mẫu nhị
phân.
Sự nhận dạng được hoàn thành với mẫu đối sánh tương quan. Phương pháp này hữu dụng cho tìm
kiếm hình ảnh mà đối sánh ảnh vào. Mẫu đối sánh được làm cho sự so sánh mẫu nhị phân với mẫu dữ
liệu có sẵn. Giá trị tương quan thu được từ ảnh mẫu với dữ liệu vào là 0.634012. Ảnh 10 thể hiện sự so
sánh giữa một mẫu nhị phân và ảnh vào như một mẫu dữ liệu.
CÁC BƯỚC THỰC HIỆN
Hình 11_Sự so sánh giữa mẫu nhị phân và mẫu dữ liệu của ảnh.(1)
GUIDE
1
Tiền xử lý 100%
2
Phân đoạn 95%
Comparison of Template Matching Algorithm and Feature Extraction Algorithm in Sundanese Script Transliteration
Application using Optical Character Recognition
Yana Aditia Gerhana, Muhammad Farid Padilah, Aldy Rialdy Atmadja, Department of Informatics, UIN Sunan Gunung Djati
Bandung, Indonesia
Volume 5 No.1 | June 2020: 73-80
Multi Font And Size Optical Character Recognition Using Template Matching
Jatin M Patil , Ashok P. Mane E&TC Department, B.M.I.T. Solapur, India E&TC Department, T.P.C.T.’s C.O.E. Osmanabad,
India
Volume 3, Issue 1, January 2013