Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

HƯỚNG DẪN SỬ DỤNG PHẦN MỀM SCANTAILOR

XỬ LÝ TÀI LIỆU SAU KHI SỐ HÓA


1. Giới thiệu về phần mềm:
Phần mềm ScanTailor, được phát triển bởi một lập trình viên tên là Joseph
Artsimovich, đây là phần mềm miễn phí tương thích với các hệ điều hành
Windows và Linux. ScanTailor được phát triển từ cuối năm 2007 đến nay đã qua
nhiều phiên bản khác nhau, và dần hoàn thiện trở thành một phần mềm mạnh mẽ
trợ giúp cho việc số hóa tài liệu tại các thư viện và trung tâm thông tin, và cho cả
mục đích cá nhân.
Đây là phần mềm xử lý tài liệu số hóa có khả năng xử lý tài liệu số hóa dạng
ảnh sau khi scan rất hay, đáp ứng tốt các yêu cầu xử lý số hóa trong thư viện, trợ
giúp các công việc mà trước đây thực hiện khá khó khăn hoặc có thể mất nhiều tiền
để mua các phần mềm thương mại như: tách đôi trang (nếu scan ở dạng 2 trang
một file ), xoay thẳng ảnh, cắt bỏ viền, định dạng lại khổ sách...)
Tuy nhiên, phần mềm này chỉ xử lý tài liệu số hóa dạng ảnh, sau khi xử lý
cũng sẽ xuất ra dạng ảnh mà không nhận dạng ký tự quang học (OCR), nhưng
chúng ta hoàn toàn có thể sử dụng kết quả sau khi xử lý với phần mềm ScanTailor
để đưa vào các phần mềm nhận dạng ký tự quang học để nhận dạng, vì chương
trình đã loại bỏ nhiễu, giúp quá trình nhận dạng được ​hoàn thiện hơn.
2. Một số lưu ý trước khi thực hiện:
Để công tác xử lý tài liệu số hóa sau khi scan bằng phần mềm ScanTailor
được ​hiệu quả cần lưu ý một số điểm sau:
- Không quét ảnh ở chế độ đen trắng, Quét ảnh bằng chế độ grayscale,
hoặc màu
- Độ phân giải từ 300 PDI trở lên
- Nên lưu ảnh quét bằng định dạng file TIFF để việc xử lý đạt chất lượng
tốt hơn, có thể chấp nhận ảnh JPEG, nhưng để ở chất lượng cao nhất có
thể.
3. Tải và cài đặt:
- Bước 1: Tải phần mềm ScanTailor phiên bản mới nhất tại địa chỉ:
http://scantailor.sourceforge.net
Lưu ý:​ bản giành cho máy 32bit và 64bit
- Bước 2: C​ài đặt. Tìm đến đường dẫn lưu phần mềm, nhấn đúp chuột để
kích hoạt cài đặt
- Bước 3: Lần lượt chấp nhận và thực hiện các bước như sau: chọn I
Agree ​/ ​Install /​ đợi cho chương trình cài đặt thực hiện xong, nhấn chọn
tiếp Close​ để hoàn tất quá trình cài đặt
4. Hướng dẫn sử dụng
4.1. Tạo Project
Khởi động chương trình ScanTailor, tạo một project mới

Bấm vào New Project


Chương trình ScanTailor xử lý ảnh theo lô. Mỗi một project bao gồm một lô
ảnh đầu vào nằm trong một thư mục. Trong hộp thoại tạo project mới, phần Input
Directory​ chọn thư mục chứa ảnh quét, phần Output Directory​ chọn thư mục
anh(chị ) muốn xuất ảnh sau xử lý.
Giao diện làm việc chương trình gồm có 3 vùng chính:
- Vùng 1​: Thanh trình đơn tác vụ: bao gồm các chức năng được sắp xếp
theo thứ tự xử lý. Khi xử lý một proccess người dùng lần lượt xử lý qua
các tác vụ này. Bên tay phải trên trình đơn là nút bấm Batch
proccess​ cho phép người dùng xử lý tự động tác vụ trên toàn bộ các ảnh
scan trong một project.
- Vùng 2: C ​ ửa sổ hiển thị ảnh đang được chọn xử lý tại thời điểm hiện tại.
- Vùng 3: C ​ ửa sổ hiển thị các ảnh trong project.
4.2. Quá trình xử lý tuần tự theo 6 bước:
➢ Bước 1: Fix Orientation – Điều chỉnh lại hướng trang

Đây là bước kiểm tra ảnh cần xử lý sau khi Import vào chương trình, bởi
trong quá trình quét ảnh, có thể có những trang bị lộn ngược, hoặc ảnh không đúng
với chiều đọc thông thường.
Trong bước này, người xử lý cần kiểm tra từ đầu đến cuối tất cả các trang để
đảm bảo rằng không trang nào bị lộn ngược hoặc xoay ngang/dọc không đúng với
chiều đọc trang sách thông thường, và việc kiểm soát này phải kiểmsoát bằng mắt
thường, do chương trình không tự động hiểu được đâu là trang không đúng. Để
thực hiện việc điều hướng lại trang, có thể chọn từng trang một và nhấn chọn các
biểu tượng trong phần Rotate cho đúng yêu cầu của mình, có thể chọn nhiều ảnh
cùng một lúc bằng cách nhấn giữ phím Ctrl + trang cần chọn.Vì đây là bước kiểm
soát tốn khá nhiều thời gian, do vậy ngay trong quá trình quét ảnh, hoặc sau quá
trình quét ảnh cần kiểm soát chặt chẽ việc này thì khi đưa vào chương trình
ScanTailor có thể bỏ qua bước này và thực hiện ngay bước tiếp theo là bước Split
Pages (tách trang)
Chọn ảnh cần chỉnh hướng
Sử dụng công cụ Rotate để quay đúng hướng Công đoạn này có thể thực hiện hàng
loạt bằng cách bấm vào nút Batch Process chọn All pages để áp dụng cho các trang
đang được xử lý.
➢ Bước 2: Split Pages – Tách trang
Đây là một tính năng rất hay của chương trình, ScanTailor tự động xác định
được trang đôi hay trang đơn, và có khả năng nhận dạng rất tốt đường viền phân
trang, tính năng này đã khắc phục được tình trạng cắt trang thủ công trước đây,
điều này thường chỉ có ở những phần mềm thương mại khá đắt tiền mới có. Đây là
tính năng hoàn toàn tự động, cắt một lượt tất cả các trang, tuy nhiên, đối với các tài
liệu phức tạp, có nhiều khung, bảng hoặc trang đặc biệt... thì cần kiểm tra và điều
chỉnh lại các trang đó bằng tay, dù vậy công việc này cũng khá dễ dàng, nhanh
chóng.
➢ Bước 3: Deskew – Xử lý ảnh nghiêng
Chức năng này xử lý những ảnh được quét đúng chiều nhưng nội dung của
ảnh bị nghiêng (skew). So với trục thẳng đứng, ScanTailor cho phép quay nội dung
ảnh về đúng với thẳng đứng một cách tự động toàn bộ bằng cách nhấn vào nút
(Batch Proccess) trên trình đơn Deskew. Đồng thời ScanTailor cũng cho phép
người dùng cân chỉnh ảnh bằng tay ​rất trực quan và dễ dàng bằng cách bấm và giữ
chuột trái vào một trong hai điểm đánh dấu vòng tròn phân giữa trang và xoay theo
ý của mình.

➢ Bước 4: Select Content - Chọn vùng nội dung


Một trong những tính năng quan trọng và cực kỳ hiệu quả của ScanTailor là
tự động nhận dạng được vùng nội dung của trang sách, tính năng này giúp nhận
diện, gợi ý vùng nội dung sẽ được lấy, hỗ trợ phần xác định lề, tái tạo lại trang ở
phần sau. Vùng được gợi ý này thường có màu xanh để phân biệt với vùng lề,
thường là màu trắng hoặc khác với màu chữ. Công việc này là hoàn toàn tự động
cho tất cả các trang, tuy nhiên nếu máy không nhận dạng đúng vùng nội dung, anh
(chị) hoàn toàn có thể điều chỉnh lại bằng cách đưa con trỏ chuột vào đường biên
của vùng màu xanh, khi con trỏ chuột xuất hiện mũi tên hai chiều, nhấn giữ chuột
trái và kéo đến vị trí cần lấy. Trong một số trường hợp, chương trình có thể nhận
sai vùng nội dung, anh (chị) có thể xóa bỏ vùng đó bằng cách nhấn chuột phải vào
vùng đó và chọn lại.

➢ Bước 5: Margins – Chỉnh lề


Ở khâu này chúng ta cần xác định lề ​trên/dưới/trái /phải/ ​cần lấy ​bằng cách
điều chỉnh thông số vùng ​margins vùng sẽ được thêm vào khi quá trình ​Output
thực hiện (sản phẩm đầu ra) cũng giống như ​Select Content phần lề được đánh
dấu màu xanh. Đây là tính năng rất hay cho phép tái tạo lại trang theo yêu cầu của
anh(chị) Tính năng này hiệu quả hơn nếu chúng ta xuất dữ liệu ở chế độ đen trắng
( black and white)
● Lề cứng: Là khoảng giữa hai vùng có đường viền vạch liền, đường viền này
sẽ cố định giữ nguyên khi trang được xuất ra.
● Lề mềm: Là khoảng giữa hai vùng có đường viền liền nhau và đường viền
vạch đứt, đường viền này sẽ được thêm vào trang khi được xuất ra.
➢ Bước 6: Output - Xuất dữ liệu đầu ra
Công đoạn cuối cùng là xuất dữ liệu đầu ra, chất lượng của giai đoạn này
phụ thuộc vào các công đoạn trước đó, khẳng định đầu ra có phù hợp với yêu cầu
của anh (chị) hay không.
Kết quả của công đoạn này được xuất hiện ngay trên màn hình hiển thị
khung giữa chương trình, đồng thời nó được lưu ngay vào máy tính của anh (chị)
trong thư mục OUT​ là thư mục con của thư mục chứa tệp mà anh(chị ) đã scan.
Không giống như các công đoạn khác, công đoạn này yêu cầu anh (chị) phải
thực hiện hoàn chỉnh từ trang đầu đến trang cuối, khâu "Lựa chọn nội dung - ​Select
Content​" và khâu "Căn lề - ​Margins​". Điều này đảm bảo tính đồng nhất trên tất cả
các trang trong một cuốn sách.
Trong công đoạn này anh(chị ) cần xác định chế độ (mode) đầu ra cho sản
phẩm cuối cùng của mình, mặc định chương trình để chế độ Đen-Trắng (​Black
and White​), anh(chị ) có thể chuyển chế độ Màu/xám (​Color/Grayscale​) hoặc chế
độ Hỗn hợp (Mixed​) nếu muốn.
+C​ hế độ Đen-Trắng ​(​Black and White​)​: Nếu cuốn sách hoặc trang sách
của anh (chị) không chứa ảnh, đồ thị, đồ họa hình vẽ có phân biệt màu sắc, anh,chị
nên chọn dầu ra cho sản phẩm của mình là Đen-Trắng.
+ C​ hế độ Màu/Xám (Color/Grayscale)​: Nếu yêu cầu của anh(chị ) bắt
buộc phải ở chế độ Màu hoặc Xám thì lựa chọn này phù hợp với anh(chị ), tuy
nhiên trong quá trình điều chỉnh lề (margins), anh(chị ) phải quyết định chính xác
lề mềm và ​lề cứng. Theo kinh nghiệm chúng ta không nên chọn lề mềm trong
trường hợp này vì lề mềm sẽ thêm vào trang một vùng mà vùng đó là màu trắng,
do đó trang sẽ không đẹp và có thể phải cắt bỏ nó.
+ Chế độ hỗn hợp ​(M ​ ixed​):​ Trong trường hợp nếu trang sách của anh (chị)
có chứa ảnh, đồ họa, hình vẽ... mà anh(chị ) cần giữ các dạng đó nguyên bản là chế
độ màu hoặc xám, còn lại dạng chữ là chế độ đen-trắng, thì anh(chị ) chọn chế độ
này. Đây là tính năng rất hay và hiệu quả. Về độ phân giải, mặc định chương trình
là 600dpi, nhưng tùy theo yêu cầu, anh (chị) có thể thay đổi cho phù hợp.
Ngoài ra trong bước cuối cùng này chương trình còn tích hợp cho chúng ta
các công cụ hữu ích rất hay đó là: ​Picture Zone (giữ lại vùng ảnh màu được chọn);
Despeckling (​ loại bỏ các nhiễu bẩn trên ảnh); ​Fill Zone (xóa bỏ các vùng trong
ảnh bằng tay); dewarping (xử lý ảnh công vênh). “​Phần này sẽ hướng dẫn cụ thể ở
phần thực hành”.
5. Một số lưu ý khi sử dụng phần mềm
Chương trình chỉ xuất dữ liệu ra theo định dạng ​tiff​, ở các chế độ:
Đen-Trắng (black and white) nén với chuẩn TifG4Fax, còn đối với chế độ
Màu/xám (Color/Gray) và chế độ hỗn hợp (​Mixed) nén với chuẩn LZW, cả hai
chuẩn G4Fax và LZW đều là chuẩn nén không giảm chất lượng. Từ định dạng tiff
này, anh (chi) có thể chuyển sang PDF, hoặc tạo ebook một cách dễ dàng, nhanh
chóng. Phần lớn các công đoạn anh (chị) có thể sử dụng tính năng áp dụng cho
toàn bộ các trang hoặc chỉ riêng trang anh (chị) đang chọn bằng cách lựa chọn
trong phần - ​Apply to​...(Chỉ trang này - This page only hoặc Toàn bộ các trang -
All pages)
6. Kết luận
Đây là phần mềm miễn phí tốt nhất, phù hợp nhất trong việc xử lý ảnh số sau
scan, đáp ứng đầy đủ các yêu cầu cần có trong một phần mềm duy nhất, trong khi
trước đây để xử lý các file ảnh sau số hóa phải cần rất nhiều phần mềm khác nhau
để xử lý cho từng công đoạn.
Trong điều kiện kinh tế khó khăn, các đơn vị không có nhiều kinh phí cho đầu
tư phần mềm, nhân viên không có nhiều kinh nghiệm, kỹ thuật cao, chỉ cần sử
dụng các máy scan thông thường, hoặc máy ảnh kỹ thuật số là đã có thể số hóa tài
liệu, đáp ứng nhu cầu một cách hợp lý nhất.
Biên soạn
Nguyễn Văn Cư

You might also like