Professional Documents
Culture Documents
02.VCR-Tai Lieu Giai Phap Tich Hop v1.0.1
02.VCR-Tai Lieu Giai Phap Tich Hop v1.0.1
Ngày cập nhật Nội dung thay đổi Mô tả thay đổi A/M/D Phiên bản
8/11/2022 Tạo mới tài liệu Tạo mới tài liệu A 0.1
2
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
3
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
MỤC LỤC
PHẦN I. GIỚI THIỆU TÀI LIỆU......................................................................................5
1. ETL Jobs...............................................................................................................14
2.1. Xử lý Exception và ghi log của MULE SOFT...............................................15
4
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Mục đích của tài liệu: Tài liệu này đặc tả giải pháp tích hợp dữ liệu,
Tổ chức nội dung: Tài liệu giải pháp tích hợp bao gồm các nội dung sau:
Luồng tích hợp dữ liệu: Giới thiệu tổng quan về data flow trong hệ thống. Dựa
vào đó người phát triển, người vận hành có được cái nhìn tổng quan về luồng ETL
dữ liệu
Quản lý tiến trình ETL: Mô tả các cơ chế quản lý các tiến trình ETL dữ liệu như
cơ chế chạy lại dữ liệu, khắc phục sự cố ETL hay quản lý các exception ETL.
Nhân sự phát triển dự án: Dựa vào các đặc tả trong tài liệu này để xây dựng và
phát triển sản phẩm.
Quản trị dự án: Đây là một trong những sản phẩm cần bàn giao cho chủ đầu tư.
Chuyên viên vận hành: Tiếp nhận nghiệm thu.
Bộ tài liệu liên quan đến yêu cầu bao gồm 3 tài liệu, cụ thể:
6 Dimension Chiều phân tích Các bảng lưu trữ chiều phân tích, được
sử dụng trong mô hình cơ sở hướng chủ
đề (subject oriented) và đa chiều (multi
dimensional)
6
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
7
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Máy chủ kho dữ liệu (DWH) chứa các CSDL chính của giải pháp
o CSDL TRUNG GIAN: Là CSDL chứa kết quả tích hợp từ công cụ tích hợp
MULE SOFT
o STAGING: Dữ liệu từ CSDL TRUNG GIAN được đẩy sang phần CSDL
STAGING, tại đây sẽ thực hiện việc kiểm tra, đánh giá dữ liệu trước khi đưa sang
DWH.
o DWH: kho dữ liệu tập trung, lưu trữ các thông tin đã được làm sạch và phục vụ
cho các báo cáo quản trị
o Webportal DB: CSDL của ứng dụng Webportal, dùng để lưu trữ dữ liệu phục vụ
các chức năng
S3 BI SERVER: Máy chủ chứa ứng dujng Tableau Server, xử lý các báo cáo quản trị
BI
S4 WEBPORTAL SERVER: máy chủ chứa ứng dụng Webportal. à ứng dụng dạng
Web, thực hiện các chức năng upload, download các biểu mẫu excel. Các biểu mẫu
này có thể đẩy dữ liệu lên hoặc lấy dữ liệu từ CSDL
BIỂU MẪU EXCEL: Các biểu mẫu upload hoặc download thông qua ứng dụng
webportal
8
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
(01-01) (01-04): Dữ liệu đẩy từ csdl SAP-HR nhân sự thông qua Mule Soft và
đẩy sang CSDL TRUNG GIAN
(01-02) (01-04): Dữ liệu đẩy từ csdl SAP-BPC thông qua Mule Soft và đẩy sang
CSDL TRUNG GIAN
(01-03) (01-04): Dữ liệu đẩy từ csdl SAP-HANA thông qua Mule Soft và đẩy
sang CSDL TRUNG GIAN
9
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Dữ liệu meta: tên bảng, và số lượng bản ghi tương ứng. Các thông tin này được dùng
để đối chiếu sự đủ thiếu của dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ: là các dữ liệu theo bảng mapping, phục vụ phân tích nghiệp vụ
Log: thông tin về các tác vụ (thời điểm chạy, thời lượng bao lâu, tên các tác vụ,…),
lỗi hoặc sự cố phát sinh
10
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Hình 3 : ETL dữ liệu từ CSDL TRUNG GIAN sang STAGING
Dữ liệu từ các nguồn (SAP HANA, SAP-BPC, SAP HR) được đẩy qua công cụ
MuleSoft, và lưu lại CSDL TRUNG GIAN.
Dữ liệu từ STAGING được làm sạch, chuyển đổi định dạng và đưa sang DWH. Tại đây,
các ứng dụng BI, Webportal sẽ khai thác, sử dụng dữ liệu của DWH. Các bước liên quan
sau:
11
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
(03): Xử lý, chuyển đổi, làm sạch dữ liệu từ STAGING và đẩy sang DWH
(05-03): Một số dữ liệu như (vùng miền,…) được upload qua Webportal, sau đó
được đẩy sang DWH
(04): Báo cáo BI lấy dữ liệu từ DWH thông qua các view, hoặc các câu lệnh truy
vấn khác
(06-01): Webportal lấy một số dữ liệu của DWH như: TTTM ( trung tâm thương
mại), bộ phận – phòng ban tại TTTM
(05-02): dữ liệu từ excel đẩy lên, hoặc dữ liệu phục vụ các chức năng của
Webportal
(06-01): dữ liệu từ DWH đẩy sang
(06-02): dữ liệu từ Webportal DB được đẩy ngược lại các file Excel như TTTM,..
(05-03): xem giải thích ở mục (1.2.3)
12
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Giải pháp tích hợp Mule Soft thực hiện việc ETL dữ liệu từ các CSDL nguồn lên CSDL
TRUNG GIAN phải đáp ứng các yêu cầu:
Cài đặt trên máy chủ DWH Server: có bộ cài đặt và cấu hình cho trên máy chủ
DWH Server. Thực hiện các nhiệm vụ chính ETL dữ liệu
Có giao diện, phương thức giám sát hoạt động, giúp đội vận hành hệ thống có thể
theo dõi trạng thái một cách dễ dàng
Có tính năng ghi log: về thời gian chạy (bắt đầu, kết thúc) của từng task vụ, đồng
thời cũng ghi log các issue phát sinh và nguyên nhân có thể gây ra
Tài liệu hướng dẫn sử dụng và cài đặt
Dữ liệu từ SAP-HANA, SAP HR, SAP BPC được lấy và đẩy lên CSDL TRUNG GIAN
theo các yêu cầu sau:
Phương thức trích xuất dữ liệu: qua công cụ tích hợp MuleSoft
Một số quy tắc lấy dữ liệu:
o Dữ liệu thuộc chủ đề tương ứng với các yêu cầu đặt ra trong các file mapping dữ
liệu
o Có bộ khóa nghiệp vụ (ví dụ mã trung tâm, mã bộ phận), bất kỳ các cập nhật nào
phát sinh từ các trường dữ liệu (ngoài khóa) đều được lưu lại và đẩy sang CSDL
TRUNG GIAN
o Ghi thời gian cập nhật, thay đổi dữ liệu tại CSDL tại một cột dữ liệu nào đó trong
bảng
CSDL TRUNG GIAN lưu trữ dữ liệu từ CSDL SAP đẩy lên, từ đây dữ liệu được đẩy
sang STAGING.
13
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Phương thức trích xuất dữ liệu: dữ liệu được lấy ra từ CSDL TRUNG GIAN sẽ
được thực hiện qua phương thức Dblink. Bên STAGING sẽ có các procedure thực
hiện hiên truy vấn để lấy dữ liệu và đổ vào các bảng tương ứng
Một số quy tắc dữ liệu:
Bảng chứa 2 nhóm cột chính: nhóm nghiệp vụ (màu đen) và nhóm track log dữ liệu
(màu đỏ)
TG_R01 Bảng cần tuân thủ cấu trúc theo thiết kê, các cột có 2
nhóm theo nhóm phần trên
TG_R02 Có bộ khóa nghiệp vụ (ví dụ mã trung tâm, mã bộ
phận), bất kỳ các cập nhật nào phát sinh thì lưu thành
bản ghi mới
14
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Job hay Schedule của MuleSoft cần được cài đặt và cấu hình trên DWH Server
Các job ETL dữ liệu đều sử dụng Job của SQL Server
Tần suất chung 1 lần /ngày, khung thời gian đặt vào khoảng 1.00 am – 2.00 am
Tên Job Thời điểm chạy Tần suất Chu kì trích xuất
15
Logo công ty khách hàng
Tài liệu giải pháp tích hợp
Mulesoft SAP Network Error - Cơ chế ghi logfile Kiểm tra kết nối tới
và gửi mail cảnh SAP ( Network,
báo. firewall..).
16