Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 16

Vincom Retail Joint Stock Company

DỰ ÁN: BCQT & MODELLING


TÀI LIỆU GIẢI PHÁP TÍCH HỢP DỮ LIỆU CHO CSDL TRUNG
GIAN

Thông tin tài liệu


Tên dự án BCQT & MODELLING
Mã dự án
Hợp đồng
Mã tài liệu VCR_ETL
Phiên bản V0.1
Ngày tạo 10/11/2022

Hà Nội, tháng 11 năm 2022


Logo công ty khách hàng
Tài liệu giải pháp tích hợp

QUẢN LÝ THAY ĐỔI

Ngày cập nhật Nội dung thay đổi Mô tả thay đổi A/M/D Phiên bản

8/11/2022 Tạo mới tài liệu Tạo mới tài liệu A 0.1

16/11/2022 MuleSoft bổ sung M 1.0.1


phần xử lý log,
exception

A- Thêm mới (Add New) M – Hiệu chỉnh (Modify) D – Xóa (Delete)

2
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

TRANG KÝ – PHÊ DUYỆT TÀI LIỆU

Đại diện đội dự án iERP:

Người lập: ............................................ Chữ


ký: ...........................Ngày:..........................

QTDA: ................................................. Chữ


ký: ...........................Ngày:..........................

Đại diện đội dự án ...........................:

Người kiểm tra: ................................... Chữ


ký: ...........................Ngày:..........................

QTDA: ................................................. Chữ


ký: ...........................Ngày:..........................

3
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

MỤC LỤC
PHẦN I. GIỚI THIỆU TÀI LIỆU......................................................................................5

1. Mục đích của tài liệu...............................................................................................5

2. Đối tượng sử dụng...................................................................................................5

3. Tài liệu liên quan.....................................................................................................5

4. Danh sách thuật ngữ và từ viết tắt...........................................................................5

PHẦN II. LUỒNG TÍCH HỢP DỮ LIỆU.........................................................................7

1. Luồng tích hợp dữ liệu............................................................................................7

1.1. Sơ đồ tổng quan...............................................................................................7

1.2. Các bước xử lý.................................................................................................8

2. Phương thức và quy tắc tích hợp...........................................................................12

2.1. Mule Soft.......................................................................................................12

2.2. CSDL SAP.....................................................................................................13

2.3. CSDL TRUNG GIAN....................................................................................13

PHẦN III. QUẢN LÝ TIẾN TRÌNH ETL.......................................................................14

1. ETL Jobs...............................................................................................................14

1.1. ETL Jobs........................................................................................................14

1.2. ETL Jobs Scheduling.....................................................................................15

2. Xử lý lỗi và các ngoại lệ........................................................................................15

2.1. Xử lý Exception và ghi log của MULE SOFT...............................................15

4
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

PHẦN I. GIỚI THIỆU TÀI LIỆU


1. Mục đích của tài liệu

Mục đích của tài liệu: Tài liệu này đặc tả giải pháp tích hợp dữ liệu,

Tổ chức nội dung: Tài liệu giải pháp tích hợp bao gồm các nội dung sau:

 Luồng tích hợp dữ liệu: Giới thiệu tổng quan về data flow trong hệ thống. Dựa
vào đó người phát triển, người vận hành có được cái nhìn tổng quan về luồng ETL
dữ liệu
 Quản lý tiến trình ETL: Mô tả các cơ chế quản lý các tiến trình ETL dữ liệu như
cơ chế chạy lại dữ liệu, khắc phục sự cố ETL hay quản lý các exception ETL.

2. Đối tượng sử dụng

 Nhân sự phát triển dự án: Dựa vào các đặc tả trong tài liệu này để xây dựng và
phát triển sản phẩm.
 Quản trị dự án: Đây là một trong những sản phẩm cần bàn giao cho chủ đầu tư.
 Chuyên viên vận hành: Tiếp nhận nghiệm thu.

3. Tài liệu liên quan

Bộ tài liệu liên quan đến yêu cầu bao gồm 3 tài liệu, cụ thể:

1. [TS] Tài liệu tổng quan hệ thống


2. [TS] Tài liệu giải pháp tích hợp (Tài liệu này)
3. [RD] Tài liệu thiết kế mô hình dữ liệu

4. Danh sách thuật ngữ và từ viết tắt

STT Thuật ngữ Từ đầy đủ Ý nghĩa

1 BI Business Hệ thống kinh doanh thông minh: bao


5
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

Intelligence gồm các phương pháp luận, phần mềm,


kho dữ liệu, và các kỹ thuật phân tích-
đánh giá dữ liệu hỗ trợ việc ra quyết định

2 DWH Data Warehouse Kho dữ liệu

3 Operational Operational Các cơ sở dữ liệu của các phần mềm tác


Database Database nghiệp

4 Webportal Webportal Cổng thông tin quản lý dùng để đăng


nhập và truy cập các thông tin

5 CSDL Cơ sở dữ liệu Cơ sở dữ liệu

6 Dimension Chiều phân tích Các bảng lưu trữ chiều phân tích, được
sử dụng trong mô hình cơ sở hướng chủ
đề (subject oriented) và đa chiều (multi
dimensional)

7 Fact Fact Lưu trữ dữ liệu đo lường chỉ tiêu. Fact:


theo nghĩa là những chứng cứ, số liệu. Vì
thế bảng Fact lưu các thông tin một cách
chân thực (hạn chế tối đa việc sửa đổi)

8 ETL Re-Run Cơ chế chạy lại


Capability dữ liệu

6
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

PHẦN II. LUỒNG TÍCH HỢP DỮ LIỆU


1. Luồng tích hợp dữ liệu
1.1. Sơ đồ tổng quan

Hình 1: Sơ đồ luồng tích hợp dữ liệu


Các thành phần chính bao gồm

 (S1) DATA SOURCES:


Nguồn dữ liệu từ các phần mềm, trong giải pháp này, nguồn gồm có:
o SAP-S4 HANA: dữ liệu từ phần mềm này chứa dữ liệu về kế toán
o SAP BPC: dữ liệu về ngân sách
o SAP HR: dữ liệu về quản lý nhân sự
o MULE SOFT: công cụ tích hợp dữ liệu từ nguồn (S1) sang CSDL TRUNG GIAN
(nằm trên máy chủ S2)
 S2 DWH SERVER:

7
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

Máy chủ kho dữ liệu (DWH) chứa các CSDL chính của giải pháp
o CSDL TRUNG GIAN: Là CSDL chứa kết quả tích hợp từ công cụ tích hợp
MULE SOFT
o STAGING: Dữ liệu từ CSDL TRUNG GIAN được đẩy sang phần CSDL
STAGING, tại đây sẽ thực hiện việc kiểm tra, đánh giá dữ liệu trước khi đưa sang
DWH.
o DWH: kho dữ liệu tập trung, lưu trữ các thông tin đã được làm sạch và phục vụ
cho các báo cáo quản trị
o Webportal DB: CSDL của ứng dụng Webportal, dùng để lưu trữ dữ liệu phục vụ
các chức năng
 S3 BI SERVER: Máy chủ chứa ứng dujng Tableau Server, xử lý các báo cáo quản trị
BI
 S4 WEBPORTAL SERVER: máy chủ chứa ứng dụng Webportal. à ứng dụng dạng
Web, thực hiện các chức năng upload, download các biểu mẫu excel. Các biểu mẫu
này có thể đẩy dữ liệu lên hoặc lấy dữ liệu từ CSDL
 BIỂU MẪU EXCEL: Các biểu mẫu upload hoặc download thông qua ứng dụng
webportal

1.2. Các bước xử lý


1.2.1. Luồng từ nguồn SAP sang CSDL TRUNG GIAN
1.2.1.1. Tổng quan

8
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

Hình 2 : ETL từ CSDL nguồn sang CSDL TRUNG GIAN


Dữ liệu từ các nguồn (SAP HANA, SAP-BPC, SAP HR) được đẩy qua công cụ
MuleSoft, và lưu lại CSDL TRUNG GIAN.

Các bước chính bao gồm:

 (01-01)  (01-04): Dữ liệu đẩy từ csdl SAP-HR nhân sự thông qua Mule Soft và
đẩy sang CSDL TRUNG GIAN
 (01-02)  (01-04): Dữ liệu đẩy từ csdl SAP-BPC thông qua Mule Soft và đẩy sang
CSDL TRUNG GIAN
 (01-03)  (01-04): Dữ liệu đẩy từ csdl SAP-HANA thông qua Mule Soft và đẩy
sang CSDL TRUNG GIAN

9
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

1.2.1.2. Luồng chi tiết

Dữ liệu mỗi lần đổ về đảm bảo:

 Dữ liệu meta: tên bảng, và số lượng bản ghi tương ứng. Các thông tin này được dùng
để đối chiếu sự đủ thiếu của dữ liệu nghiệp vụ
 Dữ liệu nghiệp vụ: là các dữ liệu theo bảng mapping, phục vụ phân tích nghiệp vụ
 Log: thông tin về các tác vụ (thời điểm chạy, thời lượng bao lâu, tên các tác vụ,…),
lỗi hoặc sự cố phát sinh

10
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

1.2.2. Luồng từ nguồn CSDL TRUNG GIAN sang STAGING

Hình 3 : ETL dữ liệu từ CSDL TRUNG GIAN sang STAGING
Dữ liệu từ các nguồn (SAP HANA, SAP-BPC, SAP HR) được đẩy qua công cụ
MuleSoft, và lưu lại CSDL TRUNG GIAN.

1.2.3. Luồng đổ về và khai thác DWH

Hình 4 : ETL dữ liệu với DWH

Dữ liệu từ STAGING được làm sạch, chuyển đổi định dạng và đưa sang DWH. Tại đây,
các ứng dụng BI, Webportal sẽ khai thác, sử dụng dữ liệu của DWH. Các bước liên quan
sau:
11
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

 (03): Xử lý, chuyển đổi, làm sạch dữ liệu từ STAGING và đẩy sang DWH
 (05-03): Một số dữ liệu như (vùng miền,…) được upload qua Webportal, sau đó
được đẩy sang DWH
 (04): Báo cáo BI lấy dữ liệu từ DWH thông qua các view, hoặc các câu lệnh truy
vấn khác
 (06-01): Webportal lấy một số dữ liệu của DWH như: TTTM ( trung tâm thương
mại), bộ phận – phòng ban tại TTTM

1.2.4. Luồng đổ về và khai thác CSDL Webportal DB

Hình 5: Tích hợp và khai thác CSDL Webportal DB


CSDL Webportal DB chứa các dữ liệu từ một phần excel đẩy lên, hoặc lấy từ DWH.

 (05-02): dữ liệu từ excel đẩy lên, hoặc dữ liệu phục vụ các chức năng của
Webportal
 (06-01): dữ liệu từ DWH đẩy sang
 (06-02): dữ liệu từ Webportal DB được đẩy ngược lại các file Excel như TTTM,..
 (05-03): xem giải thích ở mục (1.2.3)

12
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

2. Phương thức và quy tắc tích hợp


2.1. Mule Soft

Giải pháp tích hợp Mule Soft thực hiện việc ETL dữ liệu từ các CSDL nguồn lên CSDL
TRUNG GIAN phải đáp ứng các yêu cầu:

 Cài đặt trên máy chủ DWH Server: có bộ cài đặt và cấu hình cho trên máy chủ
DWH Server. Thực hiện các nhiệm vụ chính ETL dữ liệu
 Có giao diện, phương thức giám sát hoạt động, giúp đội vận hành hệ thống có thể
theo dõi trạng thái một cách dễ dàng
 Có tính năng ghi log: về thời gian chạy (bắt đầu, kết thúc) của từng task vụ, đồng
thời cũng ghi log các issue phát sinh và nguyên nhân có thể gây ra
 Tài liệu hướng dẫn sử dụng và cài đặt

2.2. CSDL SAP

Dữ liệu từ SAP-HANA, SAP HR, SAP BPC được lấy và đẩy lên CSDL TRUNG GIAN
theo các yêu cầu sau:

 Phương thức trích xuất dữ liệu: qua công cụ tích hợp MuleSoft
 Một số quy tắc lấy dữ liệu:
o Dữ liệu thuộc chủ đề tương ứng với các yêu cầu đặt ra trong các file mapping dữ
liệu
o Có bộ khóa nghiệp vụ (ví dụ mã trung tâm, mã bộ phận), bất kỳ các cập nhật nào
phát sinh từ các trường dữ liệu (ngoài khóa) đều được lưu lại và đẩy sang CSDL
TRUNG GIAN
o Ghi thời gian cập nhật, thay đổi dữ liệu tại CSDL tại một cột dữ liệu nào đó trong
bảng

2.3. CSDL TRUNG GIAN

CSDL TRUNG GIAN lưu trữ dữ liệu từ CSDL SAP đẩy lên, từ đây dữ liệu được đẩy
sang STAGING.

13
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

 Phương thức trích xuất dữ liệu: dữ liệu được lấy ra từ CSDL TRUNG GIAN sẽ
được thực hiện qua phương thức Dblink. Bên STAGING sẽ có các procedure thực
hiện hiên truy vấn để lấy dữ liệu và đổ vào các bảng tương ứng
 Một số quy tắc dữ liệu:

Bảng chứa 2 nhóm cột chính: nhóm nghiệp vụ (màu đen) và nhóm track log dữ liệu
(màu đỏ)

Mã quy tắc Tên quy tắc Ghi chú

TG_R01 Bảng cần tuân thủ cấu trúc theo thiết kê, các cột có 2
nhóm theo nhóm phần trên

TG_R02 Có bộ khóa nghiệp vụ (ví dụ mã trung tâm, mã bộ
phận), bất kỳ các cập nhật nào phát sinh thì lưu thành
bản ghi mới

14
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

PHẦN III. QUẢN LÝ TIẾN TRÌNH ETL


1. ETL Jobs
1.1. ETL Jobs
1.1.1. Mule Soft

Job hay Schedule của MuleSoft cần được cài đặt và cấu hình trên DWH Server

1.1.2. CSDL TRUNG GIAN, DWH, STAGING

Các job ETL dữ liệu đều sử dụng Job của SQL Server

1.2. ETL Jobs Scheduling

Tần suất chung 1 lần /ngày, khung thời gian đặt vào khoảng 1.00 am – 2.00 am

Tên Job Thời điểm chạy Tần suất Chu kì trích xuất

Mule Soft 1.00 am 1 lần / 1 ngày So sánh dữ liệu với


ngày hôm trước để
insert

TRUNG GIAN  1.30 AM 1 lần / 1 ngày So sánh dữ liệu với


STAGING ngày hôm trước để
insert

STAGING  1.45 AM 1 lần / 1 ngày So sánh dữ liệu với


DWH ngày hôm trước để
insert

DWH  WEB 2.00 AM 1 lần / 1 ngày So sánh dữ liệu với


PORTAL ngày hôm trước để
insert

15
Logo công ty khách hàng
Tài liệu giải pháp tích hợp

2. Xử lý lỗi và các ngoại lệ


2.1. Xử lý Exception và ghi log của MULE SOFT

Các sự cố không mong muốn như:

Mô tả Loại lỗi Thông báo và ghi Xử lý


log

Mulesoft  SAP Network Error - Cơ chế ghi logfile Kiểm tra kết nối tới
và gửi mail cảnh SAP ( Network,
báo. firewall..).

- Hiển thị trên hệ - Nhân viên vận


thống Monitorning. hành Mule vs SAP
cùng kiểm tra

Mulesoft  SQLException - Cơ chế ghi logfile - Thực hiện cơ chế


TRUNG GIAN và gửi mail cảnh toàn vẹn dữ liệu
báo. theo Idoc.

- Ghi lại thông tin - Mulesoft có cơ


Idoc lỗi. chế Retry

- Hiển thị trên hệ - Thông báo SAP


thống Monitorning. đẩy lại Idoc.

Mulesoft System Mulesoft Cảnh báo nhân Kiểm tra Network,


Error viên vận hành Server Mulesoft,
Mulesoft Mule App...

16

You might also like