Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

Nguyên lý thiết kế DW

Trước tiên, chúng ta cần nắm các nguyên lý thiết kế một hệ thống Data Warehouse:

Nguyên lý Mô tả
DW được xây dựng nhằm đáp ứng yêu cầu phân tích ở các cấp độ khác nhau của
Subject
tiến trình ra quyết định, không tập trung vào xử lý giao dịch/hoạt động hàng ngày.
Oriented
>> Cung cấp một khung nhìn đơn giản, súc tích về các chủ đề cần thiết như khách
(Hướng chủ
hàng, sản phẩm, bán hàng,.. loại bỏ các dữ liệu không hữu ích trong tiến trình ra
đề)
quyết định.
Integrated
Tích hợp dữ liệu từ nhiều nguồn khác nhau (bất kể sai khác về trường/ý nghĩa/định
(Tính toàn dạng dữ liệu) vào một định dạng thống nhất.
vẹn)
Nonvolatile
Dữ liệu phải thống nhất theo thời gian (Hạn chế tối đa sửa đổi/xoá dữ liệu) >> phân
tích sự thay đổi theo thời gian.
(Tính bất biến)
Cung cấp dữ liệu tại các thời điểm khác nhau của môt thông tin và thời điểm thay
đổi
Time-Varying
>> Kết hợp dữ liệu sự kiện/giao dịch (fact) và dữ liệu tham chiếu (reference) chứa
giá trị đại diện thời gian của sự kiện.
(Giá trị lịch
sử)
>> Thích ứng những thay đổi trong tương lai, báo cáo chính xác lịch sử thay đổi.

 
Kiến trúc Data Warehouse

Một nhà kho dữ liệu thường xây dựng theo kiến trúc như hình dưới.

Mô tả:

1. Trích xuất/tải dữ liệu (EXTRACT) từ nguồn (dimensions/facts) >> xử lý và lưu trữ vào
Staging
2. Chuyển đổi dữ liệu nguồn (TRANSFORM) vào định dạng thống nhất và tải (LOAD) vào
nhà kho dữ liệu.
3. Từ nhà kho dữ liệu, dữ liệu được tính toán (AGGREGATION) theo các yêu cầu (reports) để
phục vụ cho các thao tác nghiệp vụ của tiến trình ra quyết định.
4. Dữ liệu được chuyển (TRANSFER) sang các chợ dữ liệu (DATA MART). Từ đây các ứng
dụng kết nối vào để phục vụ các nhu cầu người dùng.

Ba vấn đề chính khi xây dựng nhà kho dữ liệu

Hầu hết mọi hệ thống/dự án công nghệ thông tin, chúng ta đều xem xét dựa trên 3 khía cạnh:

 Cấu trúc (Structure)


 Dữ liệu (Data):
 Tiến trình (Process)

Vì vậy khi xây dựng một hệ thống Data Warehouse chúng ta cũng phải cân nhắc 3 khía cạnh này.
Chúng ta cần phải trả lời được 6 câu hỏi WHAT/WHO/WHERE/WHEN/WHY/HOW

1. Data
 Cần thông tin gì để hỗ trợ ra quyết định? Ở cấp độ nào?
 Dữ liệu được lấy  từ đâu? Định dạng như thế nào?
 Độ lớn dữ liệu? Mức độ tăng tưởng dữ liệu như thế nào? Cần bao nhiêu không gian để chứa?

 2. Structure

 Dữ liệu cần xây dựng theo những chiều nào để phục vụ quá trình phân tích?
 Cấu trúc dữ liệu nào phù hợp với nhu cầu?
o Relational OLAP
o Multi-Dimensional OLAP
o Hybrid OLAP

 3. Process

 Tiến trình Extract-Load-Transform được thực hiện như thế nào? Đặt ở đâu? Lập lịch như thế
nào?
 Tiến trình Aggreation cần điều kiện gì để chạy? Entry-point?
 Có những loại ngoại lệ (exception) nào cần xử lý? Ở cấp độ nào?

You might also like