Download as pdf or txt
Download as pdf or txt
You are on page 1of 114

KHO DỮ LIỆU VÀ HỆ THỐNG HỖ

TRỢ RA QUYẾT ĐỊNH


CHƯƠNG 7
MỘT SỐ CÔNG NGHỆ VÀ KỸ THUẬT CHO HỆ HỖ
TRỢ RA QUYẾT ĐỊNH

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý
Mục tiêu

1. Hiểu về báo cáo kinh doanh


2. Nhận biết nhu cầu và sức mạnh của báo cáo kinh doanh
3. Hiểu tầm quan trọng của trực quan hóa dữ liệu/thông tin
4. Tìm hiểu các loại kỹ thuật trực quan khác nhau
5. Đánh giá cao giá trị mà phân tích hình ảnh mang lại cho BI/BA
6. Biết các khả năng và hạn chế của bảng điều khiển

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 2
Nội dung

1. Báo cáo kinh doanh


2. Một số kỹ thuật cho mô hình dự báo
3. Một số kỹ thuật ra quyết định dựa trên mô hình
4. Hệ ra quyết định tự động và Hệ chuyên gia

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 3
Báo cáo kinh doanh

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 4
Tổng quan về báo cáo kinh doanh (Business report)

Báo cáo = Thông tin  Quyết định


Báo cáo?
Một số phần tử giao tiếp được tổ chức để truyền đạt thông tin đặc biệt
Một báo cáo có thể đáp ứng nhiều chức năng
To ensure proper departmental functioning
To provide information
To provide the results of an analysis
To persuade others to act
To create an organizational memory…

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 5
Báo cáo kinh doanh là gì?

Một tài liệu được tạo ra nhằm chứa thông tin về tình hình kinh
doanh
Mục đích: để cải thiện các quyết định quản trị
Nguồn: dữ liệu từ bên trong và bên ngoài tổ chức (thông qua
việc dùng ETL)
Hình thức: text + tables + graphs/charts
Phân phối: in-print, email, portal/intranet
 Thu nhận dữ liệu (Data acquisition)  Tạo thông tin
(Information generation)  Ra quyết định (Decision making) 
Quản lý qui trình (Process management)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 6
Business Reporting

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 7
Chìa khóa của báo cáo thành công

Rõ ràng (Clarity) …


Ngắn gọn (Brevity) …
Đầy đủ (Completeness) …
Chính xác (Correctness) …
Các kiểu báo cáo (theo nội dung và hình thức)
Phi hình thức (Informal) – a single letter or a memo
Hình thức (Formal) – 10-100 pages; cover + summary + text
Báo cáo ngắn (Short report) – periodic, informative, investigative

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 8
Cam kết chất lượng dịch
Các loại báo cáo kinh doanh
vụ (service-level
agreements)
Báo cáo số liệu quản trị (Metric Management Reports)
Help manage business performance through metrics (SLAs for externals;
KPIs for internals)
Can be used as part of Six Sigma and/or TQM Total Quality
Management
Dashboard-Type Reports
Graphical presentation of several performance indicators in a single page
using dials/gauges
Báo cáo dạng thẻ điểm cân bằng (Balanced Scorecard)
Include financial, customer, business process, and learning & growth
indicators

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 9
Các thành phần của Hệ thống báo cáo kinh doanh

Các đặc tính chung


OLTP (online transaction processing)
ERP, POS, SCM, RFID, Sensors, Web, …
Nguồn dữ liệu(dung lượng, sự đa dạng, tốc độ, …)
ETL
Lưu trữ dữ liệu (Data storage)
Business logic: cách mà các sự kiện/giao dịch được chuyển đổi thành
metrics, scorecards, và dashboards
Phương tiện phân phối (Publication medium)
Sự đảm bảo (Assurance)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 10
Trực quan dữ liệu và thông tin (Data and Information
Visualization)
“The use of visual representations to explore, make sense of, and
communicate data.”
Data visualization vs. Information visualization
Information = aggregation, summarization, and contextualization
of data
Related to information graphics, scientific visualization, and
statistical graphics
Often includes charts, graphs, illustrations, …

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 11
Tóm tắt lịch sử trực quan dữ liệu

Data visualization can date back to the second century AD


Most developments have occurred in the last two and a half
centuries
Until recently it was not recognized as a discipline
Today’s most popular visual forms date back a few centuries

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 12
The First Pie Chart
Created by William Playfair in 1801

William Playfair is
widely credited as
the inventor of the
modern chart,
having created the
first line and pie
charts.

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 13
Decimation of Napoleon’s Army During the 1812
Russian Campaign

• Arguably the most popular multi-dimensional chart By Charles Joseph Minard


Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 14
Tóm tắt lịch sử trực quan dữ liệu

1900s –
more formal attitude toward visualization
focus on color, value scales, and labeling
Publication of the book Semiologie Graphique
2000s –
Emergence of Internet as the medium for information visualization 
raising visual literacy
Incorporate interaction, animation, 3D graphics-rendering, virtual worlds,
real-time data feed
2010s and beyond – ?

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 15
Các kiểu Biểu đồ và Đồ thị

Which one to use? Where and when?


 Basic Charts and Graphs  Specialized Charts and Graphs
 Line Chart  Histogram
 Bar Chart  Gantt Chart
 PERT Chart
 Pie Chart
 Geographic Map
 Scatter Plot
 Bullet Graph
 Bubble Chart
 Heat Map / Tree Map
 Highlight Table

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 16
A Gapminder Chart Wealth and Health of Nations

See
gapminder.org
for interesting
animated
examples

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 17
Góc phần tư ma thuật (Magic Quadrant)

Gartner Magic Quadrant là đỉnh cao nghiên cứu trong một thị
trường cụ thể, mang đến cho ta cái nhìn toàn cảnh về các vị trí
tương đối của các đối thủ cạnh tranh trên thị trường. Bằng cách
áp dụng kỹ thuật đồ họa và bộ tiêu chí đánh giá thống nhất,
Magic Quadrant giúp ta nhanh chóng xác định cách các nhà cung
cấp công nghệ đang thực hiện tầm nhìn đã đề ra của họ như thế
nào và cách họ hoạt động tốt như thế nào theo quan điểm thị
trường của Gartner.
(Nguồn:
https://www.gartner.com/en/research/methodologies/magic-
quadrants-research)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 18
Góc phần tư ma thuật (Magic Quadrant)

Các đơn vị hàng đầu


(Leaders)
Các đơn vị có tầm nhìn
(Visionaries)
Các đơn vị thị trường
ngách (Niche Players)
Các đơn vị thách thức
(Challengers)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 19
Sự nổi lên của trực quan dữ liệu và phân tích trực
quan (Visual Analytics)

Magic Quadrant for Business Intelligence and Analytics Platforms


(Source: Gartner.com)
Many data visualization companies are in the 4th quadrant
There is a move toward visualization

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 20
Magic Quadrant for Analytics and Business Intelligence
Platforms

Source: Gartner (February 2020)


Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 21
Sự nổi lên của trực quan dữ liệu và phân tích trực
quan (Visual Analytics)

Emergence of new companies


Tableau, Spotfire, QlikView, …
Increased focus by the big players
MicroStrategy improved Visual Insight
SAP launched Visual Intelligence
SAS launched Visual Analytics
Microsoft bolstered PowerPivot with Power View
IBM launched Cognos Insight
Oracle acquired Endeca

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 22
Phân tích trực quan (Visual Analytics)

A recently coined term


Information visualization + predictive analytics
Information visualization
Descriptive, backward focused
“what happened” “what is happening”
Predictive analytics
Predictive, future focused
“what will happen” “why will it happen”
There is a strong move toward visual analytics

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 23
Visual Analytics by SAS Institute

SAS Visual Analytics Architecture


Big data + In memory + Massively parallel processing + ..

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 24
Visual Analytics by SAS Institute

At teradatauniversitynetwork.com, you can learn more about SAS


VA, experiment with the tool

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 25
Performance Dashboards

Performance dashboards are commonly used in BPM software


suites and BI platforms
Dashboards provide visual displays of important information that
is consolidated and arranged on a single screen so that
information can be digested at a single glance and easily drilled in
and further explored

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 26
Performance Dashboards

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 27
Performance Dashboards

Dashboard design
The fundamental challenge of dashboard design is to display all the
required information on a single screen, clearly and without distraction, in a
manner that can be assimilated quickly
Three layer of information
Monitoring
Analysis
Management

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 28
Performance Dashboards

What to look for in a dashboard


Use of visual components to highlight data and exceptions that require
action.
Transparent to the user, meaning that they require minimal training and
are extremely easy to use
Combine data from a variety of systems into a single, summarized, unified
view of the business
Enable drill-down or drill-through to underlying data sources or reports
Present a dynamic, real-world view with timely data
Require little coding to implement/deploy/maintain

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 29
Best Practices in Dashboard Design

Benchmark KPIs with Industry Standards


Wrap the Metrics with Contextual Metadata
Validate the Design by a Usability Specialist
Prioritize and Rank Alerts and Exceptions
Enrich Dashboard with Business-User Comments
Present Information in Three Different Levels
Pick the Right Visual Constructs
Provide for Guided Analytics

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 30
Business Performance Management (BPM)

Business Performance Management (BPM) is…


 A real-time system that alerts managers to potential
opportunities, impending problems and threats, and then
empowers them to react through models and collaboration.
Also called corporate performance management (CPM by Gartner
Group), enterprise performance management (EPM by Oracle),
strategic enterprise management (SEM by SAP)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 31
Business Performance Management (BPM)

BPM refers to the business processes, methodologies, metrics,


and technologies used by enterprises to measure, monitor, and
manage business performance.
BPM encompasses three key components
A set of integrated, closed-loop management and analytic processes,
supported by technology …
Tools for businesses to define strategic goals and then measure/manage
performance against them
Methods and tools for monitoring key performance indicators (KPIs), linked
to organizational strategy

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 32
Một số kỹ thuật cho mô hình dự báo

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 33
Một số kỹ thuật cho mô hình dự báo

1. Data Mining
2. Artificial neural networks
3. Support vector machines
4. The k-nearest neighbor

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 34
Data Mining Concepts/Definitions
Why Data Mining?

More intense competition at the global scale.


Recognition of the value in data sources.
Availability of quality data on customers, vendors, transactions,
Web, etc.
Consolidation and integration of data repositories into data
warehouses.
The exponential increase in data processing and storage
capabilities; and decrease in cost.
Movement toward conversion of information resources into
nonphysical form.

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 35
Definition of Data Mining

The nontrivial process of identifying valid, novel, potentially


useful, and ultimately understandable patterns in data stored in
structured databases. (Fayyad et al., (1996))
Keywords in this definition: Process, nontrivial, valid, novel,
potentially useful, understandable.
Data mining: a misnomer?
Other names: knowledge extraction, pattern analysis, knowledge
discovery, information harvesting, pattern searching, data
dredging,…

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 36
Data Mining là sự giao thoa của nhiều ngành khoa học

Ar
Pattern

tifi
cia
Recognition

l In
tic

tel
tis

lig
Sta

en
DATA

ce
Machine
MINING Learning

Mathematical
Modeling Databases

Management Science &


Information Systems

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 37
Data Mining Characteristics/Objectives

Source of data for DM is often a consolidated data warehouse


(not always!).
DM environment is usually a client-server or a Web-based
information systems architecture.
Data is the most critical ingredient for DM which may include
soft/unstructured data.
The miner is often an end user
Striking it rich requires creative thinking
Data mining tools’ capabilities and ease of use are essential
(Web, Parallel processing, etc.)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 38
Data in Data Mining

Data: a collection of facts usually obtained as the result of


experiences, observations, or experiments.
Data may consist of numbers, words, images, …
Data: lowest level of abstraction (from which information and
knowledge are derived).
Data

Unstructured or
Structured
Semi-Structured

Categorical Numerical Textual Multimedia HTML/XML

Nominal Ordinal Interval Ratio

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 39
A Taxonomy for Data Mining Tasks

Data Mining Learning Method Popular Algorithms

Classification and Regression Trees,


Prediction Supervised
ANN, SVM, Genetic Algorithms

Decision trees, ANN/MLP, SVM, Rough


Classification Supervised
sets, Genetic Algorithms

Linear/Nonlinear Regression, Regression


Regression Supervised
trees, ANN/MLP, SVM

Association Unsupervised Apriory, OneR, ZeroR, Eclat

Link analysis Unsupervised Expectation Maximization, Apriory


Algorithm, Graph-based Matching

Sequence analysis Unsupervised Apriory Algorithm, FP-Growth technique

Clustering Unsupervised K-means, ANN/SOM

Outlier analysis Unsupervised K-means, Expectation Maximization (EM)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 40
1.4 Quá trình khám phá tri thức

This is a view from typical machine learning and statistics


communities
Input Data Data Pre- Data Post-
Processing Mining Processing

Data integration Pattern discovery Pattern evaluation


Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 41
Data Mining Tasks (cont.)

Time-series forecasting
Part of sequence or link analysis?
Visualization
Another data mining task?

Types of DM
Hypothesis-driven data mining
Discovery-driven data mining

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 42
Data Mining Applications

Customer Relationship Management


Maximize return on marketing campaigns
Improve customer retention (churn analysis)
Maximize customer value (cross-, up-selling)
Identify and treat most valued customers

Banking & Other Financial


Automate the loan application process
Detecting fraudulent transactions
Maximize customer value (cross-, up-selling)
Optimizing cash reserves with forecasting

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 43
Data Mining Applications (cont.)

Retailing and Logistics


Optimize inventory levels at different locations
Improve the store layout and sales promotions
Optimize logistics by predicting seasonal effects
Minimize losses due to limited shelf life

Manufacturing and Maintenance


Predict/prevent machinery failures
Identify anomalies in production systems to optimize the use
manufacturing capacity
Discover novel patterns to improve product quality

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 44
Data Mining Applications (cont.)

Brokerage and Securities Trading


Predict changes on certain bond prices
Forecast the direction of stock fluctuations
Assess the effect of events on market movements
Identify and prevent fraudulent activities in trading

Insurance
Forecast claim costs for better business planning
Determine optimal rate plans
Optimize marketing to specific customers
Identify and prevent fraudulent claim activities

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 45
Data Mining Applications (cont.)

Computer hardware and software


Science and engineering
Government and defense
Homeland security and law enforcement
Travel industry
Healthcare Increasingly more
popular application areas
Medicine for data mining
Entertainment industry
Sports
Etc.
Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 46
Data Mining Process

A manifestation of best practices


A systematic way to conduct DM projects
Different groups has different versions
Most common standard processes:
CRISP-DM (Cross-Industry Standard Process for Data Mining)
SEMMA (Sample, Explore, Modify, Model, and Assess)
KDD (Knowledge Discovery in Databases)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 47
Data Mining Process: CRISP-DM

1 2
Business Data
Understanding Understanding

3
Data
Preparation
Data Sources
6
4
Deployment
Model
Building

5
Testing and
Evaluation

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 48
Neural Network Concepts

Neural networks (NN): a brain metaphor for information


processing
Neural computing
Artificial neural network (ANN)
Many uses for ANN for
pattern recognition, forecasting, prediction, and classification
Many application areas
finance, marketing, manufacturing, operations, information systems, and
so on

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 49
Biological Neural Networks

Two interconnected brain cells (neurons)

Dendrites
Synapse
Synapse

Axon

Axon

Dendrites Soma
Soma

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 50
Processing Information in ANN

A single neuron (processing element – PE) with inputs and


outputs
Inputs Weights Outputs

x1
w1 Y1

x2 w2 Neuron (or PE) f (S )


. S =
n

∑XW
Y
. Y2
. i i

.
.
i =1

Summation
Transfer
Function
.
wn Yn
xn

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 51
Biology Analogy

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 52
Elements of ANN

Processing element (PE)


Network architecture
Hidden layers
Parallel processing
Network information processing
Inputs
Outputs
Connection weights
Summation function

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 53
Elements of ANN

x1 (PE)

x2 Weighted Transfer
(PE) Sum Function
Y1
x3 (Σ) (f)

(PE)

(PE) (PE)

Output
(PE)
Layer

Hidden
(PE)
Layer Neural Network with
Input
One Hidden Layer
Layer

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 54
Elements of ANN

(a) Single neuron (b) Multiple neurons

x1 x1 w11 (PE) Y1
w1
w21
(PE) Y

w1 w12
x2 Y = X 1W1 + X 2W2
x2 w22 (PE) Y2
PE: Processing Element (or neuron)

Y1 = X 1W11 + X 2W21
w23
Summation Function for a Single Y2 = X 1W12 + X 2W22
Y3
Neuron (a), and Y3 = X 2W23 (PE)

Several Neurons (b)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 55
Elements of ANN

Transformation (Transfer) Function


Linear function
Sigmoid (logical activation) function [0 1]
Tangent Hyperbolic function [-1 1]

Summation function: Y = 3(0.2) + 1(0.4) + 2(0.1) = 1.2


X1 = 3 Transfer function: YT = 1/(1 + e-1.2) = 0.77
W
1 =0
.2

W2 = 0.4 Processing Y = 1.2


X2 = 1
element (PE) YT = 0.77
.1
3
=0
W

X3 = 2
 Threshold value?

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 56
Neural Network Architectures

Architecture of a neural network is driven by the task it is


intended to address
Classification, regression, clustering, general optimization, association, ….
Most popular architecture: Feedforward, multi-layered perceptron
with backpropagation learning algorithm
Used for both classification and regression type problems
Others – Recurrent, self-organizing feature maps, Hopfield
networks, …

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 57
Neural Network Architectures
Feed-Forward Neural Networks

Feed-forward MLP with 1 Hidden Layer

Socio-demographic

= Predicted
vs. Actual
Religious
Voted “yes” or
“no” to legalizing
Financial gaming

. .
. .
. .
Other

INPUT HIDDEN OUTPUT


LAYER LAYER LAYER

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 58
Neural Network Architectures
Recurrent Neural Networks

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 59
Other Popular ANN Paradigms
Self-Organizing Maps (SOM)

Input 1  First introduced


by the Finnish
Professor Teuvo
Input 2
Kohonen
 Applies to
clustering type
problems
Input 3

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 60
Other Popular ANN Paradigms
Hopfield Networks

I n p u t
 First introduced
by John Hopfield
O  Highly
u
t interconnected
p
u
neurons
t  Applies to solving
complex
computational
problems (e.g.,

.
.
.
optimization
problems)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 61
Development Process of an ANN

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 63
An MLP ANN Structure for the Box-Office Prediction
Problem

Class 1 - FLOP
1 (BO < 1 M)

MPAA Rating (5) Class 2


(G, PG, PG13, R, NR)
1 2 (1M < BO < 10M)

Competition (3) Class 3


(High, Medium, Low)
2 3 (10M < BO < 20M)

Star Value (3) Class 4


(High, Medium, Low)
3 4 (20M < BO < 40M)

Genre (10) Class 5


(Sci-Fi, Action, ... )
4 5 (40M < BO < 65M)

Technical Effects (3) Class 6


(High, Medium, Low)
5 6 (65M < BO < 100M)

Sequel (2) Class 7


6 7
(Yes, No)
... ... (100M < BO < 150M)

Number of Screens Class 8


(Positive Integer)
7 8 (150M < BO < 200M)

Class 9 - BLOCKBUSTER
9 (BO > 200M)

INPUT HIDDEN HIDDEN OUTPUT


LAYER LAYER I LAYER II LAYER
(27 PEs) (18 PEs) (16 PEs) (9 PEs)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 64
Testing a Trained ANN Model

Data is split into three parts


Training (~60%)
Validation (~20%)
Testing (~20%)

k-fold cross validation


Less bias
Time consuming

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 65
AN Learning Process
A Supervised Learning Process

ANN
Model
 Three-step process:
 1. Compute temporary
Compute
output outputs.
 2. Compare outputs with
desired targets.
Adjust
weights
No Is desired
output
achieved?
 3. Adjust the weights and
repeat the process.
Yes

Stop
learning

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 66
Backpropagation Learning

Backpropagation of Error for a Single Neuron

α(Zi – Yi)
x1 error
w1

x2 w2 Neuron (or PE) f (S )


. S =
n

∑XW
Y = f (S ) Yi
. i i

.
i =1

Transfer
Summation
Function
wn
xn

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 67
Backpropagation Learning

The learning algorithm procedure


Initialize weights with random values and set other network parameters
Read in the inputs and the desired outputs
Compute the actual output (by working forward through the layers)
Compute the error (difference between the actual and desired output)
Change the weights by working backward through the hidden layers
Repeat steps 2-5 until weights stabilize

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 68
Support Vector Machines (SVM)

Goal of SVM: to generate mathematical functions that map input


variables to desired outputs for classification or regression type
prediction problems.
First, SVM uses nonlinear kernel functions to transform non-linear
relationships among the variables into linearly separable feature spaces.
Then, the maximum-margin hyperplanes are constructed to optimally
separate different classes from each other based on the training dataset.
SVM has solid mathematical foundation!

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 69
Support Vector Machines (SVM)

A hyperplane is a geometric concept used to describe the


separation surface between different classes of things.
In SVM, two parallel hyperplanes are constructed on each side of the
separation space with the aim of maximizing the distance between them.
A kernel function in SVM uses the kernel trick (a method for
using a linear classifier algorithm to solve a nonlinear problem)
The most commonly used kernel function is the radial basis function (RBF).

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 70
Application Case 6.4

Managing Student Retention with Predictive Modeling

Questions for Discussion


Why is attrition one of the most important issues in higher
education?
How can predictive analytics (ANN, SVM, and so forth) be used
to better manage student retention?
What are the main challenges and potential solutions to the use
of analytics in retention management?

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 71
Application
Case 6.4

Managing Student Retention with Predictive Modeling

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 72
How Does an SVM Work?

Following a machine-learning process, an SVM learns from the


historic cases.
The Process of Building SVM
1. Preprocess the data
Scrub and transform the data.
2. Develop the model.
Select the kernel type (RBF is often a natural choice).
Determine the kernel parameters for the selected kernel type.
If the results are satisfactory, finalize the model; otherwise change the kernel type and/or kernel parameters to
achieve the desired accuracy level.
3. Extract and deploy the model.

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 73
The Process of Building an SVM

Pre-Process the Data


Training
ü Scrub the data
data
“Identify and handle missing,
incorrect, and noisy”
ü Transform the data
“Numerisize, normalize and
standardize the data”

Pre-processed data

Develop the Model


Experimentation
ü Select the kernel type “Training/Testing”
“Choose from RBF, Sigmoid
or Polynomial kernel types”
ü Determine the kernel values
“Use v-fold cross validation or
employ ‘grid-search’”

Validated SVM model

Deploy the Model


Prediction
ü Extract the model coefficients Model
ü Code the trained model into
the decision support system
ü Monitor and maintain the
model

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 74
SVM Applications

SVMs are the most widely used kernel-learning algorithms for


wide range of classification and regression problems
SVMs represent the state-of-the-art by virtue of their excellent
generalization performance, superior prediction power, ease of
use, and rigorous theoretical foundation
Most comparative studies show its superiority in both regression
and classification type prediction problems.
SVM versus ANN?

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 75
k-Nearest Neighbor Method (k-NN)

ANNs and SVMs  time-demanding, computationally intensive


iterative derivations
k-NN is a simplistic and logical prediction method, that produces
very competitive results
k-NN is a prediction method for classification as well as
regression types (similar to ANN & SVM)
k-NN is a type of instance-based learning (or lazy learning) –
most of the work takes place at the time of prediction (not at
modeling)
k : the number of neighbors used

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 76
k-Nearest Neighbor Method (k-NN)

k=3

k=5
Yi

The answer depends on


the value of k

Xi X
Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 77
The Process of k-NN Method

Training Set
Parameter Setting

Historic Data ü Distance measure


ü Value of “k”

Validation Set

Predicting
Classify (or Forecast)
new cases using k
number of most
similar cases

New Data

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 78
k-NN Model Parameter

Similarity Measure: The Distance Metric

Numeric versus nominal values?

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 79
k-NN Model Parameter

Number of Neighbors (the value of k)


The best value depends on the data
Larger values reduce the effect of noise but also make boundaries between
classes less distinct
An “optimal” value can be found heuristically
Cross Validation is often used to determine the best value for k
and the distance measure

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 80
Application Case 6.5

Efficient Image Recognition and Categorization with kNN

Questions for Discussion


Why is image recognition/classification a worthy but difficult
problem?
How can k-NN be effectively used for image
recognition/classification applications?

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 81
Một số kỹ thuật ra quyết định dựa
trên mô hình

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 82
Major Modeling Issues

Problem identification and environmental analysis (information


collection)
Variable identification
Influence diagrams, cognitive maps
Forecasting/predicting
More information leads to better prediction
Multiple models: An MSS can include several models, each of
which represents a different part of the decision-making problem
Categories of models >>>
Model management – DBMS vs. MBDM

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 83
Categories of Models

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 84
Model Categories
Static and Dynamic Models

Static Analysis
Single snapshot of the situation
Single interval
Steady state
Dynamic Analysis
Dynamic models
Evaluate scenarios that change over time
Time dependent
Represents trends and patterns over time
More realistic: Extends static models

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 85
Model Categories
Current Trends in Modeling

Development of Model/Solution Libraries


NEOS Server for Optimization
 neos.mcs.anl.gov/neos/index.html
Resources link at informs.org
 lionhrtpub.com/ORMS.shtml
Web-based modeling (optimization/simulation/…)
Multidimensional analysis (modeling)
Influence Diagrams

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 86
Examples - Components of Models

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 87
The Structure of a
Mathematical Model

 The components of a quantitative model are linked


together by mathematical (algebraic) expressions—
equations or inequalities.
 Example – Profit - 𝑃𝑃 = 𝑅𝑅 − 𝐶𝐶

whereP= profit, R= revenue, and C= cost


 Example - Simple Present-Value -
𝐹𝐹 100,000
𝑃𝑃 = 𝑛𝑛
= 5
= 62,092
(1 + 𝑖𝑖) 1 + 0.1
whereP= present value, F= future cash-flow, i=
interest-rate, and n = number of period (years)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 88
Modeling and Decision Making -
Under Certainty, Uncertainty, and Risk

Certainty
Assume complete knowledge
All potential outcomes are known
May yield optimal solution
Uncertainty
Several outcomes for each decision
Probability of each outcome is unknown
Knowledge would lead to less uncertainty
Risk analysis (probabilistic decision making)
Probability of each of several outcomes occurring
Level of uncertainty => Risk (expected value)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 89
Modeling and Decision Making -
Under Certainty, Uncertainty, and Risk

The Zones of Decision Making

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 90
Decision Modeling with Spreadsheets

Spreadsheet
Most popular end-user modeling tool
Flexible and easy to use
Powerful functions (add-in functions)
Programmability (via macros)
What-if analysis and goal seeking
Simple database management
Seamless integration of model and data
Incorporates both static and dynamic models
Examples: Microsoft Excel, Lotus 1-2-3

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 91
Optimization
via Mathematical Programming

Mathematical Programming
 A family of tools designed to help solve managerial problems in which the
decision maker must allocate scarce resources among competing activities
to optimize a measurable goal

Optimal solution: The best possible solution to a modeled


problem
Linear programming (LP): A mathematical model for the optimal solution
of resource allocation problems. All the relationships are linear.

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 92
Application Case 9.5

Spreadsheet Model Helps Assign Medical Residents


Company
Problem description
Proposed solution
Results

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 93
LP Problem Characteristics

Limited quantity of economic resources


Resources are used in the production of products or services
Two or more ways (solutions, programs) to use the resources
Each activity (product or service) yields a return in terms of the
goal
Allocation is usually restricted by constraints

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 94
Linear Programming Steps

Identify the …
Decision variables
Objective function
Objective function coefficients
Constraints
Capacities / Demands / …

Represent the model


LINDO: Write mathematical formulation
EXCEL: Input data into specific cells in Excel
Run the model and observe the results

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 95
Modeling in LP - An Example

The Product-Mix Linear Programming Model


MBI Corporation
Decision variable: How many computers to build next month?
Two types of mainframe computers: CC-7 and CC-8
Constraints: Labor limits, Materials limit, Marketing lower limits
CC-7 CC-8 Rel Limit
Labor (days) 300 500 <= 200,000 /mo
Materials ($) 10,000 15,000 <= 8,000,000 /mo
Units 1 >= 100
Units 1 >= 200
Profit ($) 8,000 12,000 Max
Objective: Maximize Total Profit / Month
Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 96
Common Optimization Models

Product-mix problems (how many of each product to produce for


max profit)
Transportation (minimize cost of shipments)
Assignment (best matching of objects)
Investment (maximizing rate of return)
Network optimization models for planning and scheduling
Replacement (capital budgeting), …

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 97
Multi-Criteria Decision Making with Pairwise
Comparisons

Having more than one criterion makes decision-making process


complicated
Usually some type of weighing algorithm is used to analyze such
problems
The Analytic Hierarchy Process
Developed by Thomas Saaty (1995, 1996)
A very popular technique for MCDM
Popular Tools - ExpertChoice.com
Web-based Tools - Web-HIPRE (hipre.aalto.fi)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 98
Hệ ra quyết định tự động và Hệ
chuyên gia

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 99
Automated Decision Systems

A relatively new approach to supporting decision making


a.k.a. Decision Automation Systems (DAS)
Often a rule-based system that provides a solution in a functional
area
“If only 70 percent of the seats on a flight from LA to NY are sold 3 days
prior to departure, offer a discount of x to nonbusiness travelers”
Applies to repetitive/structured decisions

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 100
Automated Decision-Making Framework

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 101
Architecture of the Airline Revenue Management
Systems

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 102
Artificial Intelligence (AI)

Artificial intelligence (AI)


A subfield of computer science, concerned with symbolic reasoning and
problem solving

AI has many definitions…


Behavior by a machine that, if performed by a human being, would be
considered intelligent
“…study of how to make computers do things at which, at the moment,
people are better
Theory of how the human mind works

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 103
AI Objectives

Make machines smarter (primary goal)


Understand what intelligence is
Make machines more intelligent & useful

Signs of intelligence…
Learn or understand from experience
Make sense out of ambiguous situations
Respond quickly to new situations
Use reasoning to solve problems
Apply knowledge to manipulate the environment

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 104
Test for Intelligence

Turing Test for


Intelligence
A computer can be
considered to be smart
only when a human
interviewer, “conversing” Questions / Answers

with both an unseen


human being and an
unseen computer, can not
determine which is which.
 - Alan Turing
Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 105
Expert Systems (ES)

Is a computer program that attempts to imitate expert’s


reasoning processes and knowledge in solving specific problems
Most Popular Applied AI Technology
Enhance Productivity
Augment Work Forces
Works best with narrow problem areas/tasks
Expert systems do not replace experts, but
Make their knowledge and experience more widely available, and thus
Permit non-experts to work better

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 106
Important Concepts in ES

Expert
 A human being who has developed a high level of proficiency in
making judgments in a specific domain
Expertise
The set of capabilities that underlines the performance of human experts,
including
extensive domain knowledge,
heuristic rules that simplify and improve approaches to problem solving,
meta-knowledge and meta-cognition, and
compiled forms of behavior that afford great economy in a skilled performance

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 107
Features and Concepts in ES

Experts / Expertise
Degrees or levels of expertise
Ratio of non-experts to experts  100 to 1
Transferring Expertise
From expert to computer to nonexperts via acquisition, representation,
inferencing, transfer
Symbolic Reasoning / Inferencing
Deep Knowledge / Self Knowledge

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 108
Applications of Expert Systems

Classical Applications
DENDRAL
Applied knowledge (i.e., rule-based reasoning)
Deduced likely molecular structure of compounds
MYCIN
A rule-based expert system
Used for diagnosing and treating bacterial infections
XCON
A rule-based expert system
Used to determine the optimal information systems configuration

New applications: Credit analysis, Marketing, Finance,


Manufacturing, Human resources, Science and Engineering,
Education, …

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 109
Applications of Expert Systems

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 110
Structure of Expert Systems

Development Environment
Consultation Environment
Major Components
Knowledge acquisition subsystem
Knowledge Engineer
Knowledge Base
Inference Engine
User Interface
Blackboard (workplace)
Explanation subsystem (justifier)
Knowledge-refining system

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 111
Structures of Expert
Systems

en nt
nm e
t
ro pm
Human

vi lo
Other Knowledge

En eve
Expert(s)
Sources

D
en n
nm tio
Knowledge Information

t
ro ta
Elicitation Gathering

vi sul
En on
C
Knowledge
Rules
Knowledge
Knowledge Base(s)
Engineer (Long Term)
Inferencing
Rules

Rule
Questions Inference Engine Firings
/ Answers

Explanation Knowledge
User Facility Refinement Refined
User Rules
Interface
Blackboard (Workspace)

Facts Data /
Facts Information

Working External Data


Memory Sources
(Short Term) (via WWW)
Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 112
Nguồn tri thức
Chuyên gia
khác

Cơ sở tri thức
(dài hạn)

Hỏi/Đáp

Giao tiếp
gười dùng

Sự kiện Sự

Vùng nhớ
làm việc
(ngắn hạn)

Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 113
This Photo by Unknown Author is licensed
under CC BY-SA
Bộ môn Khoa học máy tính – Khoa Hệ thống thông tin quản lý 114

You might also like