225988877 Một số kiến thức cơ sở của phương phap Monte Carlo

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 20

Các kiến thức cơ sở của phương pháp Monte Carlo

Đặng Nguyên Phương


dnphuong1984@gmail.com

Ngày 20 tháng 5 năm 2014

Mục lục
1 Mở đầu 2

2 Lịch sử hình thành phương pháp Monte Carlo 3

3 Các phương pháp Monte Carlo 5

4 Cơ sở của phương pháp Monte Carlo 6

5 Số ngẫu nhiên 7
5.1 Các loại số ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.2 Những điều cần lưu ý khi mô phỏng số ngẫu nhiên . . . . . . . . . . . . . . . . . 7
5.3 Phương pháp tạo số ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

6 Phân bố xác suất 8


6.1 Biến ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 Hàm mật độ xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.3 Moment thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
6.4 Luật số lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
6.5 Định lý giới hạn trung tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

7 Lấy mẫu phân bố 13


7.1 Phân bố mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7.2 Các phương pháp lấy mẫu với phân bố xác suất không đồng nhất . . . . . . . . . 13

8 Ước lượng Monte Carlo 17


8.1 Ước lượng mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
8.2 Độ chính xác của ước lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
8.3 Khoảng tin cậy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Tài liệu tham khảo 19

1
Đặng Nguyên Phương Tài liệu nội bộ NMTP

1 Mở đầu
Giữa thế kỉ 20, sự phát triển của các lĩnh vực quan trọng như vật lý hạt nhân, nguyên tử, các
nghiên cứu về vũ trụ, năng lượng, chế tạo các thiết bị phức tạp đòi hỏi phải tiến hành các bài
toán lớn phức tạp, không thể giải được bằng các kĩ thuật có vào thời bấy giờ. Cùng với sự phát
triển máy tính điện tử đã làm xuất hiện khả năng nhận được đầy đủ các mô tả định lượng của
các hiện tượng được nghiên cứu, và phạm vi giải các bài toán được mở rộng. Những yếu tố trên
đã góp phần hình thành nên việc thực nghiệm máy tính (computing experiment).
Thực nghiệm máy tính thực chất là áp dụng máy tính để giải các bài toán, nghiên cứu các kết
cấu hay các quá trình, thực hiện tính toán dựa trên mô hình toán học và vật lý bằng các tính
toán định lượng của đối tượng được nghiên cứu khi tương đối các tham số. Nó trải dài trên rất
nhiều lĩnh vực từ vật lý (computational physics), hóa học (computational chemistry) đến sinh
học (computational biology),...
Một trong những phương pháp thực nghiệm máy tính phổ biến nhất trên thế giới hiện nay là
phương pháp Monte Carlo (Monte Carlo experiment hay Monte Carlo method )1 . Đây là một lớp
các thuật toán (computationl algorithm) sử dụng việc lấy mẫu ngẫu nhiên (random sampling)
để thu được các kết quả số (numerical result). Phương pháp này thường được sử dụng để giải
quyết các bài toán có cấu hình phức tạp, liên quan đến nhiều biến số mà không thể dễ dàng giải
quyết được bằng các thuật toán tất định (deterministic algorithm). Có thể nói hiện nay một
phần lớn các sản phẩm của cả khoa học cơ bản lẫn ứng dụng đều dựa vào bộ ba thực nghiệm,
lý thuyết và Monte Carlo.
Phương pháp Monte Carlo cố gắng mô hình hoá các hiện tượng tự nhiên thông qua sự mô phỏng
trực tiếp các lý thuyết cần thiết dựa theo yêu cầu của hệ, chẳng hạn như mô phỏng sự tương
tác của những vật thể này với những vật thể khác hay là với môi trường dựa trên các mối quan
hệ vật thể − vật thể và vật thể − môi trường đơn giản. Lời giải được xác định bằng cách lấy
mẫu ngẫu nhiên của các quan hệ, hay là các tương tác vi mô, cho đến khi kết quả hội tụ. Do
vậy, cách thực hiện lời giải bao gồm các hành động hay phép tính được lặp đi lặp lại, có thể
được thực hiện trên máy tính.
Các lý thuyết vi mô cung cấp cái nhìn bên trong và cho phép chúng ta có thể suy luận một hệ
vĩ mô sẽ hoạt động như thế nào, phương pháp Monte Carlo không thể cạnh tranh được trong
việc này. Trong việc khám phá các tính chất của các hệ vĩ mô, phương pháp Monte Carlo rất
giống với một người làm thí nghiệm. Nếu không có sự hướng dẫn của lý thuyết, các quá trình
khám phá sẽ trở nên rất khó khăn và có thể bị sai lệch. Tuy nhiên khi bài toán trở nên quá phức
tạp, kĩ thuật Monte Carlo trở nên thuận lợi trong trường hợp bài toán có độ phức tạp tăng cao.
Điều này có thể được mô tả như trong Hình 1. Chúng ta có thể dễ dàng thấy được khi độ phức
tạp của bài toán (chẳng hạn như độ phức tạp của hình học) tăng, thời gian để tính toán của
các phương pháp tất định sẽ tăng nhiều hơn là phương pháp Monte Carlo.
Do những ưu điểm của mình, phương pháp Monte Carlo đã được ứng dụng trong rất nhiều lĩnh
vực khác nhau
• Trong khoa học xã hội: phân luồng giao thông, nghiên cứu sự phát triển dân số, nghiên
cứu thị trường chứng khoán,...
• Trong khoa học tự nhiên: nghiên cứu sự vận chuyển bức xạ, thiết kế lò phản ứng hạt nhân,
thiết kế vũ khí hạt nhân, tính liều bức xạ, sắc động học lượng tử, nghiên cứu sự chuyển
pha, tính các tích phân số (numerical integration),...

1
Cần phân biệt phương pháp Monte Carlo với thuật toán Monte Carlo (Monte Carlo algorithm) vốn là một
thuật toán làm việc với các bit ngẫu nhiên

2
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 1: So sánh thời gian giải quyết bài toán của 2 phương pháp Monte Carlo và tất định

2 Lịch sử hình thành phương pháp Monte Carlo


Tên gọi của phương pháp này được đặt theo tên của một thành phố ở Monaco, nơi nổi tiếng với
các sòng bạc, có lẽ là do phương pháp này dựa vào việc gieo các số ngẫu nhiên. Tuy nhiên việc
gieo số ngẫu nhiên để giải các bài toán đã xuất hiện từ rất lâu rồi.
Vào khoảng thế kỉ 18, người ta đã thực hiện các thí nghiệm mà trong đó họ ném một cây kim
trong một một cách ngẫu nhiên lên trên một mặt phẳng có kẻ các đường thẳng song song và đã
suy ra giá trị của π từ việc đếm số điểm giao nhau giữa các cây kim và các đường thẳng2 .
2
được biết đến với tên gọi bài toán cây kim Buffon (Buffon’s needle problem), trong bài toán này người ta thả
ngẫu nhiên các cây kim có chiều dài l lên trên một mặt sàn có kẻ các đường thằng song song cách nhau một đoạn
t (với l ≤ t) và tính xem xác suất của cây kim cắt ngang đường thẳng là bao nhiêu.
Gọi x là khoảng cách từ tâm cây kim đến đường thẳng gần nhất và θ là góc tạo bởi cây kim và đường thẳng,
ta có hàm mật độ xác suất (probability density function) của x và θ như sau
t 2
0≤x≤ : dx
2 t
π 2
0 ≤ theta ≤ : dθ
2 π
Hàm mật độ xác suất kếp hợp (joint probability density function)
4
dxdθ

l
Điều kiện để cây kim cắt ngang đường thẳng x ≤ sin θ, xác suất để cây kim cắt ngang đường thẳng sẽ thu
2
được bằng cách lấy tích phân hàm mật độ xác suất kết hợp
Z π/2 Z (l/2) sin θ
4 2l
dxdθ =
0 0 tπ tπ

Gỉa sử ta gieo N kim, trong đó có n kim cắt các đường thẳng


n 2l
=
N tπ

2lN
π=
tn

3
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 2: Minh họa bài toán tính số π với các cây kim và đường thẳng song song

Trong khoảng những năm 1930, Enrico Fermi đã sử dụng phương pháp Monte Carlo để giải
quyết các bài toán khuếch tán neutron nhưng không xuất bản bất cứ công trình nào về vấn đề
này.
Phương pháp Monte Carlo chỉ được thực sự sử dụng như một công cụ nghiên cứu khi việc chế
tạo bom nguyên tử được nghiên cứu trong suốt thời kì chiến tranh thế giới lần thứ hai. Công
việc này đòi hỏi phải có sự mô phỏng trực tiếp các vấn đề mang tính xác suất liên quan đến sự
khuếch tán neutron ngẫu nhiên trong vật liệu phân hạch. Năm 1946, các nhà vật lý tại Phòng thí
nghiệm Los Alamos, dẫn đầu bởi Nicholas Metropolis, John von Neumann và Stanislaw Ulam,
đã đề xuất việc ứng dụng các phương pháp số ngẫu nhiên trong tính toán vận chuyển neutron
trong các vật liệu phân hạch. Do tính chất bí mật của công việc, dự án này đã được đặt mật
danh “Monte Carlo” và đây cũng chính là tên gọi của phương pháp này về sau. Các tính toán
Monte Carlo được viết bởi John von Neumann và chạy trên máy tính điện tử đa mục đích đầu
tiên trên thế giới ENIAC (Electronic Numerical Integrator And Computer ) (Hình 3).

Hình 3: Máy tính điện tử ENIAC được đặt tại BRL building 328

Các ý tưởng của phương pháp này được phát triển và hệ thống hóa nhờ vào các công trình của
Harris và Herman Kahn vào năm 1948. Cũng vào khoảng năm 1948, Fermi, Metropolis, và Ulam
thu được ước lượng của phương pháp Monte Carlo cho trị riêng của phương trình Schrodinger.
Mãi cho đến những năm 1970, các lý thuyết mới phát triển về độ phức tạp của tính toán bắt
đầu cung cấp các tính toán có độ chính xác cao hơn, những cơ sở lý luận thuyết phục cho việc
sử dụng và phát triển phương pháp Monte Carlo cho đến tận ngày hôm nay.

4
Đặng Nguyên Phương Tài liệu nội bộ NMTP

3 Các phương pháp Monte Carlo


Sau hơn nửa thế kỉ phát triển đột phá, phương pháp Monte Carlo đã gần như được ứng dụng
rộng khắp trên mọi lĩnh vực của khoa học, công nghệ. Cùng với đó, rất nhiều biến thể của
phương pháp này được xây dựng nhằm phục vụ cho các nhu cầu tính toán cụ thể. Bản thân
tác giả không thể thống kê nổi có bao nhiêu phương pháp Monte Carlo đang được sử dụng hiện
nay, chỉ xin nêu ra một số phương pháp tiêu biểu

Assorted random model hay self-organized criticality (SOC): là thuật ngữ được dùng trong
vật lý để mô tả một hệ động học mà có một điểm tới hạn như là một điểm thu hút. Do vậy các
hoạt động vĩ mô của chúng được thực hiện trên thang không-thời gian − đặc trưng bất biến của
điểm tới hạn của một sự chuyển pha (phase transition), nhưng trong SOC các điểm này được
dẫn ra mà không cần các thông số đưa vào để đạt dược giá trị chính xác. Nó được ứng dụng
nhiều trong các lĩnh vực khác nhau chẳng hạn như địa vật lý, vũ trụ học, sinh học, sinh thái
học, kinh tế, xã hội học,...

Phương pháp mô phỏng Monte Carlo trực tiếp (Direct Simulation Monte Carlo −
DSMC): được đưa ra bởi GS. Prof. Graeme Bird, đây là phương pháp sử dụng kĩ thuật mô
phỏng xác suất để giải các phương trình Boltzman mô tả các dòng khí loãng mà trong đó quãng
đường tự do trung bình của phân tử có cùng bậc (hoặc lớn hơn) thang chiều dài vật lý đặc trưng
của hệ.

Phương pháp Monte Carlo động lực (Dynamic Monte Carlo − DMC): là phương pháp
mô phỏng các trạng thái của phân tử bằng cách so sánh tỉ lệ của các bước riêng lẻ với các số
ngẫu nhiên. Phương pháp DMC thường dùng để khảo sát các hệ không cân bằng chẳng hạn như
các phản ứng, khuyếch tán,... Phương pháp này được ứng dụng chủ yếu để phân tích các hoạt
động của các chất bị hút bám trên các bề mặt. Phương pháp DMC rất giống với phương pháp
Kinetic Monte Carlo mà ta sẽ trình bày ở phần tiếp theo.
Có rất nhiều phương pháp thông dụng có sử dụng mô phỏng DMC, gồm có First Reaction
Method (FRM) và Random Seelection Method (RSM). Dù cho FRM và RSM đều cho ra các kết
quả giống nhau với cùng một mô hình, nhưng các tài nguyên máy tính lại khác nhau phụ thuộc
vào hệ ứng dụng.

Phương pháp Monte Carlo động học (Kinetic Monte Carlo − KMC): là một phương
pháp Monte Carlo dựa trên sự mô phỏng máy tính để mô phỏng sự tiến triển theo thời gian của
một vài quá trình xảy ra trong tự nhiên, điển hình là các quá trình mà chúng xuất hiện với một
tỉ lệ được cho trước. Việc hiểu rõ các tỉ lệ này là rất quan trọng bởi vì chúng là dữ liệu đầu vào
cho thuật toán KMC, tự bản thân phương pháp không thể dự đoán chúng.
Phương pháp KMC cũng rất giống với phương pháp DMC, sự khác biệt chính giữa chúng dường
như nằm ở chỗ thuật ngữ và lĩnh vực sử dụng: KMC được sử dụng chủ yếu trong vật lý còn
DMC thì được sử dụng chủ yếu trong hoá học.

Phương pháp Monte Carlo lượng tử (Quantum Monte Carlo − QMC): là phương pháp
mô phỏng các hệ lượng tử với mục đích giải quyết các bài toán nhiều vật thể (many-body). QMC
dùng phương pháp Monte Carlo bằng cách này hay cách khác để tính toán các tích phân nhiều
chiều. QMC cho phép mô tả một cách trực tiếp các hiệu ứng nhiều vật thể trong hàm sóng, với
độ bất định có thể được giảm với thời gian mô phỏng kéo dài.

5
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Phương pháp Quasi-Monte Carlo (Quasi-Monte Carlo): là một phương pháp để tính toán
một tích phân (hay đôi khi là một bài toán) mà dựa trên cơ sở là các dãy số có sự nhất quán
thấp. Nó trái ngược với phương pháp Monte Carlo thông thường, được dựa trên các dãy số giả
ngẫu nhiên.

4 Cơ sở của phương pháp Monte Carlo


Phương pháp Monte Carlo được xây dựng dựa trên nền tảng
• Các số ngẫu nhiên (random numbers): đây là nền tảng quan trọng, góp phần hình thành
nên “thương hiệu” của phương pháp. Các số ngẫu nhiên không chỉ được sử dụng trong việc
mô phỏng lại các hiện tượng ngẫu nhiên xảy ra trong thực tế mà còn được sử dụng để lấy
mẫu ngẫu nhiên của một phân bố nào đó, chẳng hạn như trong tính toán các tích phân
số (numerical integration).
• Luật số lớn (law of large numbers): luật này đảm bảo rằng khi ta chọn ngẫu nhiên các
giá trị (mẫu thử) trong một dãy các giá trị (quần thể), kích thước dãy mẫu thử càng lớn
thì các đặc trưng thống kê (trung bình, phương sai,...) của mẫu thử càng “gần” với các
đặc trưng thống kê của quần thể. Luật số lớn rất quan trọng đối với phương pháp Monte
Carlo vì nó đảm bảo cho sự ổn định của các giá trị trung bình của các biến ngẫu nhiên
khi số phép thử đủ lớn.
• Định lý giới hạn trung tâm (central limit theorem): định lý này phát biểu rằng dưới một
số điều kiện cụ thể, trung bình số học của một lượng đủ lớn các phép lặp của các biến
ngẫu nhiên độc lập (independent random variables) sẽ được xấp xỉ theo phân bố chuẩn
(normal distrbution). Do phương pháp Monte Carlo là một chuỗi các phép thử được lặp
lại nên định lý giới hạn trung tâm sẽ giúp chúng ta dễ dàng xấp xỉ được trung bình và
phương sai của các kết quả thu được từ phương pháp.
Các thành phần chính của phương pháp mô phỏng Monte Carlo (Hình 4) gồm có
• Hàm mật độ xác suất (probability density function − PDF): một hệ vật lý (hay toán học)
phải được mô tả bằng một bộ các PDF.
• Nguồn phát số ngẫu nhiên (random number generator − RNG): một nguồn phát các số
ngẫu nhiên đồng nhất phân bố trong khoảng đơn vị.
• Quy luật lấy mẫu (sampling rule): mô tả việc lấy mẫu từ một hàm phân bố cụ thể.
• Ghi nhận (scoring hay tallying): dữ liệu đầu ra phải được tích luỹ trong các khoảng giá
trị của đại lượng cần quan tâm.
• Ước lượng sai số (error estimation): ước lượng sai số thống kê (phương sai) theo số phép
thử và theo đại lượng quan tâm.
• Các kĩ thuật giảm phương sai (variance reduction technique): các phương pháp nhằm giảm
phương sai của đáp số được ước lượng để giảm thời gian tính toán của mô phỏng Monte
Carlo.
• Song song hoá (parallelization) và vector hoá (vectorization): các thuật toán cho phép
phương pháp Monte Carlo được thực thi một cách hiệu quả trên một cấu trúc máy tính
hiệu năng cao (high-performance).

6
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 4: Nguyên tắc hoạt động của phương pháp Monte Carlo

5 Số ngẫu nhiên
Trong phương pháp mô phỏng Monte Carlo, chúng ta không thể nào thiếu được các số ngẫu
nhiên. Các số ngẫu nhiên có mặt trong các hiện tượng tự nhiên như nhiễu loạn điện tử, phân
rã phóng xạ,... Để giải một bài toán bằng phương pháp Monte Carlo điều quan trọng nhất là
chúng ta cần tạo ra các số ngẫu nhiên phân bố đều (uniform distribution) trên khoảng (0,1).

5.1 Các loại số ngẫu nhiên


Có 3 loại số ngẫu nhiên chính
• Số ngẫu nhiên thực (real random number ): các hiện tượng ngẫu nhiên trong tự nhiên.
• Số giả ngẫu nhiên (pseudo-random number ): các dãy số xác định mà nó vượt qua được
các kiểm tra về tính ngẫu nhiên.
• Số gần ngẫu nhiên (quasi-random number ): các điểm có sự phân bố tốt (có sự không nhất
quán thấp).

5.2 Những điều cần lưu ý khi mô phỏng số ngẫu nhiên


Có hai điều chúng ta cần lưu ý khi mô phỏng các số ngẫu nhiên
• Máy tính không thể tạo ra các dãy số ngẫu nhiên thật sự mà chỉ là các số giả ngẫu nhiên.
• Bản thân các số không phải là ngẫu nhiên mà chỉ có dãy số mới có thể được xem là ngẫu
nhiên
Một dãy số ngẫu nhiên tốt phải hội tụ đầy đủ các yếu tố sau đây
• Chu kì lặp lại phải dài tức là việc gieo số ngẫu nhiên phải tạo ra được nhiều số trước khi
lặp lại dãy số cũ của nó để cho không có phần nào của dãy bị trùng trong tính toán.
• Các số được tạo ra phải hướng tới phân bố đều, tức là một dãy số bất kì gồm vài trăm số
phải hướng tới phân bố đồng nhất trong toàn vùng khảo sát.
• Các số không tương quan với nhau, tức là các số trong dãy phải độc lập về mặt thống kê
với các số trước nó.
• Thuật toán phải truy xuất nhanh, tức là thời gian máy tính tạo ra số ngẫu nhiên phải nhỏ

7
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Các số giả ngẫu nhiên trong phương pháp Monte Carlo chỉ cần tỏ ra “đủ mức ngẫu nhiên”, nghĩa
là tuân theo phân bố đều hay theo phân bố định trước, khi số lượng của chúng lớn.

5.3 Phương pháp tạo số ngẫu nhiên

Để tạo được một dãy số ngẫu nhiên, chúng ta có thể dùng nhiều phương pháp khác nhau. Ở
đây tôi xin trình bày một phương pháp được dùng phổ biến nhất. Phương pháp này đã được
sử dụng trong nhiều ngôn ngữ lập trình, chẳng hạn như C, Fortran,... đó chính là phương pháp
đồng dư tuyến tính (linear congruential generator ). Thuật toán của phương pháp này như sau

x0 = số gieo ban đầu, là số nguyên lẻ < M (1)


xn = axn−1 + c mod M (2)
ξn = xn /M (3)

Ở đây a và c là các số nguyên và M thường là một số nguyên có giá trị lớn, số gieo ban đầu x0
có thể được đặt bởi người dùng trong quá trình tính toán.
Thực sự đây không phải là một thuật toán tạo số ngẫu nhiên tốt nhất nhưng ưu điểm của thuật
toán này là đơn giản, dễ sử dụng, tính toán nhanh và dãy số ngẫu nhiên do nó tạo ra là khá tốt.
Ta có thể thấy rằng trong dãy số được tạo ra bởi phương pháp này mỗi số chỉ có thể xuất hiện
duy nhất một lần trước khi dãy bị lặp lại. Do đó chu kì của phương pháp đồng dư tuyến tính
(chiều dài của dãy số cho đến khi số đầu tiên bị lặp lại) ≤ M . có nghĩa là trong trường hợp
tốt nhất thì xn sẽ lấy tất cả các giá trị có trong đoạn [0, M − 1]. Đối với phương pháp đồng dư
tuyến tính thì chu kì cực đại sẽ phụ thuộc vào độ dài kí tự của máy tính. Ví dụ: chu kì lớn nhất
đối với máy 16 bit có độ chính xác đơn (single precision) là 216 = 65536 đối và với độ chính xác
kép (double precision) là 232 = 4.29 × 109 .
Ngoài ra còn một số thuật toán khác để tạo dãy số ngẫu nhiên
• Shift register : yn = yn−s + yn−r mod 2 với r > s
• Additive lagged − Fibonacci : zn = zn−s + zn−r mod 2k với r > s
• Phương pháp kết hợp (combined ): wn = yn + zn mod p
• Multiplicative lagged − Fibonacci : xn = xn−s × xn−r mod 2k với r > s
• Phương pháp đồng dư nghịch đảo ngầm (implicit inversive congruential ): xn = axn−1 +
c mod M
• Phương pháp đồng dư nghịch đảo tường minh (explicit inversive congruential ): xn =
an̄ + c mod M

6 Phân bố xác suất


6.1 Biến ngẫu nhiên
Các biến ngẫu nhiên (random variable hay stochastic variable) là các biến mà giá trị mà nó nhận
được một cách ngẫu nhiên. Một biến ngẫu nhiên có thể bao gồm một tập hợp các giá trị mà
mỗi giá trị đi kèm với một xác suất (probability) trong trường hợp giá trị rời rạc hoặc một hàm
mật độ xác suất (probability density function) trong trường hợp giá trị liên tục (xem Hình 5).
Giả sử ta tiến hành phép đo một biến ngẫu nhiên x (trong thực nghiệm) hay gieo ngẫu nhiên
giá trị của biến này (trong phương pháp Monte Carlo) N lần, ta sẽ thu được một tập hợp các
giá trị của biến như sau {x1 , x2 , . . . , xn }.

8
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 5: Minh họa phân bố xác suất của biến rời rạc và liên tục

Giá trị kì vọng (expected value hay expectation) hay còn gọi là giá trị trung bình (mean) của
biến x (thường được kí hiệu là µ) chính là giá trị mà ta “kì vọng” sẽ thu được khi lặp lại N lần
phép đo đó với N tiến đến vô cực. Hay nói một cách khác, giá trị kì vọng chính là trung bình
có trọng số (weight average) của tất cả các giá trị khả dĩ (possible values) của biến x, trọng số
được dùng ở đây chính là xác suất fi tương ứng với các giá trị của biến.
N
P
xi fi
i=1
E(x) = N
(4)
P
fi
i=1

Phương sai (variance) được dùng để đánh giá mức độ phân tán của tập hợp giá trị thu được,
giá trị của phương sai bằng 0 có nghĩa là tất cả các giá trị của tập hợp là đồng nhất. Phương
sai thường được kí hiệu là σ 2 .
N
(xi − µ)2 fi
P
h i
2 i=1
V ar(x) = E (x − E(x)) = N
= E(x2 ) − [E(x)]2 (5)
P
fi
i=1

Độ lệch chuẩn (standard deviation) kí hiệu σ là căn bậc hai của phương sai, có cùng thứ nguyên
với giá trị của biến x nên thường được dùng kèm với giá trị trung bình để biểu diễn kết quả thu
được.

6.2 Hàm mật độ xác suất


Hàm mật độ xác suất (Probability Density Function − PDF)3 của một biến ngẫu nhiên liên tục
là một hàm mô tả khả năng (xác suất) nhận một giá trị của biến đó.
Hàm mật độ xác suất được xem như là chuẩn hóa khi
+∞
Z
f (x)dx = 1 (6)
−∞

Hàm mật độ tích lũy (cumulative density function hay cumulative distribution function − CDF)
3
đôi khi còn được gọi là hàm phân bố xác suất (probability distribution function) hay hàm xác suất (probability
function), tuy nhiên không có quy định nào thống nhất cho các tên gọi. Hàm xác suất đôi khi còn được dùng để
chỉ hàm mật độ tích lũy (cumulative distribution function)

9
Đặng Nguyên Phương Tài liệu nội bộ NMTP

được tính như là tích phân của hàm mật độ xác suất (Hình 6)
Zx
F (x) = f (t)dt (7)
−∞

Hình 6: So sánh hai hàm PDF và CDF, giá trị của hàm CDF tại vị trí x chính là tích phân của
hàm PDF từ −∞ đến x

Trong trường hợp ta có hàm g(x) với x là biến ngẫu nhiên với mật độ f (x), giá trị trung bình
của hàm g(x) sẽ được tính theo công thức
+∞
Z N
X
E[g(x)] = g(x)f (x)dx E[g(x)] = gk fk (8)
−∞ k=1

6.3 Moment thống kê


Các moment thống kê (statistical moment) là các đại lượng thường được sử dụng để đánh giá
dạng (shape) của một phân bố chẳng hạn như vị trí (location), mức độ phân tán (dipersion),...
Moment thống kê bậc n của một phân bố được định nghĩa theo công thức
+∞
Z N
X
(x − µ)n f (x)dx (x − µ)n fk (9)
−∞ k=1

Moment bậc 1 dùng để đánh giá độ lệch của phân bố ra khỏi kì vọng của phân bố (µ). Trong
trường hợp phân bố lý tưởng, giá trị moment này có giá trị bằng 0. Trong thực tế, người ta cũng

10
Đặng Nguyên Phương Tài liệu nội bộ NMTP

xem giá trị trung bình chính là moment bậc 1 của phân bố 4 .
+∞
Z N
X
(x − µ)f (x)dx (x − µ)fk (10)
−∞ k=1

Moment bậc 2 được sử dụng để đánh giá độ phân tán của phân bố. Trong trường hợp phân
bố chỉ có 1 giá trị duy nhất, moment này có giá trị bằng 0. Trong thực tế, người ta xem phương
sai (σ 2 ) là moment bậc 2 của phân bố 5 .
+∞
Z N
X
(x − µ)2 f (x)dx (x − µ)2 fk (11)
−∞ k=1

Moment bậc 3 được dùng để đánh giá độ đối xứng (symmetry) của phân bố. Nếu phân bố
là hoàn toàn đối xứng, moment này có giá trị bằng 0. Nếu phân bố có đuôi dài về theo chiều
dương của trục tọa độ, moment này sẽ có giá trị dương, trong trường hợp ngược lại sẽ có giá trị
âm (xem Hình 7). Trong thực tế, người ta thường hay sử dụng moment chuẩn hóa (normalised
moment hay standardised moment)6 để đánh giá, moment chuẩn hóa bậc 3 của phân bố được
gọi là skewness.
+∞ N
(x − µ)3 f (x)dx
R
(x − µ)3 fk
P
−∞ k=1
(12)
σ3 σ3

Moment bậc 4 được dùng để đánh giá độ phẳng (flatness) của phân bố. Tương tự như
skewness, moment chuẩn hóa bậc 4 (kurtosis) thường được sử dụng
+∞ N
(x − µ)4 f (x)dx
R
(x − µ)4 fk
P
−∞ k=1
(13)
σ4 σ4
Phân bố có dạng phẳng được gọi là platykurtic, còn phân bố có đỉnh nhọn được gọi là leptokurtic,
phân bố chuẩn (normal distribution) có kurtosis bằng 3 và được xem là chuẩn để phân biệt độ
phẳng của các phân bố (xem Hình 7).

6.4 Luật số lớn


Luật số lớn (Law of Large Numbers − LLN) mô tả kết quả thu được khi thực hiện phép đo một
số lớn lần, theo đó giá trị trung bình của các kết quả thu được sẽ càng gần với giá trị kì vọng
khi số phép đo càng lớn (ví dụ trong Hình 8). Luật số lớn có vai trò quan trọng vì nó đảm bảo
cho sự ổn định về mặt lâu dài của giá trị trung bình của các sự kiện ngẫu nhiên.
4
được gọi là moment thô (raw moment) dùng để đánh giá độ lệch của trị trung bình ra khỏi giá trị 0. Khi đó
+∞
Z
công thức tính moment bậc 1 được viết lại xf (x)dx
−∞
5
Các moment loại này được gọi là moment trung tâm (central moment) dùng để đánh giá độ lệch khỏi giá trị
trung bình, khác với moment thô dùng để đánh giá độ lệch khỏi giá trị 0.
6
được tính như là tỉ số giữa moment trung tâm và độ lệch chuẩn của phân bố.

11
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 7: Minh họa skewness và kurtosis

Hình 8: Minh họa Luật số lớn khi thực hiện thí nghiệm tung đồng xu, đồ thị biểu diễn tỉ lệ phần
trăm xuất hiện mặt ngửa (head ) nhiều hơn mặt sấp (tail ) theo số lần tung

6.5 Định lý giới hạn trung tâm


Theo Định lý giới hạn trung tâm (Central Limit Theorem − CLT), tổng của các biến ngẫu nhiên
độc lập (independent random variable) và phân phối đồng nhất (identically distribution) theo
cùng một phân phối xác suất, sẽ hội tụ về một biến ngẫu nhiên nào đó (Hình 9).
Giả sử ta có N tập hợp các biến ngẫu nhiên độc lập Xi (X1 , X2 , ..., XN ), mỗi tập hợp đều có
phân bố tường minh (arbitrary) với xác suất P (x1 , x2 , ..., xN ) có trị trung bình µi , phương sai
hữu hạn σi2 tương ứng. Khi đó đại lượng có dạng chuẩn hóa
N
P PN
xi − µi
i=1 i=1
Xnorm = s (14)
N
σi2
P
i=1

sẽ có một hàm phân bố tích lũy giới hạn xấp xỉ theo phân bố chuẩn.
Một cách đơn giản hơn, Định lý giới hạn trung tâm có thể hiểu như là phân bố của việc lấy mẫu

12
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 9: Minh họa Định lý giới hạn trung tâm, trung bình của các phân bố từ X1 đến X5 sẽ có
dạng phân bố chuẩn

ngẫu nhiên sẽ tiến về phân bố chuẩn khi kích cỡ mẫu được tăng lên, dù cho phân bố thực hay
còn gọi là phân bố quần thể (population) của biến không phải là phân bố chuẩn.
Lưu ý: điền kiện của Định lý giới hạn trung tâm là cả trị trung bình và phương sai của phân
bố phải tồn tại hữu hạn.

7 Lấy mẫu phân bố


7.1 Phân bố mẫu
Phân bố mẫu (sampling distribution) hay còn gọi là phân bố mẫu hữu hạn (finite-sample distri-
bution) là phân bố xác suất thống kê của các giá trị trong mẫu ngẫu nhiên được lấy ra từ một
phân bố quần thể. Phân bố mẫu phụ thuộc vào các yếu tố như phân bố của bản thân quần thể,
cách thức lấy mẫu, kích cỡ mẫu,...
Giả sử ta có một quần thể có phân bố chuẩn với trị trung bình µ và phương sai σ 2 , được kí hiệu
là N (µ, σ 2 ). Sau đó chúng ta lấy các mẫu có kích thước n cho trước từ quần thể này và tính
toán các giá trị trung bình x̄i cho mỗi mẫu được lấy, các giá trị này được gọi là các giá trị trung
bình của mẫu (sample mean) và phân bố của các giá trị trung bình này được gọi là “phân bố
của các giá trị trung bình mẫu”. Phân bố này sẽ tuân theo phân bố chuẩn N (µ, σ 2 /n)7 do phân
bố quần thể là phân bố chuẩn (mặc dù theo Định luật giới hạn trung tâm, nếu kích thước mẫu
n đủ lớn, phân bố trung bình mẫu vẫn có thể được xấp xỉ theo phân bố chuẩn dù cho phân
bố quần thể có là phân bố chuẩn hay không). Trong trường hợp kích thước mẫu nhỏ, phân bố
trung bình mẫu được cho trong Bảng 1.
Độ lệch chuẩn của phân bố trung bình mẫu được gọi là sai số chuẩn (standard error )8 , trong
trường hợp các mẫu độc lập với nhau ta có
σ
σx̄ = √ (15)
n

với σ là độ lệch chuẩn của quần thể và n là kích cỡ mẫu.

7.2 Các phương pháp lấy mẫu với phân bố xác suất không đồng nhất
Thông thường các phép gieo ngẫu nhiên để lấy mẫu trong Monte Carlo đều là các phép lấy mẫu
đồng nhất (uniform sampling), các giá trị được lấy mẫu với xác suất như nhau. Tuy nhiên, trong
rất nhiều trường hợp tính toán Monte Carlo, ta cần phải lấy mẫu từ một biến có hàm mật độ
7
lưu ý phân bố chuẩn này khác với phân bố chuẩn của quần thể
8
cần phân biệt với độ lệch chuẩn của quần thể vốn được gọi với tên standard deviation

13
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Bảng 1: Một số ví dụ phân bố mẫu ngẫu nhiên được lấy từ quần thể

Phân bố quần thể Phân bố mẫu


!
σ2
Normal(µ, σ 2 ) X̄ ∼ Normal µ,
n
Bernoulli(p) nX̄ ∼ Binomial(n, p)
!
σ2 σ2
Normal(µ1 , σ12 ) và Normal(µ2 , σ22 ) X̄1 − X̄2 ∼ Normal µ1 − µ2 , 1 + 2
n n

xác suất không đồng nhất (non-uniform) chẳng hạn như lấy mẫu biến x trong khoảng [a, b] với
hàm mật độ f (x) có phân bố như trong Hình 5. Có rất nhiều phương pháp để thực hiện việc
lấy mẫu này, dưới đây là một số phương pháp thông dụng nhất

Phương pháp biến đổi (transformation method ) hay còn gọi là phương pháp biến đổi ngược
(inverse transform method ). Phương pháp này thường được áp dụng trong những trường hợp
hàm phân bố f (x) có dạng đơn giản, ta có thể thực hiện một phép biến đổi x(t) về một phân
bố t đồng nhất, ta có công thức bảo toàn xác suất

P (x)dx = P (t)dt (16)

với P (x) = f (x) và P (t) = 1 (phân bố đồng nhất) ta thu được



dt
f (x) = = |t0 (x)| (17)
dx

Ví dụ: Lấy mẫu biến ngẫu nhiên x có hàm mật độ xác suất f (x) = ae−ax trong khoảng [0, ∞)
Ta có
dt ln(t)
= f (x) = ae−ax nên t = e−ax hay x = −

dx a

Khi x = 0 thì t = 1 và x = ∞ thì t = 0, do đó ta có thể thu được biến x bằng cách gieo ngẫu
nhiên biến t trong khoảng (0, 1) và áp dụng công thức

ln(1 − t)
x=−
a

Phương pháp chấp nhận − loại bỏ (acceptance-rejection method ) thường được sử dụng
trong những trường hợp hàm f (x) có dạng phức tạp, không thể dễ dàng lấy mẫu được bằng các
phương pháp khác như phương pháp biến đổi. Trong phương pháp này, ta sẽ đi tìm một hàm
phân bố công cụ (instrumental distribution) g(x) có thể dễ dàng lấy mẫu bằng các phương pháp
khác như lấy mẫu phân bố đồng đều hay phương pháp biến đổi.
Gọi C là chặn trên của giá trị cực đại tỉ số f (x)/g(x)
 
f (x)
C ≥ max (18)
g(x)

14
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hàm f (x) sẽ được lấy mẫu bằng cách lấy mẫu hàm g(x) và giữ lại số điểm lấy mẫu với xác suất

f (x)
P = (19)
C g(x)

Hình 10: Minh họa phương pháp chấp nhận − loại bỏ. Đường màu xanh là phân bố f (x) mà ta
muốn lấy mẫu, đường gạch đoạn là phân bố Cg(x), đường màu đỏ và màu xanh lá là xác suất
loại bỏ và chấp nhận giá trị gieo ngẫu nhiên thu được

Cách thức tiến hành phương pháp này như sau


1. Gieo một cặp số ngẫu nhiên (xi , yi ) trong khoảng xmin < x < xmax và 0 < y < Cg(x).
2. Nếu y ≤ f (x) thì chấp nhận giá trị x, và loại bỏ trong trường hợp ngược lại
3. Lặp lại cho đến khi thu được N giá trị x
Nhược điểm của phương pháp này là không phải lúc nào ta cũng có thể xác định được giá trị
của C một cách dễ dàng, và việc lựa chọn giá trị C sẽ quyết định hiệu suất lấy mẫu của phương
pháp cao hay thấp.

Lấy mẫu theo trọng số (importance sampling) trong kĩ thuật này, ta sẽ đi lấy mẫu từ một
phân bố khác thay vì lấy mẫu trực tiếp từ phân bố cần quan tâm. Kĩ thuật này thường được
xem là một kĩ thuật giảm phương sai trong lấy mẫu Monte Carlo.
Ta đã biết rằng kì vọng của biến x được tính theo công thức
Z
E(x) = x f (x)dx (20)

Thay vì lấy mẫu biến x từ phân bố f (x), ta sẽ đi lấy mẫu theo một phân bố g(x) đơn giản hơn,
khi đó kì vọng của x được tính lại theo công thức
Z
f (x)
E(x) = x g(x)dx (21)
g(x)

Điều này tương đương với việc lấy mẫu biến x.w(x) theo phân bố g(x) với w(x) = f (x)/g(x)
được gọi là trọng số lấy mẫu (importance sampling weight).

15
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Phương pháp Metropolis-Hastings (Metropolis-Hastings method ) hay còn được gọi là


phương pháp Markov Chain Monte Carlo (MCMC), thường được áp dụng cho việc lấy mẫu từ các
phân bố nhiều chiều (multi-dimensional distribution). Mục đích của phương pháp Metropolis-
Hastings là tạo ra một tập hợp các trạng thái (giá trị) dựa trên hàm mật độ xác suất f (x) đã
cho trước đó. Để làm được điều này chúng ta sẽ tạo ra một quá trình Markov (Markov process)
mà quá trình này sẽ tiến dần về một phân bố cân bằng (stationary distribution) π(x).
Một chuỗi Markov (Markov chain) là một chuỗi ngẫu nhiên các giá trị x1 , x2 , ..., xN với đặc điểm
là xác suất của giá trị sau (x0 ) chỉ phụ thuộc vào giá trị trước nó (x) và được đặc trưng bởi xác
suất dịch chuyển (transition probability) P (x → x0 ). Phân bố này sẽ tiến về phân bố cân bằng
khi cả hai điều kiện sau được thỏa
• Phân bố cân bằng π(x) phải tồn tại. Điều kiện đủ của nó được xây dựng dựa trên nguyên
lý cân bằng chi tiết (detailed balance), đòi hỏi rằng chuyển dịch x → x0 là có thể nghịch
đảo được (chuyển dịch theo cả hai chiều)

P (x)P (x → x0 ) = P (x0 )P (x0 → x) (22)

• Phân bố cân bằng là duy nhất (unique), điều này được đảm bảo bởi tính chất của quá
trình Markov9 .
Ta có thể viết lại công thức (22)

P (x → x0 ) P (x0 )
= (23)
P (x0 → x) P (x)

Gọi phân bố đề xuất (proposal distribution) g(x → x0 ) là xác suất điều kiện (conditional proba-
bility) để thu được x0 từ x cho trước; và phân bố chấp nhận (acceptance distribution) A(x → x0 )
là xác suất điều kiện để chấp nhận x0 . Xác suất dịch chuyển là tích của hai xác suất này

P (x → x0 ) = g(x → x0 )A(x → x0 ) (24)

Thay (24) vào (23) ta có


A(x → x0 ) P (x0 ) g(x0 → x)
= (25)
A(x0 → x) P (x) g(x → x0 )

Bước kế tiếp là chọn giá trị chấp nhận phù hợp với nguyên lý cân bằng chi tiết, thông thường
người ta chọn
P (x0 ) g(x0 → x)
 
0
A(x → x ) = min 1, (26)
P (x) g(x → x0 )
nghĩa là ta sẽ chọn dịch chuyển x → x0 nếu A(x → x0 ) lớn hơn 1 và loại bỏ nó nếu nhỏ hơn 1.
Các bước tiến hành như sau
1. Chọn ngẫu nhiên 1 giá trị x ban đầu
2. Chọn ngẫu nhiên giá trị x0 tương ứng với phân bố g(x → x0 )10
3. Chấp nhận giá trị mới x0 dựa vào giá trị của A(x → x0 )
9
được gọi là ergodicity đòi hỏi rằng mỗi trạng thái phải (1)phi tuần hoàn (aperiodic), hệ thống không thể trở
lại trạng thái cũ trong một khoảng cố định; (2)có khả năng quay trở lại, kì vọng của số bước dịch chuyển để trở
lại trạng thái cũ phải là hữu hạn
10
Cần phải lưu ý một điều là hàm phân bố g(x → x0 ) là do người dùng tự lựa chọn vào điều chỉnh tùy thuộc
vào từng trường hợp cụ thể.

16
Đặng Nguyên Phương Tài liệu nội bộ NMTP

4. Lặp lại bước 2 cho đến khi N giá trị của x được tạo ra

Các phương pháp khác ngoài những phương pháp vừa kể trên, ta cũng còn nhiều cách lấy
mẫu khác như
• Đối với các phân bố rời rạc, ta có các phương pháp lấy mẫu tuyến tính (linear sampling),
theo cấu trúc cây (decision tree), phương pháp mảng (array method ),...
• Đối với các phân bố liên tục, ta có thuật toán Ziggurat (Ziggurat algorithm), Gibbs (Gibbs
sampling), HMC (Hamiltonian Monte Carlo),...

8 Ước lượng Monte Carlo


8.1 Ước lượng mẫu
Trung bình mẫu (sample mean) là giá trị ước lượng của trung bình quần thể (population
mean) µ dựa trên một mẫu được chọn ngẫu nhiên từ quần thể này. Để ước lượng trung bình
của mẫu ta sử dụng công thức
N
1X
x̄ = xi (27)
N
i=1

với xi là các giá trị trong mẫu và N là kích thước mẫu11 .


Giá trị x̄ này sẽ phân bố quanh giá trị trung bình của quần thể với

µx̄ = E(x̄) = µ (28)


σ2
σx̄2 = V ar(x̄) = (29)
N
Dù cho phân bố của x̄ là đồng nhất với giá trị trung bình µ của quần thể nhưng phương sai sẽ
nhỏ hơn nhiều nếu kích thước của mẫu là lớn.

Phương sai mẫu (sample variance) thường được kí hiệu là S 2 hay SN


2 được xác định bởi

công thức12
N
2 1 X
S = (xi − x̄)2 (30)
N
i=1

Nếu ta xem x̄ như là một ước lượng của trung bình quần thể µ với

E(x̄) = µ (31)

thì S 2 cũng được xem như là một ước lượng của phương sai quần thể σ, tuy nhiên đây lại là
11
giá trị x̄ còn được xem là trung bình không trọng số của các giá trị, ngược lại với µ là trung bình có trọng
số, xem công thức (4)
12
Cần lưu ý phân biệt giữa các đại lượng σ 2 (phương sai của quần thể), σx̄2 (phương sai của phân bố trung bình
mẫu) và S 2 (phương sai mẫu)

17
Đặng Nguyên Phương Tài liệu nội bộ NMTP

một ước lượng bị chệch (biased estimator )


N N
" # " #
1 X 1 X
E[S 2 ] = E (xi − x̄)2 = E ((xi − µ) − (x̄ − µ))2
N N
i=1 i=1
N
" #
1 X
= E (xi − µ)2 − (x̄ − µ)2
N
i=1
 N −1 2
= σ 2 − E (x̄ − µ)2 = σ < σ2

(32)
N
Điều này có nghĩa là E(S 2 ) 6= σ 2 , kì vọng của S 2 không phải là phương sai σ 2 của quần thể13 .
Để hiệu chỉnh cho sự chệch này, chúng ta thay thế S 2 bằng
N
1 X
s2 = (xi − x̄)2 (33)
N −1
i=1

Tỉ số giữa phương sai chưa hiệu chỉnh trên phương sai đã hiệu chỉnh (S/s)2 = N/(N − 1) được
gọi là hệ số hiệu chỉnh Bessel (Bessel’s correction).

8.2 Độ chính xác của ước lượng


Sai số (error ) hay còn gọi là độ bất định (uncertainty) thể hiện độ không chính xác của một
ước lượng so với giá trị thực của nó. Sai số thường hay được chia làm hai loại là sai số ngẫu nhiên
(random error ) hay còn gọi là sai số thống kê (statistical error ) và sai số hệ thống (systematic
error ).
2 2 2
σtotal = σstatistical + σsystematic (34)

Sai số ngẫu nhiên liên quan đến kích thước hữu hạn của mẫu, trong khi đó sai số hệ thống lại
liên quan đến việc mẫu thhu được không đại diện đầy đủ các tính chất của quần thể (vì nhiều
lý do như sai số thiết bị, con người,...). Sai số hệ thống thường khó được định lượng tuy nhiên
trong một số trường hợp cụ thể ta cũng có thể ước lượng được giá trị của nó.

Độ chính xác (accuracy) dùng để đánh giá độ gần (closeness) hay độ chệch (bias) của giá
trị trung bình ước lượng so với giá trị thực của đại lượng vật lý, đôi khi còn được mô tả bởi sai
số hệ thống (systematic error ). Trong Monte Carlo, ta không thể ước lượng độ chính xác này
một cách trực tiếp được.
Các nhân tố chính ảnh hưởng lên độ chính xác gồm có
• Độ chính xác của code (mô hình vật lý,...)
• Mô hình bài toán (hình học, nguồn,...)
• Lỗi do người sử dụng
13
Lý do là vì trung bình mẫu x̄ là một
P ước lượng bình phương cực tiểu tuyến tính (linear least squares) của µ,
giá trị của x̄ được chọn sao cho tổng (xi − x̄)2 đạt giá trị nhỏ nhất. Do vậy, khi đưa thêm số hạng vào trong
tổng, giá trị của tổng chỉ có thể tăng lên, đặc biệt khi µ 6= x̄ ta có
N N
1 X 1 X
(xi − x̄)2 < (xi − µ)2
N i=1 N i=1

18
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Độ tập trung (precision) là độ bất định của của các thăng giáng thống kê trong việc lấy mẫu.
Mối tương quan giữa độ chính xác và độ tập trung được mình họa trong Hình 11 và Hình 12.

Hình 11: Minh họa độ chính xác và độ tập trung của một phân bố ước lượng

Hình 12: Minh họa các mức độ của độ chính xác và độ tập trung

8.3 Khoảng tin cậy


Khoảng tin cậy (Confidence Interval − CI) là một khoảng giá trị mà có thể chứa trong nó giá
trị của tham số cần ước lượng (unknown parameter ). Độ rộng của khoảng tin cậy cho chúng ta
thông tin về độ bất định của phép tính ước lượng tham số14 .
Các khoảng tin cậy thông dụng đối với phân bố chuẩn như sau (Hình 13)15

P (xn − 1σ < µ < xn + 1σ) = 68% (35)


P (xn − 2σ < µ < xn + 2σ) = 95% (36)
P (xn − 3σ < µ < xn + 3σ) = 99% (37)

14
Nhiều người cho rằng xác suất được cho bởi khoảng tin cậy chính là xác suất mà giá trị trung bình của quần
thể rơi vào trong khoảng tin cậy đó, suy nghĩ này là không đúng. Giá trị trung bình của quần thể là một hằng số,
nó không thay đổi, do đó xác suất để giá trị trung bình quần thể rơi vào trong khoảng tin cậy chỉ là một trong 2
giá trị 0 hoặc 1.
15
Các giá trị xác suất như 68%, 95%, 99% được cho bởi khoảng tin cậy tính theo σ chỉ đúng trong trường hợp
phân bố một chiều (1-dimension)

19
Đặng Nguyên Phương Tài liệu nội bộ NMTP

Hình 13: Minh họa khoảng tin cậy của phân bố chuẩn

Tài liệu
[1] J.M. Hammersley, D.C. Handscomb, Monte Carlo Methods, Methuen & Co Ltd (1975).
[2] A.F. Bielajew, Fundamentals of the Monte Carlo Method for Neutral and Charged Particle
Transport, National Reseach Council of Canada (2001).
[3] Malvin H. Kalos, Paula A. Whitlock, Monte Carlo Methods, WILEY-VCH Verlag GmbH
& Co. KGaA (2004).
[4] http://en.wikipedia.org/wiki/Monte_Carlo_method
[5] http://www.inference.phy.cam.ac.uk/tcs27/talks/sampling.html#0
[6] https://quanto.inria.fr/pdf_html/mc_standard_doc/
[7] http://en.wikipedia.org/wiki/Metropolis%E2%80%93Hastings_algorithm

20

You might also like