Download as pdf or txt
Download as pdf or txt
You are on page 1of 46

ĐỒ HỌA THỐNG KÊ TRANG 1/46

Vì một ngày mai tươi sáng hơn cho nghiên cứu y học trên quê hương tôi

Thông tin: Tác giả là một bác sĩ chuyên khoa Sinh lý Tim mạch-Hô hấp và Giấc ngủ. Từ năm 2012 đến nay tác giả
làm công việc tư vấn phân tích dữ liệu và trình bày văn bản khoa học trong ngành công nghiệp thiết bị Y sinh. Tác
giả cũng thường chia sẻ các bài thực hành về Thống kê Y học và Machine learning cho đối tượng bác sĩ hoặc sinh
viên Y khoa tại Việt Nam qua Facebook.

Quyển sách này thuộc về thư viện tài liệu tham khảo của nhóm Khoa học dữ liệu Y sinh (Biomedical Datascience)
mà tác giả nằm trong ban quản trị. Vì sự tồn tại của nhóm và nhằm duy trì những dự án khác trong tương lai,
chúng tôi nghiêm cấm việc chia sẻ miễn phí hoặc buôn bán tài liệu này bởi cá nhân hoặc tổ chức bên ngoài nhóm.
Trong trường hợp đọc được tài liệu này từ một nơi khác, bạn vẫn có thể ghé thăm nhóm trên Facebook và tùy
tâm đóng góp cho nhóm qua Paypal. Toàn bộ lợi nhuận thu được từ độc giả sẽ được tái sử dụng duy nhất cho
lợi ích của cộng đồng và hỗ trợ sinh hoạt học thuật trong nhóm. Xin chân thành cảm ơn sự ủng hộ của các bạn.

Ảnh bìa: Tiểu thư Florence Nightingale ngồi đọc sách - tranh vẽ của họa sĩ J. B. Wandesforde (1856). Không chỉ
được tôn vinh như biểu tượng thánh thiện của nghề Y tá, Florence Nightingale còn là một tấm gương mẫu mực
cho tinh thần khoa học và sáng tạo. Bà là một trong những người tiên phong ứng dụng đồ họa thống kê để khai
thác dữ liệu trong ngành Y khoa.

ĐỒ HỌA THỐNG KÊ TRANG 2/46


Mục lục
1 Khởi hành ................................................................................................................. 4
1.1 Tại sao có quyển sách này ?......................................................................................... 4
1.2 Giới thiệu nội dung và quy ước trình bày .................................................................... 5
2 Những khái niệm cơ bản của đồ họa thống kê ........................................................... 7
2.1 Nhận thức thị giác........................................................................................................ 7
2.2 Phân tích trực quan và lợi ích của nó .......................................................................... 9
2.3 Những nguyên lý của đồ họa thống kê...................................................................... 11
3 Tài liệu tham khảo ................................................................................................... 46
3.1 Nhóm tài liệu lý thuyết đồ họa thống kê ................................................................... 46
3.2 Nhóm tài liệu về Infographics và đồ họa mỹ thuật ................................................... 46
3.3 Nhóm tài liệu ggplot2 thực dụng ............................................................................... 46

ĐỒ HỌA THỐNG KÊ TRANG 3/46


1 Khởi hành

1.1 Tại sao có quyển sách này ?

Có nhiều nguyên nhân khiến tôi muốn nói về đồ họa thống kê. Trước hết do nhu cầu cá nhân, điều mà tôi muốn
thực hiện từ rất lâu để nhìn lại chính mình. Từ khi còn nhỏ, tôi đã phát hiện mình có niềm đam mê đặc biệt về
hội họa và có năng khiếu diễn đạt ý tưởng bằng hình vẽ. Tiếc thay, mô hình hướng nghiệp tại Việt Nam đã không
cho tôi cơ hội chọn nghề truyền thông hay nghệ thuật, thay vào đó tôi phải cố gắng học tốt những môn khoa học
tự nhiên như những bạn bè khác và trở thành một bác sĩ. Sau đó tôi có một thời gian khoảng 7 năm du học tại
Paris (Pháp) và 5 năm làm việc trong ngành công nghiệp Kỹ thuật Y sinh. Suốt thời gian này, kỹ năng hội họa trong
tôi bộc lộ ra một cách tự nhiên trong mọi công việc. Từ năm 2012, cuộc mưu sinh nơi xứ người đã đưa tôi vào
nghề phân tích dữ liệu và tôi đã phát hiện đồ họa thống kê như sự kết hợp giữa tất cả những mảnh ghép trong
cuộc đời mình: Thống kê học, mỹ thuật, hội họa và nghiên cứu y học. Tôi còn nhớ mình đã thức nhiều đêm để
tìm về cội nguồn của đồ họa thống kê, từ ngữ pháp đồ họa cho đến mảng truyền thông, Infographics và Mỹ thuật
ứng dụng.

Tôi cũng có cơ hội thực hành những điều đã học khi sử dụng ngôn ngữ R. Như một quy luật, những người sử
dụng R đều trở thành sứ giả của nó, chia sẻ lại những kiến thức và kỹ năng cho cộng đồng. Trong khi tham gia các
nhóm về R tại Việt Nam, tôi đọc được các bài viết nêu lên nhược điểm lớn của các nghiên cứu sinh trong nước
đó là sự cẩu thả khi trình bày biểu đồ thống kê và cách họ lệ thuộc vào những công cụ hạn chế như SPSS hoặc
Excel. Hậu quả là sự yếu kém cả về nội dung và hình thức trình bày, làm giảm năng suất công bố khoa học của
người Việt. Không khó để kiểm chứng điều này vì tôi từng trợ giúp nhiều đàn em, bạn bè và bình duyệt các nghiên
cứu của đồng nghiệp từ Việt Nam. Khi đọc các luận văn tốt nghiệp và bài báo khoa học, thậm chí những bản thảo
gửi cho tạp chí quốc tế, ta có thể thấy họ sử dụng biểu đồ tùy tiện, sai quy cách ra sao.

Vấn đề trên chỉ có thể được cải thiện nếu các bạn tiếp xúc được với những nguồn kiến thức về đồ họa thống kê
– vốn chưa bao giờ được truyền đạt nơi giảng đường đại học. Tuy nhiên, trái với những giải thuật và mô hình
thống kê phức tạp nhưng có thể tìm được tài liệu hướng dẫn dễ dàng, tài liệu về đồ họa lại khan hiếm hơn nhiều.
Ngay cả khi các bạn chủ động tự học cũng không có nhiều cơ hội đọc được sách tốt. Thật vậy, trong 100 quyển
sách về thống kê thì số tựa sách hữu ích về đồ họa chưa có được 1 quyển.

Lại có một vấn đề nan giải khác, đó là chuyên đề đồ họa thống kê rộng hơn chúng ta nghĩ. Nó là sự giao thoa của
4 lĩnh vực: Thống kê, khoa học máy tính, Mỹ thuật và truyền thông. Ở mỗi ngành, người ta có những suy nghĩ,
mối quan tâm và mục tiêu khác nhau. Dù tiếp cận từ hướng nào thì người học cũng chỉ có thể nắm được kiến
thức và kỹ năng cho riêng ngành đó mà thôi. Mỗi cách tiếp cận có ưu/nhược điểm riêng, áp dụng cho từng hoàn
cảnh. Các giáo trình thống kê thường giới thiệu về đồ họa như những công cụ rời rạc gọi là “biểu đồ…” . Cách
tiếp cận này thực dụng nhưng chưa tối ưu, vì nó bị giới hạn cả về hình thức lẫn nội dung: người học chỉ biết một
số ít dạng biểu đồ và dùng chúng quen tay nhưng lại không hiểu nguyên nhân vì sao và không biết rằng có những
giải pháp khác tốt hơn, không có khả năng tùy biến và sáng tạo. Thí dụ, nhiều bài báo y học vẫn còn sử dụng biểu
đồ hộp với error bar như một tập tục truyền thống tuy có những cách khác tốt hơn, thí dụ violin plot… Trong khi
đó, giáo trình Infographics thường giản lược nội dung thống kê, nhưng phân tích rất sâu về cơ chế nhận thức thị
giác, hiệu ứng truyền thông cũng như thuật sử dụng màu sắc. Ngành khoa học máy tính thì tạo ra học thuyết của
riêng họ với tên gọi “ngữ pháp đồ họa”, họ nhìn biểu đồ như hàm, giải phẫu nó đến từng chi tiết với mục tiêu
diễn đạt hình vẽ bằng ngôn ngữ máy tính. Cách tiếp cận này bổ ích, nhưng quá phức tạp cho mục tiêu thực dụng.

Xét rằng:
(1) Các bạn bác sĩ và nghiên cứu sinh trong ngành Y khoa đang có nhu cầu tự học về đồ họa thống kê;
(2) Chưa có tài liệu nào về chủ đề này bằng Việt ngữ,
(3) Một tài liệu phổ thông về đồ họa thống kê cần phải cân bằng được giữa các chuyên ngành: thống kê, truyền
thông, mỹ thuật; cũng như kết hợp được yếu tố lý thuyết, kỹ thuật và cảm hứng sáng tạo…
Tôi nhận ra mình phải bắt tay vào để tạo ra một tài liệu như vậy.

Sau nhiều tháng làm việc, đây là kết quả khiêm tốn mà tôi đạt được. Tôi không thể ngăn được cảm giác phấn
khích của mình lúc này, nên chúng ta bắt đầu hành trình nhé ?

ĐỒ HỌA THỐNG KÊ TRANG 4/46


1.2 Giới thiệu nội dung và quy ước trình bày

1.2.1 Đối tượng độc giả

Do thống kê được ứng dụng phổ quát trong nhiều chuyên ngành, tài liệu này phù hợp cho tất cả mọi người, mọi
trình độ, mọi lĩnh vực chuyên môn (tác giả cam đoan là các bạn chỉ cần một kiến thức thống kê tối thiểu trong
suốt hành trình, thậm chí không yêu cầu bạn biết ngôn ngữ lập trình nào cả). Tuy nhiên, vì tác giả là một bác sĩ
nên tất cả những thí dụ minh họa trong sách đều có bối cảnh liên quan đến Y học - như vậy đối tượng chuyên
biệt mà tác giả muốn hướng đến chính là những anh chị em, bạn bè đồng nghiệp của mình, nhất là các em sinh
viên Y khoa.

1.2.2 Mục tiêu của tài liệu

Mục tiêu chính của tài liệu tương đối hẹp: Giới thiệu về đồ họa thống kê như giải pháp nhằm khảo sát dữ liệu
một cách trực quan. Điều này có hai ý nghĩa: Thứ nhất, nó giúp các bạn ưu tiên phục vụ cho bản thân mình chứ
không phải ai khác, bạn vẽ biểu đồ cho chính mình xem. Thứ hai, chúng ta chỉ cảm nhận và suy diễn trực quan.
Sẽ không có kiểm định thống kê nào cả, không có con số lẫn bảng mô tả, mọi suy diễn chỉ dựa duy nhất vào biểu
đồ và nhận thức thị giác.

Tác giả hy vọng sau khi đọc tài liệu, độc giả sẽ đạt 5 mục tiêu như sau:

a) Nắm được bản chất của biểu đồ thống kê, các khái niệm cơ bản của lý thuyết đồ họa thống kê
b) Biết một số quy tắc và tiêu chí cho phép tối ưu hiệu quả của biểu đồ
c) Hiểu được cơ chế của hiệu ứng mà biểu đồ gây ra cho nhận thức thị giác
d) Vận dụng phù hợp, sáng tạo và linh hoạt từng loại biểu đồ khác nhau cho 4 phân tích thống kê phổ biến:
mô tả đặc tính phân bố, so sánh, tìm sự liên hệ, và khảo sát diễn tiến/sự kiện theo thời gian.
e) Hình dung được khả năng về đồ họa của ngôn ngữ R và bắt đầu sử dụng nó

1.2.3 Phương pháp tiếp cận

Như đã trình bày, tài liệu này áp dụng một cách tiếp cận mang tính đa chiều, giản lược và thực dụng. Tác giả sẽ
đi theo một con đường trung gian giữa 4 lĩnh vực: Thống kê học, mỹ thuật, truyền thông và ngữ pháp đồ họa,
nhưng chỉ giữ lại những yếu tố hữu ích nhất từ mỗi lĩnh vực nhằm đạt được các mục tiêu đề ra. Thí dụ, vẫn gọi
tên biểu đồ theo danh pháp truyền thống (bar graph, piechart, boxplot…), nhưng phân tích thêm về các thành
phần hình họa, màu sắc và hiệu ứng thị giác và các trị số thống kê. Các biểu đồ được phân nhóm theo mục tiêu
ứng dụng chứ không phải theo danh pháp. Ngôn ngữ R được chọn làm phương tiện để minh họa, nhằm gợi ý về
tính khả thi của các ý tưởng. Tuy nhiên, tác giả không đi sâu vào kỹ thuật lập trình, không buộc các bạn dùng R
cũng như không trình bày chi tiết R codes là thứ mà các bạn có thể tự học dễ dàng trên mạng.

1.2.4 Tóm tắt nội dung

Sau phần mở đầu này, tài liệu sẽ gồm 4 chương với nội dung như sau:

Chương 1: Trình bày về cơ chế sinh lý của nhận thức thị giác, khái niệm ngữ pháp đồ họa thống kê, các thành
phần của biểu đồ như thang đo, hệ tọa độ, hình họa, màu sắc…, các tiêu chí đảm bảo phẩm chất và hiệu quả
truyền thông của biểu đồ.

Chương 2: Những giải pháp đồ họa cho phép mô tả trực quan tính chất phân bố của dữ liệu, chia làm 2 nhóm:
a) Các biểu đồ tóm tắt trị số thống kê, gồm Error bar, point range, boxplot và các biến thể của nó
b) Các biểu đồ mô tả hình ảnh phân bố, gồm dot plot, histogram, tuyến kí tần suất, Kernel density 1 chiều
c) Mật độ phân phối 2 chiều: 2D density plot.

Chương 3: Những giải pháp đồ họa để so sánh trực quan. Phần này sẽ giới thiệu các dạng biểu đồ cho phép nhận
thức sự tương phản về khoảng cách (bar graph, boxplot), về diện tích (density plot, stacked bar, piechart, bubble,
radar…) hay về màu sắc (heatmap, choropleth map).

ĐỒ HỌA THỐNG KÊ TRANG 5/46


Chương 4: Khảo sát mối liên hệ giữa 2 hay nhiều biến, định tính hay định lượng bằng nhận thức thị giác. Phần
này sẽ giới thiệu về biểu đồ tán xạ, biểu đồ tuyến kí, ma trận tương quan (correlogram), mạng tương quan
(correlation network) cho biến định lượng; và mosaic plot, bar graph, alluvial (Sankey) plot, chord diagram… cho
biến định tính/rời rạc.

Chương 5: Tường thuật diễn tiến, sự kiện theo theo thời gian. Phần này sẽ trình bày những loại biểu đồ chuyên
dụng cho thí nghiệm lặp lại, nghiên cứu kéo dài, theo dõi sự kiện và dữ liệu chuỗi thời gian, bao gồm: biểu đồ
tuyến kí, area graph, stream plot, cửa sổ thời gian với facetted plot.

1.2.5 Quy ước trình bày

Mỗi chương sẽ lần lượt đề cập đến một câu hỏi phân tích dữ liệu riêng biệt, gồm mô tả, so sánh, tương quan,
theo dõi (ngay cả khi chúng có vẻ trùng lặp). Đầu tiên, tác giả sẽ liệt kê một vài hoàn cảnh thường gặp mà câu hỏi
được phát sinh. Tiếp theo sẽ có bước trung chuyển quan trọng nhằm biến câu hỏi, giả thuyết thành mục tiêu
phân tích trực quan. Bước diễn giải này cho phép chúng ta hình dung cơ chế nhận thức thị giác tương ứng với
câu hỏi. Nói cách khác, ta có thể xác định những yếu tố hình họa và hiệu ứng thị giác trên biểu đồ cho phép não
bộ nhận thức được sự tương phản, tương quan và thay đổi… Một khi đã hiểu cơ chế này, ta có thể tận dụng các
dạng biểu đồ (đa số chúng không mới lạ, ta đã từng dùng chúng trước đây) và sáng tạo ra nhiều cách khác để tối
ưu hóa nhận thức thị giác và đạt mục tiêu ban đầu. Đây là lúc từng dạng biểu đồ sẽ được liệt kê

Để gọi tên biểu đồ, tác giả sẽ ưu tiên sử dụng Anh ngữ, thí dụ scatter plot, bar graph, heatmap, kèm chú thích
tên Việt ngữ (nếu có thể), thí dụ biểu đồ tuyến kí, biểu đồ tán xạ, biểu đồ hộp. Nếu đó là một biểu đồ cổ điển,
một chút thông tin lịch sử về nguồn gốc của nó sẽ được trình bày. Mỗi loại biểu đồ sẽ được phân tích dưới góc
độ ngữ pháp đồ họa theo ggplot2, bao gồm tên của R function, định dạng dữ liệu, hàm thống kê, yếu tố hình họa,
màu sắc… Nhưng quan trọng hơn, đó là hiệu ứng thị giác mà biểu đồ gây ra, lương thông tin mà nó có khả năng
truyền tải, những ưu điểm, nhược điểm và công dụng chính. Mỗi chương luôn kết thúc bằng chủ đề phân tích đa
biến nhằm giới thiệu các thủ thuật cho phép phân tích trực quan rất nhiều biến số hoặc toàn bộ dữ liệu, nén
nhiều thông tin nhất có thể lên một biểu đồ duy nhất.

1.2.6 Những hạn chế

Rất tiếc phải thú nhận rằng, tài liệu này có những hạn chế chủ quan và khách quan như sau:

Tác giả chủ động tách rời phân tích trực quan khỏi thống kê mô tả: Tuy chủ đề của quyển sách này là thăm dò dữ
liệu, nhưng thay vì tóm tắt dữ liệu bằng bảng, con số hoặc kiểm định, ta chỉ sử dụng biểu đồ và nhận thức thị
giác. Đây là quyết định chủ quan của tác giả, với lập luận rằn: dù quyển sách có đầy đủ đến đâu, nó cũng phải có
trang cuối cùng và đó là lúc bạn sẽ tìm đọc một quyển sách khác. Con đường học tập là không có điểm dừng. Mặt
khác, chủ đề thống kê mô tả đã được trình bày rất đầy đủ trong vô số giáo trình mà bạn có thể tìm đọc dễ dàng,
nhưng ngược lại sẽ rất khó tìm ra một tài liệu thuần về đồ họa thống kê tại Việt Nam. Cũng như bạn không thể
ăn một món nào thực sự ngon tại một nhà hàng tiệc Buffet, tác giả muốn tập trung thời gian của mình vào phần
“đồ họa” và nấu món ăn này cho đàng hoàng.

Tài liệu này không nhắm đến mục tiêu thực hành, nó không phải là một tài liệu hướng dẫn viết R code. Mặc dù
toàn bộ hình minh họa trong sách được thực hiện bằng ngôn ngữ R, tác giả sẽ không trình bày nội dung R code.
Điều này có thể làm thất vọng một số bạn sinh viên, tuy nhiên mỗi hình vẽ đều được chú thích về tên công cụ
(package, function) để các bạn có thể tự tìm hiểu sau đó. Các bạn có thể thực hành ggplot2 và R rất nhanh với
các tài liệu tham khảo được giới thiệu ở trang cuối, theo dõi các bài thực hành của nhóm trên Facebook hoặc liên
hệ trực tiếp với tác giả để xin trợ giúp về kỹ thuật.

Tài liệu chỉ giới hạn trong giai đoạn thăm dò dữ liệu nhưng chưa chạm được tới vấn đề thiết kế đồ họa cho ấn
phẩm khoa học. Hầu hết những nguyên tắc được trình bày trong tài liệu này đều hữu ích khi công bố khoa học,
nhưng chưa (và không bao giờ) đủ. Việc thiết kế đồ họa khi công bố khoa học đòi hỏi sự chăm chút tỉ mỉ, cẩn
thận và cầu kì hơn rất nhiều, đến từng chi tiết. Quy trình này cũng thiên biến vạn hóa tùy vào hình thức truyền
thông (poster, bài thuyết trình, báo cáo, luận văn, tạp chí…) và phải thỏa mãn các tiêu chí chủ quan của người
bình duyệt hay quy tắc riêng của ban biên tập. Nó cũng đặt ra những thách thức (thí dụ chỉ được dùng màu
Trắng/Đen) hoặc yêu cầu sử dụng thêm những công cụ thiết kế chuyên biệt khác – như Adobe Illustrator… Do đó
thiết kế ấn phẩm là một chủ đề quá rộng để có thể trình bày đầy đủ trong khoảng 100 trang sách.

ĐỒ HỌA THỐNG KÊ TRANG 6/46


2 Những khái niệm cơ bản của đồ họa thống kê

2.1 Nhận thức thị giác

Trong câu chuyện mà chúng ta sắp kể, bạn mới là nhân vật chính còn biểu đồ thống kê chỉ là các công cụ. Chính
bạn đặt ra những câu hỏi, bạn là họa sĩ, và cũng là đối tượng chịu tác động từ các biểu đồ này.

Sau khi loại trừ tất cả những con số và từ ngữ, thì thông tin duy nhất là những gì mắt bạn nhìn thấy, cơ sở duy
nhất để suy diễn thống kê từ biểu đồ chính là nhận thức thị giác.

Thị giác là giác quan tinh tế nhất của con người. Các tài liệu Sinh lý học thần kinh cho biết hơn 50% cấu trúc trong
não bộ tham gia một cách trực tiếp hay gián tiếp vào nhận thức thị giác. Số lượng neuron về thị giác cao gấp
nhiều lần số neuron cho xúc giác và thính giác. Đây cũng là giác quan đặc biệt vì tín hiệu được phân tích ngay từ
cơ quan cảm thụ là mắt trước khi truyền đến não bộ, và trên suốt con đường dẫn truyền, thông tin thị giác được
xử lý một cách chuyên biệt, theo thứ bậc và tinh tế bởi nhiều phân lớp neuron khác nhau.

Ngay cả khi chúng ta dán mắt vào một biểu đồ thống kê trên giấy hay màn hình, sự kích thích do mực in, màu
sắc, đường nét, lưới tọa độ, con số, chữ … trên biểu đồ chỉ mới là một phần nhỏ trong số 1014 hạt photons ánh
sáng mà võng mạc tiếp nhận mỗi giây. Não bộ đang phân tích liên tục tất cả những chi tiết này, đồng thời với mọi
thứ khác xuất hiện trong thị trường như tờ giấy, máy tính, căn phòng và cả khung cảnh ngoài cửa sổ. Sau đây ta
sẽ trình bày quá trình nhận thức thị giác một cách giới hạn và theo thứ bậc, từ đầu vào ở mắt đến cuối con đường
là vỏ não thị giác.

Mắt người có nhiều điểm tương đồng với một camera, một máy cảm thụ quang học. Bản thân nó không hoàn
hảo tuyệt đối vì chịu những nhược điểm sinh lý/giải phẫu như thị trường giới hạn, tật khúc xạ, điểm mù, chậm
thích nghi với bóng tối…. Tuy nhiên, không thể nghi ngờ rằng mắt là một cấu trúc sinh học kì diệu và tinh tế nhất
trong cơ thể con người. Cấu tạo của mắt đảm bảo sự hòa hợp 2 cơ chế vật lý (quang học) và sinh lý học thần
kinh.

Đầu tiên, các tia sáng từ biểu đồ được khúc xạ qua hệ thống thấu kính gồm giác mạc, thủy tinh thể và dịch kính,
rồi đi qua đồng tử sau khi được điều tiết về cường độ và hội tụ thành một ảnh lộn ngược trên võng mạc.

Võng mạc đảm nhận nhiều chức năng: vừa cảm thụ ánh sáng vừa dẫn truyền và phân tích tín hiệu. Nó có hơn
150 triệu tế bào thần kinh và ngay từ vị trí này đã có sự cảm thụ chuyên biệt về màu sắc. Sắc tố trong mỗi loại tế
bào nón có khả năng hấp thu bước sóng ánh sáng khác nhau, tương ứng với 3 màu cơ bản là Đỏ, xanh lam và
xanh lục. Tín hiệu « thô » của 3 màu là do sự kích thích chuyên biệt 2 hay 3 loại tế bào nón khác nhau và sẽ được
dẫn truyền vào trong não để được phân tích sâu hơn và cuối cùng tại vỏ não thị giác hàng triệu màu sắc được
tổng hợp và nhận thức.

ĐỒ HỌA THỐNG KÊ TRANG 7/46


Các tế bào thụ cảm và tế bào hạch của võng mạc có bản chất là neuron, phần nối dài của thần kinh thị giác. Những
sợi trục (axons) của tế bào hạch võng mạc hợp lại thành thần kinh mắt. Mỗi mắt chia ra 2 nhánh, 2 sợi phía mũi
được bắt chéo tại Giao thị còn 2 sợi phía thái dương không bắt chéo. Các sợi trục này sau đó dẫn đến đồi thị.

Trong số các nhân tại vùng đồi thị thì nhân gối ngoài (Lateral Geniculate nucleus, LGN) có vai trò quan trọng nhất.
Tương tự như võng mạc, LGN cũng có cấu trúc phân lớp chuyên biệt với nhiều lớp tế bào: lớp sâu gồm các tế bào
lớn (Magno:M) có chức năng cảm thụ chuyển động nhưng không nhạy với màu sắc, còn bên trên là lớp tế bào
nhỏ (Parvo:P) nhạy cảm với màu sắc và có chức năng cảm nhận tính tương phản, phân biệt hình dạng, đường
nét. Ngoài ra có các tế bào Konio (K) nằm xen kẽ giữa các phân lớp chính và có thụ trường tinh tế, nhạy cảm với
màu sắc nhất, chúng hợp tác với các neuron P để nhận diện màu và phân biệt hình dạng vật thể.

Hình: Sơ đồ con đường cảm thụ thị giác, thể hiện các thành phần thụ quang của mắt người, cấu trúc mô học của
võng mạc, lộ trình của thần kinh thị giác qua đồi thị, nhân LGN và tận cùng ở vỏ não thị giác.

Các neuron LGN dẫn tín hiệu chuyển động (M), hình dạng (P,K), màu sắc (P,K) đến võ não Thị giác ở thùy chẩm.
Vùng V1 tương ứng với vỏ não thị giác tiên khởi (Primary visual hay striate cortex) là một trung tâm xử lý tín hiệu
thị giác có ý thức. Cấu trúc của vùng V1 được phân thành 6 lớp ngang và những cột chức năng theo chiều dọc.
Mỗi dòng thông tin (K,P,M) từ đồi thị được xử lý bởi một loại neuron chuyên biệt tại V1. Giữa các cột chức năng
là các cụm tế bào blobs, chuyên xử lý màu bằng cách tổng hợp thông tin từ neuron kLGN của một mắt ưu thế,
cho phép phân định màu sắc, học và ghi nhớ mối liên hệ giữa màu sắc và loại vật thể. Một loại tế bào khác là p-
interblob cells tiếp nhận dòng tín hiệu p-LGN từ cả hai mắt và có chức năng phân biệt, ghi nhớ thông tin về hình
dạng, đường nét, bờ của vật thể và định hướng trong không gian.

Ngoài ra còn có vùng V2 bao xung quanh V1. Nếu vùng V1 cảm nhận đường nét đơn giản và có hướng nhất định
thì vùng V2 có khả năng nhận thức được các đường nét chuyển động trong khoảng giới hạn, chiều dài của chúng,
góc hay những điểm phức tạp khác. Vỏ não Thị giác kết hợp (Visual Association Cortex) phía sau thùy đỉnh và
thùy thái dương. Dòng Dorsal (Lưng) gồm các neuron liên hợp thùy đỉnh, ở phía trên và giữa thùy thái dương, có
thụ trường 2 mắt chuyên xử lý tín hiệu P (vị trí vật thể) và M (chuyển động). Dòng Dorsal giúp định hướng trong

ĐỒ HỌA THỐNG KÊ TRANG 8/46


không gian, hòa hợp hình ảnh 2 mắt để cảm nhận chiều sâu, xác định vị trí, chuyển động và vận tốc của vật thể
trong không gian. Dòng Ventral (bụng) gồm các neuron phía dưới vỏ não thị giác liên hợp thái dương, xử lý tín
hiệu loại P về màu sắc và hình dạng vật thể. Vùng này chịu trách nhiệm cho nhận thức sâu về thị giác, bao gồm
nhận diện, gọi tên vật thể và màu sắc, học và ghi nhớ ý nghĩa của từ ngữ từ tín hiệu thị giác (thí dụ học ngoại ngữ
bằng cách đọc). Như vậy dòng thông tin Dorsal giúp nhận thức khái niệm « Ở đâu », còn Ventral nhận thức « Cái
gì ».

2.2 Phân tích trực quan và lợi ích của nó

2.2.1 Các yếu tố thông tin thị giác

Diễn giải biểu đồ thống kê không phải là một nhiệm vụ quá khó khăn cho nhận thức thị giác, nhưng cơ chế hoạt
động của nó không đơn giản. Điều kì lạ đó là những nhiệm vụ được máy tính làm dễ dàng thì lại là thách thức với
bộ não con người, trái lại não bộ có khả năng giải quyết trong nháy mắt những nhiệm vụ phức tạp mà máy tính
sẽ còn mất nhiều thời gian nữa để có thể mô phỏng. Thật vậy, đã có nhiều phần mềm cho phép tái tạo lại dữ liệu
hoặc trị số thống kê từ một ảnh biểu đồ (là việc bộ não hầu như không thực hiện được), thí dụ xác định giá trị
Median, IQR, Min, Max từ boxplot, tái lập ma trận dữ liệu từ scatter plot, thậm chí chuyển heatmap thành số
liệu, giống như cách máy tính định lượng mật độ trên ảnh CTscan hay ảnh điện di western blot…Các phần mềm
này đã có từ rất lâu trước khi ngành Machine learning tạo ra được Deep neural net với cấu trúc vô cùng phức
tạp chỉ để nhận dạng một vật đơn giản như con mèo, con chó trong ảnh chụp.

Điều này gợi ý rằng bộ não phân tích một biểu đồ thống kê theo một cơ chế hoàn toàn khác so với những phần
mềm đọc biểu đồ. Thí dụ, tuy ta không có khả năng trích xuất chính xác 5 trị số thống kê của Tukey từ boxplot,
nhưng điều này hoàn toàn vô nghĩa cho mục tiêu so sánh hơn/kém. Não bộ không cần con số, lẫn thang đo để
có thể nhận ra khác biệt giữa 2 boxplot. Tương tự, tuy ta không có khả năng tính chính xác khoảng cách từ các
điểm trên biểu đồ tán xạ, nhưng khi chỉ cần lướt mắt qua các điểm trên biểu đồ, não bộ có thể nhận diện một
cách cực kì nhạy bén về tương quan giữa 2 biến, thậm chí trước khi chúng ta thực sự nhìn thấy kết quả hệ số
tương quan và p_value, thậm chí chúng ta còn hình dung được “mô hình” phi tuyến tính trên scatter plot ngay
cả khi chưa có đồ thị và phương trình.

Trên thực tế, nhiều quy trình thống kê được định hướng bởi cảm nhận chủ quan của con người, sau khi đọc biểu
đồ – thí dụ tương quan tuyến tính, các mô hình hồi quy, contrast analysis trong ANOVA hoặc phân tích cụm
(Clustering). Mặt khác, phân tích trực quan không chỉ giới hạn ở thông tin thị giác mà còn được hỗ trợ bởi những
kí ức ngôn ngữ (tên màu sắc, thuật ngữ thống kê, kiến thức toán, những chỉ thị của giáo sư hướng dẫn đề tài…).

Phần tiếp theo, ta sẽ tìm hiểu các yếu tố của phân tích trực quan, nhằm giải đáp câu hỏi: Chúng ta nhìn thấy
những gì trên biểu đồ ? Việc liệt kê những yếu tố cơ bản của nhận thức thị giác này và nắm rõ chức năng của
từng yếu tố sẽ giúp ta hiểu cơ chế hoạt động của từng loại biểu đồ, ứng dụng của chúng vào thực tế. Về mặt kỹ
thuật, hiểu nhận thức thị giác cho phép chúng ta sử dụng đúng những yếu tố hình họa (geographic) trong ngữ
pháp đồ họa thống kê và làm cơ sở cho những ý tưởng sáng tạo khác chứ không lệ thuộc vào danh mục biểu đồ
quy ước.

Hình dưới đây cho phép phân biệt những thông tin thị giác cơ bản mà não bộ nhận thức được từ biểu đồ, bao
gồm:

Tọa độ của một điểm trên mặt phẳng (1): Dù có hay không có sự hỗ trợ của lưới tọa độ và thang đo trên 2 trục,
bộ não định vị đồng thời tất cả mọi điểm trên mặt phẳng. Bạn có bao giờ bò trên sàn nhà để tìm một con ốc vít
có đường kính 1 mm hay nhặt sỏi, vỏ ốc trên bãi biển chưa? Đó là cách bộ não đọc biểu đồ tán xạ để nhận diện
các giá trị bất thường (outliers), so sánh hay phân cụm (cluster).

Khoảng cách (2): Bộ não nhận thức được khoảng cách giữa 2 điểm, từ đó đo được kích thước của đoạn thẳng và
có khuynh hướng so sánh để thấy sự tương phản giữa các khoảng cách này. Đó là cách mà các họa sĩ ước tính tỉ
lệ khi vẽ tranh tĩnh vật và chân dung, và là cơ chế đọc biểu đồ boxplot, error bar, biểu đồ thanh khi so sánh, ta
sẽ bàn về nó trong chương 3.

ĐỒ HỌA THỐNG KÊ TRANG 9/46


Biểu tượng (3): Bộ não phân biệt được các biểu tượng, hiểu được rằng chúng khác nhau, thậm chí liên kết biểu
tượng với ý nghĩa trừu tượng, thí dụ ngôn ngữ tượng hình. Trong đời sống hằng ngày chúng ta dùng khả năng
này để nhìn bảng báo giao thông, phân biệt các ứng dụng trên điện thoại bằng icon và nhận ra logo của món
hang cần mua trong siêu thị. Đồ họa thống kê đã lợi dụng loại nhận thức này để mã hóa biến rời rạc (phân nhóm)
bằng biểu tượng. Chúng ta sẽ bàn về nó trong chương 4 – biểu đồ tán xạ.

Diện tích và kích thước (4,6): Ngoài khoảng cách, bộ não còn có thể cảm nhận rất nhanh nhạy sự tương phản về
diện tích hình phẳng lẫn thể tích của khối 3 chiều. Chúng ta làm điều này mỗi ngày, thí dụ chọn trái cây ở chợ.
Trong đồ họa thống kê, nhận thức tương phản về diện tích được ứng dụng cho các dạng biểu đồ sử dụng diện
tích để mã hóa cho biến liên tục hay 1 trị số thống kê, như Pie chart, bubble chart, mosaic plot, treemap. Một
ứng dụng khác là dung độ đậm

Phương hướng và quỹ đạo (5): Như đã trình bày, bộ não không chỉ xác định đường nét (bao gồm đường/đoạn
thẳng) mà còn có khả năng nhận ra phương hướng của đường nét đó. Khả năng này cho phép chúng ta xác định
được tính tăng/giảm hay ổn định của biểu đồ tuyến kí.

Một khuynh hướng khác của nhận thức thị giác đó là nối kết những điểm rời rạc với nhau một cách chủ quan, bổ
sung phần còn thiếu trên hình ảnh. Trong phân tích trực quan, khả năng này cho phép hình dung ra tính chất của
mô hình hồi quy khi quan sát biểu đồ tán xạ, ngoại suy, hồi suy trên biểu đồ tuyến kí…

Góc (6): Góc tạo thành bởi 2 đường thẳng cũng là một yếu tố mà thị giác cảm nhận được, và có khả năng so sánh
cũng như ta so sánh diện tích hay khoảng cách. Sự tương phản về góc là cơ chế truyền thông tin của các biểu đồ
sử dụng hệ tọa độ cực (polar) như biểu đồ bánh hoặc radar.

Màu sắc (7,8)

2.2.2 Lợi ích của phương pháp trực quan khi thăm dò dữ liệu

Năm 1911, một nhà báo tên là Tess Flanders đã đưa ra một lời khuyên cho giới truyền thông: “Use a picture. It's
worth a thousand words”, tạm dịch: “một hình ảnh có giá trị bằng hàng ngàn lời nói”. Phát biểu nổi tiếng này đã
luôn được trích dẫn trong các giáo trình về Infographics, truyền thông, quảng cáo cũng như kỹ năng công bố khoa
học để nhắc nhở tầm quan trọng của việc sử dụng hình ảnh để trình bày ý tưởng, thông tin. Tuy nhiên, những lợi
ích này thường được nhìn nhận trong quan hệ giữa tác giả và độc giả còn trong tình huống thăm dò dữ liệu mà
ta đang bàn, tương tác là khép kín (tác giả và độc giả là một), do đó chúng ta sẽ dành vài hàng để bàn luận về lợi
ích của biểu đồ và phân tích trực quan cho chính bản thân bạn.

+ Khi dùng phân tích trực quan, biến dữ liệu thành hình vẽ, bạn đang cung cấp cho bộ não của mình dạng thông
tin dễ tiếp thu nhất. Con người có khả năng nhận thức và trích xuất thông tin từ hình ảnh nhanh hơn và hiệu quả
hơn rất nhiều so với việc đọc và suy diễn ý nghĩa của con số, kí hiệu hay ngôn ngữ. Vì vậy biểu đồ cho phép tối
ưu hóa hiệu quả phân tích, tiết kiệm thời gian tìm câu trả lời, tăng cơ hội phân định đúng và phát hiện ra ý tưởng

ĐỒ HỌA THỐNG KÊ TRANG 10/46


từ dữ liệu. Điều này tương tự như khi bạn đang lạc giữa một thành phố xa lạ nhưng chỉ cần mở Google map trên
điện thoại hoặc xin một bản đồ ở nhà ga thì sẽ xác định được lộ trình tham quan của mình ngay lập tức, hiệu quả
hơn nhiều so với giao tiếp bằng ngôn ngữ (hỏi đường).

+ Dùng biểu đồ còn đảm bảo tính liên tục của dòng ý tưởng và tạo ra mối liên kết giữa các phần tử trong dữ liệu.
Thông tin dưới dạng biểu đồ sẽ lưu lại lâu bền hơn trong trí nhớ ngắn hạn so với bảng hay những con số. Con
người có khuynh hướng ghi nhớ hình ảnh tốt hơn văn bản hoặc chữ số. Trong cuộc sống hằng ngày ta có thể
nhận thấy điều này rất rõ: logo dễ nhớ hơn tên doanh nghiệp, biển báo dễ nhớ hơn văn bản luật giao thông. Trí
nhớ ngắn hạn và có cấu trúc sẽ làm cơ sở cho suy luận tổng hợp và các quy trình đặt giả thuyết, suy diễn thống
kê tiếp theo sau.

+ Một ưu điểm khác của biểu đồ thống kê so với những trị số thống kê, mô hình và kiểm định, đó là nó truyền tải
lượng thông tin lớn hơn rất nhiều. Mỗi trị số thống kê chỉ có thể cung cấp một thông tin, trả lời một câu hỏi, kiểm
tra một giả thuyết tiền định của riêng bạn. Trái lại từ một biểu đồ, mọi người (bao gồm cả bạn) có thể phát hiện
những chi tiết mới, đặt ra những câu hỏi mà bạn thậm chí chưa nghĩ đến khi tiến hành nghiên cứu. Do đó khi
thảo luận nhóm thì biểu đồ là hình thức chia sẻ và trình bày thông tin hiệu quả hơn nhiều so với bảng và số. Một
biểu đồ có thể nén lượng thông tin rất lớn đến 5-10 biến số, nhưng chỉ dùng một slide hay 1 trang giấy và những
thông tin này được tiếp nhận gần như ngay lập tức, trong khi phải in rất nhiều giấy mới đủ bảng kết quả tương
quan/so sánh của từng ấy biến số. Một số khái niệm và thông tin rất khó diễn tả bằng con số và kí hiệu toán học,
nhưng lại có thể được cảm nhận dễ dàng bằng thị giác, thí dụ mô hình hồi quy phi tuyến tính, phân phối lệch
chuẩn, mạng lưới tương quan, liên hệ cấu trúc/thứ bậc…

2.3 Những nguyên lý của đồ họa thống kê


2.3.1 Ngữ pháp đồ họa

Để hiểu rõ bản chất của biểu đồ thống kê và có thể tạo ra chúng tùy thích từ những dòng code, ta cần phải tìm
hiểu về một khái niệm tương đối mới lạ là ngữ pháp đồ họa (Grammar of graphics).

Tương tự khái niệm ngữ pháp trong ngôn ngữ học, ta có thể hình dung về ngữ pháp đồ họa như một hệ thống
các quy tắc và thành phần cấu trúc cho phép thực thi quy trình chuyển từ dữ liệu thành biểu đồ thống kê. Thí dụ,
đoạn văn ngắn sau đây mô tả một cảnh vật vùng ngoại ô nơi tôi sinh sống:

“Trên một vùng đất rộng khoảng 100 cây số vuông, thành phố được thiết kế hài hòa giữa các khối nhà và nông
trại. Đường hỏa xa men theo một con sông xanh uốn khúc chảy qua thành phố. Dọc bờ sông là hàng đào Nhật
bản, mỗi năm cứ đến tháng 4 thì bầu trời thành phố D. chìm dưới cơn mưa của hàng vạn cánh hoa đào. Phía
chân trời xanh là hình ảnh mờ của khu rừng và hai ngọn núi. Từ trên đồi nhìn xuống, có thể thấy những căn nhà
bằng đá, vuông vức, nhấp nhô nép bên cạnh tòa thánh đường cao vút. Dọc theo đường quốc lộ là những trạm
bus. Dọc theo con đường dài khoảng 5 km là những cánh đồng vuông vức xanh màu cỏ, chen lẫn với những bông
hoa dại đủ màu và đàn bò rải rác thành từng cụm đen trắng trên nền cỏ xanh. Vào mùa thu, rừng cây thay lá như
một bức tranh khảm nhiều màu sắc, xanh, đỏ, vàng, nâu”.

Nếu các bạn có thể cảm nhận được ẩn ý mà tôi sắp đặt trong đoạn văn trên, bạn có thể tưởng tượng mình đang
dựng một biểu đồ tuyến kí màu xanh trên hệ tọa độ gồm 2 trục, mỗi trục chia thành 10 đơn vị, một biểu đồ thanh
cao thấp khác nhau, một biểu đồ tán xạ, hai đường cong hàm mật độ xác suất và một biểu đồ heatmap… từ các
thành phần như tọa độ, điểm, đường nét, kích thước, diện tích, màu sắc… Khi đang tưởng tượng như vậy, bạn
đã bắt đầu hình dung được về ngữ pháp đồ họa. Nó là cách thức biến các biểu đồ thành quy trình, và diễn đạt
để máy tính hiểu điều này.

Lý thuyết ngữ pháp đồ họa có nguồn gốc từ ngành khoa học máy tính và tác giả của nó là Gs. Leland Wilkinson.
Tác phẩm cùng tên “The grammar of Graphics” của ông là một quyển sách lý thú mà các bạn nên tìm đọc. Leland
Wilkinson là một nhà thống kê và lập trình viên. Đầu thập niên 80, trong khi đang giảng dạy về đồ họa thống kê
tại Đại học Illinois (Chicago), Wilkinson đã viết chương trình SYSTAT cho phép thiết kế đồ họa thống kê trên máy
tính, đây là nền tảng đầu tiên của ngữ pháp đồ họa. Năm 1995 ông bán lại chương trình này cho SPSS và phụ
trách mảng đồ họa cho SPSS trong 10 năm. Đằng sau những nút bấm và menu của SPSS là ngữ pháp đồ họa
nhưng ta chỉ nhận ra điều này nếu chạy SPSS thuần bằng syntax.

ĐỒ HỌA THỐNG KÊ TRANG 11/46


Dù trong tác phẩm của mình, Leland Wilkinson khiêm tốn cho rằng những ý tưởng về ngữ pháp đồ họa chỉ là kế
thừa từ lý thuyết thống kê, mỹ thuật/truyền thông và là con đường tất yếu khi ứng dụng ngôn ngữ lập trình
hướng đối tượng cho biểu đồ. Ông cũng nhắc đến sự đóng góp từ rất nhiều đồng nghiệp khác. Tuy nhiên, không
thể phủ nhận rằng Leland Wilkinson là người đầu tiên có công tổng hợp tất cả những ý tưởng nói trên thành một
học thuyết hoàn chỉnh, có thể tiếp thu và ứng dụng trên thực tế.

Năm 2005 Hadley Wickham - một nhà thống kê học người New Zealand đã hiện thực hóa học thuyết ngữ pháp
đồ họa của Leland Wilkinson thành một gói công cụ cho ngôn ngữ lập trình thống kê R có tên là ggplot2. Không
chỉ tinh tế về cấu trúc, linh hoạt về cú pháp, ggplot2 còn có phẩm chất tốt về thẩm mỹ. Từ đó, ggplot2 là công cụ
đồ họa thông dụng nhất trong R. Chính những hình vẽ đẹp của ggplot2 đã góp phần lôi cuốn được nhiều người
chuyển sang dùng R và ngữ pháp của ggplot2 có sức ảnh hưởng đến nhiều công cụ đồ họa khác trong R.

Lý thuyết của Wilkinson không phải chỉ dành cho giới lập trình viên mà hữu ích cho tất cả mọi người. Trước khi
được thực thi (chuyển thành ngôn ngữ, như gói ggplot2), triết lý ngữ pháp đồ họa đã có thể thay đổi quan niệm
của chúng ta về biểu đồ. Nó giúp người dùng hiểu cơ chế của từng thành phần trong biểu đồ, không còn lệ thuộc
vào những công thức có sẵn và có khả năng sáng tạo. Giống như con người hình thành tư tưởng trước khi nói ra
hay viết lên giấy, quy tắc ngữ pháp này có thể vận hành trong tâm trí và không phụ thuộc vào một loại ngôn ngữ
lập trình hay phần mềm cụ thể nào cả.

Cấu trúc và các thành phần trong ngữ pháp đồ họa của Leland Wilkinson tương đối đơn giản nhưng có tính trừu
tượng và những chi tiết bên trong lại không dễ tiếp thu. Do đó, trong tài liệu này tác giả chỉ giới thiệu một cách
khái quát, có chọn lọc những khái niệm quan trọng nhất, vừa đủ cho mục tiêu thực dụng nhưng không đi quá sâu
vào chi tiết.

2.3.2 Khái niệm hàm đồ họa

Khái niệm quan trọng đầu tiên đó là quy trình vẽ biểu đồ có bản chất hàm (function). Chắc bạn còn nhớ
“hàm”được giới thiệu trong môn giải tích năm lớp 10 thông qua một khái niệm khác tổng quát hơn là “ánh xạ”,
được định nghĩa như một quy luật có tính “tương ứng” liên kết các phần tử trong tập nguồn (thí dụ dữ liệu đầu
vào) với phần tử thuộc tập đích (kết quả). Hàm (function) cũng có thể được hiểu với nghĩa “phụ thuộc” (tiếng
Anh: in function of) cho biết kết quả Y phụ thuộc vào đại lượng X. Đồ họa thống kê là một trường hợp đặc biệt
của ánh xạ (hàm) vì tập đích là một hình ảnh (biểu đồ) nên ta gọi là “hàm đồ họa”.

Thật vậy, khi viết code để dựng một biểu đồ bằng ngôn ngữ R thay vì dùng menu của Excel, bạn sẽ nhận ra con
đường đi của dữ liệu qua một hàm như mọi mô hình thống kê khác để có kết quả đầu ra là biểu đồ. Thí dụ đơn
giản nhất: trong R hàm hồi quy glm(Y ~ X,data) có cùng cú pháp với hàm đồ họa xyplot(Y,X, data). Dữ liệu đầu
vào là như nhau cho 2 hàm (2 vector dữ liệu X và Y), nhưng kết quả của hàm glm là mô hình hồi quy tuyến tính,
còn kết quả hàm xyplot là một biểu đồ tán xạ. Cả 2 đều hướng đến mục tiêu là khảo sát sự tương quan giữa Y và
X.

Bản chất hàm của quy trình vẽ biểu đồ càng được bộc lộ rõ nét hơn khi bạn vẽ hình bằng ngôn ngữ ggplot2. Ngay
cả khi bạn chưa biết gì về ngữ pháp của Wilkinson, bạn cũng có thể nhận ra mỗi dạng biểu đồ tương ứng với một
hàm hình học ‘geometry function’ riêng biệt, thí dụ:

Hàm geometry trong ggplot2 Dạng biểu đồ được vẽ


geom_point( ) Biểu đồ tán xạ điểm
geom_jitter( )
geom_line( ) Biểu đồ tuyến kí
geom_path( )
geom_smooth( )
Geom_density( ) Đường cong mật độ xác suất
Geom_histogram( ) Biểu đồ tần suất
Geom_bar( ) Biểu đồ thanh
Geom_tile( ) Heatmap
Geom_boxplot( ) Biểu đồ hộp

ĐỒ HỌA THỐNG KÊ TRANG 12/46


Trên thực tế, hàm đồ họa không chỉ giản dị như vậy. Cấu trúc của hàm đồ họa có thể gồm nhiều bộ phận nhỏ
hơn bên trong, liên kết với nhau theo cách dùng kết quả của hàm đi trước như dữ liệu đầu vào cho hàm tiếp
theo, cho đến khi xuất ra kết quả sau cùng là biểu đồ. Thí dụ, những biểu đồ thống kê minh họa và kiểm định mô
hình hồi quy là kết quả của một hàm phức. Các package hồi quy trong R cung cấp một hàm chính để dựng mô
hình, thí dụ glm( ), hàm này xuất ra kết quả là một list. Sau đó khi áp dụng hàm plot( ) trên list này, ta có thể vẽ
được biểu đồ minh họa hoặc kiểm tra phẩm chất mô hình. Trong trường hợp này dữ liệu đã đi qua phức hợp của
hai hàm: dữ liệu đầu ra của algorithm hồi quy (hàm thứ nhất) tiếp tục được hàm thứ hai (plot) xử lý để trích xuất
các vector cần thiết cho biểu đồ như giá trị dự báo (fitted value, dùng cho biểu đồ tuyến kí, marginalized effects),
sai số (residual), vân vân… Một thí dụ khác là hồi quy theo trường phái Bayes, dữ liệu trong ma trận mô hình
(design matrix) sẽ hòa hợp với các hàm likelihood, hàm mô tả giả thuyết tiền định để kích hoạt các sampler thực
hiện quy trình chọn mẫu để tạo ra các chuỗi MCMC chứa phân phối hậu nghiệm cho tham số mô hình. Kết quả
thu được là 1 list gồm các chuỗi MCMC này. Áp dụng hàm plot( ) trên list này ta sẽ nhận được các biểu đồ mật
độ (density plot) mô tả phân phối hậu nghiệm và biểu đồ tuyến kí để kiểm tra chuỗi MCMC.

Chúng ta quay lại ngữ pháp của Wilkinson và Wickham để tìm hiểu nội dung bên trong của hàm đồ họa để biết
nó gồm những gì. Câu trả lời được tóm tắt qua một thí dụ trong hình bên dưới.

Hình : Đường đi của dữ liệu qua một hàm đồ họa để cho ra kết quả sau cùng là biểu đồ tuyến kí

Đầu tiên, dữ liệu gồm 2 biến liên tục x,y và 1 biến rời rạc group với 4 bậc giá trị A,B,C,D được đưa vào ánh xạ
(mapping), để cho phép xác định 1 tọa độ (Xi,Yi) duy nhất cho từng điểm. Tiếp theo, thang đo được áp dụng. Ở
đây không có sự hoán chuyển về thang đo cho Y, tương ứng với hàm identity, và ta muốn hoán chuyển thang đo
trục hoành (X) bằng hàm hoán chuyển logarit. Tiếp theo, ta chọn yếu tố hình họa là điểm, biểu tượng của nó là
hình tròn. Trong đoạn tiếp theo tôi sẽ giải thích rõ hơn về điểm: nó có khả năng tải đến 3 kênh thông tin: tọa độ,
diện tích và màu sắc. Tọa độ dùng mã hóa cho cặp số (Xi,Yi), diện tích có thể dùng truyền tải cho biến định lượng
liên tục, thí dụ ở đây là tỉ số Y/X, còn màu sắc được dùng mã hóa cho group là biến rời rạc (Phần tiếp theo cũng
sẽ giải thích bản chất của diện tích và màu sắc đều là thang đo (scale)). Sau cùng, khi chiếu kết quả này lên một
hệ tọa độ Descartes, và lựa chọn phong cách trình bày mỹ thuật (theme_bw), ta sẽ có kết quả đầu ra như hình
bên phải. Đây là một biểu đồ tán xạ với 4 chiều thông tin : X,Y,tỉ số Y/X và group. Nội dung sơ đồ được diễn đạt
bằng ggplot2 code trong ô màu vàng bên dưới.

Ta thử đối chiếu lại quy trình trên đây với nội dung code ggplot2, lúc này ta có thể nhận ra mối liên hệ giữa các
thành phần ngữ pháp đồ họa và các hàm/tùy chỉnh trong ngôn ngữ ggplot2.

ĐỒ HỌA THỐNG KÊ TRANG 13/46


Hình : Đối chiếu các thành phần ngữ pháp đồ họa theo L.Wilkinson (khung màu đen bên phải) và cú pháp
ggplot2 của Wickham (ngoại vi, bên trái).

Ta có thể hình dung về chức năng tương đương giữa các yếu tố trong hàm đồ họa với các thành tố trong cấu
trúc câu theo ngôn ngữ học :

Ngữ pháp đồ họa Ngữ pháp ngôn ngữ


Các đại lượng, biến trong dữ liệu (variable) Chủ từ, cụm danh từ
Trị số thống kê được biểu thị (stat)
Ánh xạ (mapping, aesthetic) Động từ
Hàm thống kê, hàm hoán chuyển dữ liệu
Phân lớp, điều kiện (facet) trạng ngữ
Yếu tố hình học (họa) : geometry Có thể xem như chủ từ hay thành phần
phụ (động ngữ,tính ngữ)
hệ trục Trạng ngữ, đề ngữ
Thang đo Bổ ngữ

Nội dung code để vẽ một biểu đồ tán xạ có thể diễn đạt thành câu văn như sau:

“Trên hệ trục tọa độ Descartes, giá trị Y đo bởi trục tung trên khoảng 0-100 được biểu diễn phụ thuộc vào X đo
bởi trục hoành với thang đo logarit bằng các điểm tròn; tọa độ mỗi điểm tròn này tương ứng với kết quả phép
giao (crossing) giữa X và Y. Màu sắc của điểm tương ứng với 4 bậc giá trị của biến group. Diện tích của điểm tỉ lệ
thuận với tỉ số Y/X.”

Thực ra, ngữ pháp của Wilkinson và ggplot2 của Wickham không hoàn toàn đồng nhất. Nguyên nhân vì Wickham
không chỉ sao chép các khái niệm lý thuyết của Wilkinson, nhưng cải tiến chúng theo phong cách riêng của mình.

Thí dụ, Wickham tách biệt giữa thứ bậc cấu trúc trong quy trình và trình tự viết code. Điều này cho phép người
dùng tự do đặt các tùy chỉnh về thang đo, về mỹ thuật, về hệ trục ở bất cứ vị trí nào khi code, nhưng chương
trình sẽ tự động sắp xếp các tùy chỉnh này theo đúng trình tự. Tương tự, hàm facet() (điều kiện, phân lớp) lẽ ra
được thực thi ưu tiên ngay từ quy trình ánh xạ, nhưng trên thực tế người dùng thường đặt nó sau cùng khi viết
code.

Wickham cũng giới thiệu khái niệm phân lớp (layer), cho phép hình vẽ chứa nhiều lớp chồng lên nhau, mỗi lớp
là một biểu đồ riêng biệt về yếu tố hình họa (tuy các lớp vẫn bị chi phối như nhau bởi cùng thang đo, hệ trục, và
phong cách mỹ thuật. Việc chia lớp cho phép sáng tạo không giới hạn, như chồng lắp 1 biểu đồ tuyến kí lên 1
biểu đồ tán xạ, kết hợp histogram và density curve, kết hợp boxplot và tán xạ, hay biểu diễn nhiều biến số khác
nhau có cùng bản chất/thang đo.

ĐỒ HỌA THỐNG KÊ TRANG 14/46


Ngoài ra Wickham còn hiện thực hóa khái niệm thang đo (scale) tương đối trừu tượng của Wilkinson. Ngoài thang
đo biểu kiến cho X và Y trên trục hoành và trục tung, ggplot2 còn chuyển 3 yếu tố là loại biểu tượng, màu sắc,
diện tích thành thang đo tương ứng – các thang đo này chỉ có thể được cảm nhận bằng thị giác nhưng không
chứa cột mốc hay con số.

Trong phần tiếp theo, chúng ta sẽ tìm hiểu chi tiết hơn về vai trò của từng yếu tố trong ngữ pháp đồ họa

2.3.3 Dữ liệu đầu vào: nguyên liệu của biểu đồ

Vai trò của dữ liệu trong đồ họa thống kê cũng quan trọng như ý nghĩa của nguyên liệu trong nghệ thuật ẩm thực.
Dữ liệu chứa thông tin mà chúng ta muốn khai thác/truyền tải trong biểu đồ. Cấu trúc và loại dữ liệu quyết định
kết quả (loại biểu đồ nào có thể được dùng). Thí dụ, khi đầu vào gồm một biến liên tục Y và một yếu tố phân
nhóm X có 2 bậc giá trị, dạng biểu đồ được vẽ ra có thể là 2 density plot chồng lên nhau (loại dữ liệu thực nghiệm)
hoặc 2 boxplots (loại dữ liệu tóm tắt).

Trong R, dữ liệu được lưu trong các đối tượng (object) với nhiều định dạng : vector (1 biến), matrix hoặc
dataframe (nhiều biến). Ta thường hình dung dữ liệu như một ma trận n hàng x j cột, trong đó mỗi hàng tương
ứng với một trường hợp quan sát (cá thể) còn mỗi cột là một biến. Mỗi biến có định dạng khác nhau tùy theo
bản chất và nội dung bên trong, thí dụ :

Loại biến Định dạng


Biến số liên tục double, numeric
Biến số rời rạc/ số đếm Integer (số nguyên dương)
Biến định danh factor (yếu tố phân nhóm), character (kí tự)
Biến điều kiện nhị phân Logical (TRUE/FALSE)

Trong nghiên cứu y học, dữ liệu thường là những giá trị ghi nhận được của các biến định lượng hoặc định tính.
Tuy nhiên dữ liệu còn có thể tồn tại dưới nhiều hình thức khác nhau. Bảng số liệu có thể được tạo ra một cách
thủ công (nhập liệu) hoặc hoàn toàn tự động (dữ liệu thô, xuất ra từ các thiết bị đo tín hiệu sinh học). Đơn vị
quan sát không phải luôn là cá thể con người hay bệnh nhân: mỗi hàng trong dữ liệu có thể là một nghiên cứu
(phân tích tổng hợp – meta analysis), một quốc gia, hay một thời điểm trên chuỗi tín hiệu cực lớn lấy mẫu ở tần
số chu kì giây. Dữ liệu có thể là quan sát thực tế, nhưng cũng có thể là bản tóm tắt kết quả từ một hàm thống kê,
thí dụ ma trận tương quan, hay thậm chí chỉ đơn giản là 1 bảng chéo. Dữ liệu có thể có cấu trúc đơn giản với chỉ
2 biến số, nhưng cũng có thể chứa lượng biến số lớn gấp nhiều lần số trường hợp quan sát, thí dụ biểu hiện gene
từ micro array. Dữ liệu không nhất thiết phải là những biến số, đại lượng y sinh học - nó có thể là 1 đoạn văn bản,
là hình ảnh kỹ thuật số, là tín hiệu điện (EEG, ECG, EMG), là sơ đồ mạng lưới (Network), là bản đồ. (choropleth).

Hầu hết các gói công cụ trong R tiếp nhận dữ liệu dưới dạng dataframe hoặc matrix, và có yêu cầu chuyên biệt
về định dạng biến, do đó dữ liệu cần được chuẩn bị và kiểm tra cẩn thận về định dạng biến, mã hóa, sự mất mát
và sai sót trước khi đưa vào hàm biểu đồ.

Trong ngữ pháp đồ họa, Wilkinson phân chia dữ liệu thành 3 loại : Thực nghiệm (Impirical data), Trừu tượng
(Abstract data) và Siêu dữ liệu (Metadata). Trong tài liệu này, chúng ta chỉ đề cập đến 2 loại đầu tiên là Thực
nghiệm và Trừu tượng. Hai phân loại này có ý nghĩa quan trọng cho phép hiểu được bản chất của các loại biểu
đồ khác nhau.

Dữ liệu thực nghiệm

Phân loại « thực nghiệm » bao gồm tất cả những dữ liệu mà nội dung là kết quả của một quy trình khảo sát
thực nghiệm (quan sát, đo đạc, đếm, ghi nhận…) các đại lượng, hiện tượng, sự vật trong tự nhiên, một cách thủ
công hay tự động, chủ quan hay khách quan. Dữ liệu thực nghiệm có tính chất trung thực (phản ánh đúng thế
giới tự nhiên), cá thể và tương ứng (dữ liệu được xử lý đến mức độ cá thể: mỗi hàng tương ứng với một trường
hợp). Đây có thể là dữ liệu nguyên thủy, được chuẩn bị (nhập liệu thủ công, thí dụ bảng số liệu trong một
nghiên cứu lâm sàng) hay dữ liệu thô do máy móc ghi lại một cách tự động, liên tục, thí dụ sóng điện tim, điện
cơ, hình ảnh CTscan).

ĐỒ HỌA THỐNG KÊ TRANG 15/46


Một số trường hợp ta bắt buộc phải dùng dữ liệu thực nghiệm (nội dung nguyên thủy), thí dụ để dựng biểu đồ
tán xạ, heatmap, biểu đồ tuyến kí cho chuỗi thời gian hay thí nghiệm lặp lại cho từng cá thể…
Dữ liệu sau khi bị hoán chuyển một cách hệ thống, thí dụ đổi tên nhãn (recode), dịch chuyển trung tâm
(centering), quy đổi đơn vị (scale), chuẩn hóa (standardising), các hàm hoán chuyển (transformation) Box-Cox,
Yeo_johnshon… vẫn được xem là dữ liệu thực nghiệm.

Một trường hợp đặc biệt khác đó là khi dữ liệu dùng để vẽ biểu đồ là kết quả của một quy trình tái chọn mẫu
ngẫu nhiên (resampling), thí dụ bootstrap. Mặc dù nội dung sau khi tái chọn mẫu không còn trung thành với dữ
liệu gốc, nó vẫn được xem là dữ liệu thực nghiệm vì vẫn giữ cấu trúc (n cá thể x j biến) và ý nghĩa các biến vẫn
như cũ.

Dữ liệu trừu tượng

Loại dữ liệu này mang ý nghĩa đối lập với dữ liệu thực nghiệm, vì mỗi hàng không còn ở cấp độ cá thể/trường
hợp nữa, và giá trị nguyên thủy của mỗi biến đã bị thay thế bằng những đại lượng mang tính trừu tượng/tóm
tắt tùy vào mục tiêu, loại biểu đồ ta cần dựng.

Trên thực tế, dữ liệu trừu tượng/tóm tắt phổ biến hơn so với dữ liệu thực nghiệm. Đa số trường hợp, đại lượng
trừu tượng này là trị số thống kê, kết quả của một hàm thống kê hay hàm toán học. Thí dụ : biểu đồ tần suất
trình bày kết quả phép đếm, biểu đồ boxplot trình bày 5 trị số thống kê mô tả, biểu đồ bánh trình bày tỉ lệ phân
bố (%), biểu đồ ma trận tương quan trình bày giá trị hệ số tương quan Pearson v.v… Biểu đồ mật độ phân bố
cũng dùng dữ liệu trừu tượng là kết quả của hàm mật độ xác suất (pdf) hay hàm xác suất tích lũy (cdf). Danh
sách này còn bao gồm đồ thị của các mô hình hồi quy, biểu đồ Kaplan Meier hay đường cong ROC.

Các loại biểu đồ sử dụng dữ liệu trừu tượng yêu cầu chúng ta phải chuẩn bị một ma trận/dataframe dữ liệu
trung gian chuyên biệt cho chúng từ dữ liệu gốc. Tuy nhiên gần đây nhờ vào các packages như dplyr, tidyverse,
broom, nhất là toán tử pipe (%>%) ta có thể vẽ biểu đồ theo quy trình khép kín, trong đó dữ liệu gốc lần lượt đi
qua các hàm trung gian trước khi kết thúc tại hàm đồ họa để xuất ra kết quả biểu đồ sau cùng. Cách làm này
được ưa chuộng vì có nhiều ưu điểm như giảm số lượng các object trung gian, giảm nguy cơ sai sót/tăng khả
năng tái lập kết quả. Bạn có thể học về quy trình này trong 2 quyển sách về khoa học dữ liệu/ggplot2 được giới
thiệu trong danh sách tài liệu tham khảo.

2.3.4 Thang đo

Thang đo là thành phần quan trọng thứ hai trong biểu đồ sau dữ liệu và hệ trục tọa độ, thậm chí nó quan trọng
hơn cả yếu tố hình họa và hệ trục. Thang đo không chỉ quyết định về hiệu quả thị giác thông qua kích thước, hình
dạng, khoảng cách, tọa độ, màu sắc, độ phân giải… của hình họa trên biểu đồ, mà nó còn quyết định về ý nghĩa
của đại lượng được trình bày và cách diễn giải đại lượng này.

Từ « scale » có xuất xứ từ ngôn ngữ Latin : « scala », nghĩa là « cái thang », tuy nhiên « scale » là một khái niệm
khoa học phức tạp hơn rất nhiều so với hình ảnh đơn giản về một trục thẳng kèm theo điểm mốc và con số như
ta thường nghĩ. Khái niệm « scale » có thể được hiểu khác nhau tùy theo ngành (đo đạc, thống kê, tâm lý, …).
Sau đây chúng ta sẽ tóm tắt một số khái niệm quan trọng về thang đo – mà ta có thể ứng dụng trong thực hành.

Phân loại theo khoa học thực nghiệm

thang đo được S.S Stevens (1946) mô tả như một khái niệm mang ý nghĩa vật lý/toán học và tâm lý học và ông
phân chia thang đo thành 4 loại cơ bản bao gồm thang định danh, thang thứ tự, thang khoảng cách và thang tỉ
lệ ; với ý nghĩa bất biến về phương diện đo lường (trường phái Chân lý - Axiomatic). Thí dụ :

+ Thang định danh : Giới tính Nam/ Nữ, Tên gọi của các triệu chứng, Chủng tộc Á/Âu/Phi…

+ Thang thứ tự : bệnh nhân này nghiêm trọng hơn, liều thuốc này cao/thấp hơn, thiết bị này đắt tiền/rẻ tiền hơn

+ Thang khoảng cách : các đại lượng vật lý được đo lường trên một thang chia thành nhiều khoảng đon vị đều
nhau

ĐỒ HỌA THỐNG KÊ TRANG 16/46


Hình: Bài báo phân loại thang đo nổi tiếng của S. Stevens
Nguồn: Stevens, S. S. On the Theory of Scales of Measurement. Science. 1946; 103 (2684): 677–680. PMID
17750512.

Cách phân loại của Stevens ảnh hưởng đến việc phân loại biến số trong thực hành Thống kê, thí dụ biến định
danh, định lượng liên tục, thứ hạng, tỉ lệ…

Một cách phân loại thang đo khác của ngành vật lý, dựa vào bản chất của đại lượng và hệ đơn vị đo lường cho
đại lượng đó. Các đại lượng vật lý cơ bản được xác định gồm: chiều dài, trọng lượng, cường độ dòng điện, nhiệt
độ, số phân tử, công suất… Các đơn vị đo lường cơ bản gồm mét, kilogam, giây, ampe, độ K, joule, watt…

Tất cả những cách phân loại nêu trên đều có ý nghĩa hẹp với nhiều hạn chế. Chúng không đủ để bao quát tất cả
những đại lượng vô hướng hoặc trừu tượng trong đồ họa thống kê, thí dụ chúng không áp dụng được cho kết
quả của hàm thống kê (hàm mật độ xác suất trong density curve chẳng hạn), hoặc cho kết quả của sự pha trộn
các đại lượng cùng đơn vị nhưng khác bản chất (thí dụ dùng 1 thang đo duy nhất trên cùng trục tung để diễn tả
huyết áp tâm thu và huyết áp tâm trương).

Theo lý thuyết ngữ pháp đồ họa, thang đo được Wilkinson định nghĩa một cách tổng quát như những quy luật
ánh xạ tập biến lên các chiều thông tin. Việc áp dụng thang đo cho một biến chính là hoán chuyển biến đó bằng
một hàm. Định nghĩa này rất phổ quát và cho phép hiểu được những dạng thang đo « không biểu kiến » trong
đồ họa, thí dụ thang diện tích của yếu tố hình họa, thang biểu tượng rời rạc, thang đậm nhạt của đường nét,
thang màu sắc liên tục/rời rạc…, cũng như việc hoán chuyển từ thang đo định lượng thành thang định tính (hàm
cut, bin, …), hay hoán chuyển từ thang tuyến tính sang thang logarit hoặc lũy kế, từ thang nhị phân sang thang
xác suất hay logis v.v…

Ngoài việc khái quát hóa định nghĩa thang đo, Wilkinson còn tách biệt 2 yếu tố thang đo và hình họa. Thật vậy,
thành phần hình họa thực hiện vai trò của nó một cách độc lập với loại thang đo, thí dụ biểu đồ thanh có thể
biểu diễn tần suất, tỉ lệ, hoặc bất cứ con số nào. Từ sự phân lập này, Wilkinson cũng chỉ ra rằng một hàm hoán
chuyển có thể tác động chuyên biệt lên từng thành phần khác nhau trong biểu đồ, bao gồm : hoán chuyển hệ
trục, hoán chuyển thang đo, và hoán chuyển biến số.

Thí dụ : việc hoán chuyển hệ trục từ Descarte sang Polar sẽ biến một stacked bar graph thành Pie chart (thay
hình đổi dạng biểu đồ), tuy nhiên không làm thay đổi thang đo và đại lượng (đều là tỉ lệ).

ĐỒ HỌA THỐNG KÊ TRANG 17/46


Một thí dụ khác là hoán chuyển bằng hàm logarit. Khi áp dụng hàm log() cho một biến số X, thang đo mới sẽ có
đơn vị là log với cột mốc 1,2,3,4… và tên gọi của trục sẽ là log của X hay log(X). Nhưng khi ta hoán chuyển 1 thang
đo bằng hàm log(), các cột mốc sẽ chuyển thành 10,100,1000… trong khi bản chất biến số không thay đổi (vẫn là
X).

Điều này cũng tương tự như nội dung món ăn thì độc lập với hình thức trình bày món ăn đó.

Bảng sau đây liệt kê một số loại thang đo phổ biến trong đồ họa thống kê :

Loại thang đo (scale) Đại lượng Thí dụ


trong đồ họa
Thang đo liên tục (continuous) Biến số liên tục Cân nặng, chiều cao, nồng độ
Thang đo logarit Biến liên tục / hệ thống phi tuyến pH, công suất âm thanh, entropy,
tỉ lệ
Thang rời rạc có thứ tự Thứ tự, thứ hạng, số đếm Phân độ bệnh lý, Phân nhóm liều
thuốc, phân nhóm trị liệu, Tên
ngày tháng, tần suất, số đếm
Khoảng giới hạn Biến số liên tục bị chặn Tỉ lệ (% hay 0:1), hệ số tương
quan (-1:1), thang điểm lâm sàng
(score)….
Thang rời rạc không có thứ tự Biến rời rạc, định danh, phân Giới tính, Loại bệnh lý, đơn vị
nhóm hành chính, phương pháp đo
lường
Thang độ trong suốt (alpha) Biên số (liên tục hoặc không liên Biểu diễn một biến số liên
Thang màu nền/màu viền liên tục) tục/không liên tục
tục
Thang diện tích Tỉ suất mắc bệnh trên bản đồ,
Bubble chart
Thang độ đậm nét Phân nhóm, biến rời rạc, định Biểu đồ tuyến kí: phân nhóm
Thang biểu tượng danh Phân nhóm / biểu đồ tán xạ
Thang màu nền/màu viền rời rạc Phân nhóm density curve,
boxplot, tán xạ, bar graph…
Thang thời gian Thời gian, thời điểm Diễn tiến theo thời gian, thời
điểm phát sinh sự kiện

ĐỒ HỌA THỐNG KÊ TRANG 18/46


Hình : Một số thang đo phổ biến : a) Thang liên tục, b) Thang liên tục được hoán chuyển bằng hàm logarit, c)
Thang giới hạn 0:1 hay tỉ lệ %, d) Thang rời rạc có thứ bậc, e) Thang rời rạc không có thứ bậc, f) Thời gian, g)
Thang màu rời rạc (có thứ tự hoặc không), h) Thang màu liên tục

Thậm chí, số chiều thông tin trong dữ liệu và phạm vi quan sát (cá thể, điều kiện, toàn thể, cục bộ…) cũng có thể
được xem như một thang đo. Hình dưới đây sẽ giải thích rõ hơn điều này:

Thăm dò trực quan dữ liệu cũng như quan sát một khu rừng từ nhiều hướng và độ cao khác nhau. Tùy theo câu
hỏi và giả thuyết mục tiêu, ta có thể quan tâm đến: A) Thông tin tóm tắt về đặc tính phân bố dữ liệu (những trị
số thống kê mô tả), B) Quan sát toàn cảnh về mối tương quan đa chiều giữa tất cả biến trong không gian dữ liệu
(thí dụ bằng heatmap, dendogram hay network), C) Quan sát một phần nhỏ của dữ liệu, so sánh một đại lượng
giữa 2 hay nhiều phân nhóm, phân tích tương quan giữa hai hay một vài biến số, mô tả một mẫu ngẫu nhiên, D)
Tập trung vào từng chi tiết nhỏ nhất – đặc tính của từng trường hợp/cá thể trong dữ liệu.

ĐỒ HỌA THỐNG KÊ TRANG 19/46


Một số dạng biểu đồ đặc biệt không cần dùng đến yếu tố hình họa nhưng sử dụng chính thang đo làm nội dung
chính. Thí dụ hàm đồ họa geom_rug( ) của ggplot2 khi áp dụng cho 1 chiều dữ liệu sẽ cho ra kết quả như sau:

Một thí dụ khác là biểu đồ nomogram, sử dụng thang đo và không gì khác ngoài thang đo

Hình: Biểu đồ nomogram mô tả nội dung của một mô hình logistic tiên lượng nguy cơ tử vong theo giới tính, tuổi,
huyết áp và cholesterol. Hình vẽ được dựng từ dữ liệu mô phỏng và hàm nomogram, package rms của Frank
Harrell.

Ngược lại, có những dạng biều đồ không cần đến thang đo biểu kiến, thí dụ như Piechart.

2.3.5 Hệ trục tọa độ

Hệ tọa độ là yếu tố quan trọng nhằm định hình biểu đồ thống kê. Thông dụng nhất là hệ tọa độ Descartes
(cartesian coordinates), cũng là dạng mặc định trong các hàm ggplot2. Hệ tọa độ Descartes gồm trục tung và trục
hoành, vuông góc với nhau tại gốc tọa độ. Nó cho phép xác định vị trí của một điểm bất kì trên mặt phẳng bằng
một cặp số (x,y). Cần ghi chú là khái niệm hệ tọa độ trong biểu đồ khác với cách dùng trong toán học, vì độc lập
với 2 biến X,Y trên 2 trục. Hai thang đo X,Y không bắt buộc phải là thang liên tục (thí dụ Bar graph hoặc boxplot
có trục X là một biến rời rạc, X và Y có thể khác đơn vị đo, và gốc tọa độ cũng không bắt buộc có giá trị = 0. Ta
cũng có thể hoán chuyển X và Y giữa trục tung và trục hoành để xoay biểu đồ, thí dụ khi dùng hàm coord_flip
trong ggplot2, trục tung biểu thị cho X và trục hoành cho Y.

ĐỒ HỌA THỐNG KÊ TRANG 20/46


Hệ tọa độ Descartes cũng có thể áp dụng cho dữ liệu 3 chiều:

Hình : Biểu đồ 3 chiều - bên trái là hình ảnh một phân phối Gaussian với ma trận z được mô tả bằng hàm số
z=exp(-(y^2+x^2)/(2*3^2)). Hình bên phải biểu diễn mặt phẳng hồi quy của một mô hình đa thức tiên lượng
cho dung tích phổi TLC (z) theo tuổi (x) và chiều cao (y) với phương trình TLC=Age^2+Height^3, dựa trên dữ liệu
có thực của 300 người đàn ông da trắng. Thành phần hình họa

Một hệ tọa độ 2 chiều khác mà ta cần biết là tọa độ cực (polar). Hệ tọa độ cực gồm một gốc cực nằm ở trung
tâm, trục cực xác định hướng chuẩn (0°), vị trí của một điểm bất kì trên mặt phẳng sẽ được biểu diễn bằng 2
thành phần: khoảng cách từ điểm đó đến gốc cực (bán kính r), và góc ɸ tạo thành bởi đường thẳng nối từ điểm
đó đến gốc cực và trục cực.

Tọa độ cực (r, ɸ) có thể hoán chuyển thành tọa độ Descartes (x,y) bằng hàm lượng giác sin và cosine :
X=r cos ɸ , Y=r sin ɸ

Ngược lại tọa độ Descartes cũng có thể hoán chuyển thành tọa độ cực, với 𝑟 = √𝑥 2 + 𝑦 2 và ɸ nhận giá trị
trong khoảng (−π, π] bằng 1 hàm phức tùy theo giá trị của x và y.

Hình: Sự thay đổi của 5 yếu tố hình họa khi hoán chuyển giữa hệ trục Descartes và hệ trục Polar

ĐỒ HỌA THỐNG KÊ TRANG 21/46


Hình: Việc chọn hệ trục tọa độ có tính chất quyết định đối với hình ảnh mà bạn quan sát được trên biểu đồ. Hình
trên trình bày tác động của việc chuyển từ hệ tọa độ Descartes sang tọa độ cực, làm biến đổi hoàn toàn cách sắp
xếp và/hoặc hình dạng của các yếu tố hình họa như: (1) uốn cong quỹ đạo các điểm trên biểu đồ tán xạ, (2) uốn
cong biểu đồ tuyến kí và thay đổi diện tích đa giác, và cuối cùng: (3) Piechart chính là một stacked bar graph trình
bày trên tọa độ cực.

Tọa độ cực hiếm khi được sử dụng khi vẽ biểu đồ, ngoại trừ một số ngoại lệ. Polar chart là giải pháp hiệu quả
nhất khi vấn đề của bạn có một hay nhiều hơn các đặc tính sau đây:

1) Có tính chu kỳ (7 ngày trong tuần, 12 tháng trong năm, 12 giờ trong ngày),

2) Bạn muốn biểu diễn một hàm/quy luật có liên quan đến chu ký hay góc

3) Bạn muốn nén càng nhiều mật độ dữ liệu cao nhất lên một diện tích cho trước (hình tròn là giải pháp tối ưu,
như cách người ta ghi dữ liệu lên đĩa CD hay DVD).

4) Bạn bắt buộc phải dùng nó: biểu đồ bánh (piechart) chính là một biểu đồ thanh phân lớp (stacked bar) trên
tọa độ cực.

5) Bạn chủ động lựa chọn vì mục đích mỹ thuật.

ĐỒ HỌA THỐNG KÊ TRANG 22/46


2.3.6 Hàm thống kê đồ họa

Trong phần tiếp theo, chúng ta sẽ tìm hiểu về quy trình Thống kê (Statistics) trong đồ họa. Nhưng trước hết, xin
nhấn mạnh một điều là chúng ta đã bước hẳn qua lĩnh vực đồ họa chứ không còn suy nghĩ như một người làm
thống kê bình thường nữa.

Khái niệm “Thống kê” trong ngữ pháp đồ họa rộng hơn, độc lập và khác biệt rất lớn so với khái niệm “Thống kê
học” mà ta vẫn quen sử dụng. Sự khác biệt này liên quan đến 2 vấn đề : 1) thứ bậc trong quy trình dựng biểu đồ
: đồ họa bị kiểm soát/chi phối bởi thống kê hay ngược lại ?, và 2) Đối tượng và Kết quả của quy trình thống kê
này là gì ?

Những người học thống kê thường có quan điểm rằng các biểu đồ chỉ là công cụ/hình thức để biểu diễn Kết quả
của một hàm thống kê, thí dụ: biểu đồ Boxplot là hình thức trình bày kết quả của một thống kê mô tả. Do đó,
trong thực hành chúng ta có thói quen thực hiện những phép tính, kiểm định thống kê và nhìn vào con số trước
khi nghĩ đến biểu đồ. Môn thống kê học cũng nhìn biểu đồ như những thực thể rời rạc, thí dụ các bạn được dạy
rằng biểu đồ bánh (Pie chart) và Biểu đồ Thanh (Bar graph) là hai thực thể khác nhau (sự thật thì chúng là một).
Ngữ pháp đồ họa đưa ra một quan điểm phổ quát và chính xác hơn về Statistics so với quan điểm hẹp trong
ngành thống kê. Trước hết, thứ bậc bị đảo ngược: thống kê chỉ là một thành phần nằm bên trong và chịu chi
phối bởi hàm đồ họa chứ không phải ngược lại.

Trên thực tế, chúng ta có thể lồng ghép kết quả của nhiều hàm thống kê chứ không chỉ một trên nhiều layer khác
nhau của cùng một biểu đồ. Thí dụ đơn giản nhất là từ cùng dữ liệu, ta có thể tạo ra một biểu đồ 2 lớp gồm: 1
lớp tán xạ bên dưới sử dụng hàm thống kê identity( ), một lớp tuyến kí bên trên sử dụng mô hình hồi quy phi
tuyến tính gam( ). Cách làm này cho phép tự do sáng tạo ra nhiều loại biểu đồ chưa có trong quy ước, thí dụ ta
có thể ghép boxplot, violinplot, dotplot vào một biểu đồ duy nhất.

Ngoài ra, dựng biểu đồ là một quy trình khép kín: chúng ta không cần phải nhìn thấy kết quả (con số, bảng) của
hàm thống kê trước khi vẽ hình. Mặt khác, có sự độc lập tương đối giữa hàm thống kê (bước xử lý dữ liệu) và kết
quả sau cùng (biểu đồ) vì tự thân hàm thống kê không quyết định hoàn toàn kết quả hình họa mà ta nhận được.
Kết quả (hình dạng biểu đồ) còn chịu sự chi phối bởi những thành phần khác, thí dụ loại hình họa
(điểm/hộp/đường…). Trong thí dụ sau đây, ta thấy cùng một hàm thống kê (identity) nhưng ta có thể vẽ 4 loại
biểu đồ khác nhau, bằng cách điều chỉnh yếu tố hình họa:

Hình: 4 loại biểu đồ khác nhau (tán xạ, tuyến kí, biểu đồ thanh và diện tích) tương ứng với 4 loại hình họa là điểm,
đường, hộp và đa giác. Chúng đều có chung hàm thống kê là identity( )

ĐỒ HỌA THỐNG KÊ TRANG 23/46


Tiếp theo, ngữ pháp đồ họa còn mở rộng khái niệm Statistics khi cho rằng kết quả của hàm thống kê đồ họa
không chỉ là những con số mà là hình ảnh trực quan. Từ đó, ta có thể phân loại những phương pháp thống kê
khác nhau tùy theo công dụng trực quan của chúng.

Có 5 nhóm phương pháp quan trọng nhất được liệt kê trong bảng dưới đây, kết quả trực quan của chúng khi áp
dụng cho dữ liệu 1 chiều hoặc 2 chiều được trình bày trong trang tiếp theo.

Nhóm phương pháp Các hàm thống kê Ứng dụng


Phân chia (Bin) bin,rect,tri,hex, cut,quantile,dot… Chia không gian dữ liệu thành nhiều phần
Tóm lược (summary) Tỉ lệ, đếm, tổng, trung bình, trung vị, Giản lược tập dữ liệu bằng trị số thống kê
mode, sd, se,,… đại diện
Phân vùng (Region) Khoảng tin cậy, min/max, sd, se, 2D- Xác định giới hạn khoảng/vùng cho tập dữ
density liệu
Hồi quy (Smooth) Tuyến tính, loess, hàm đa thức, điều Xác định khuynh hướng thay đổi / quan
hòa (splines), hàm mật độ xác suất, hệ trong không gian dữ liệu
kernel…
Liên kết (Link) Join, sequence, neighbor,… Nối kết giữa các điểm

5 phương pháp đồ họa thống kê kể trên lại có thể được áp dụng theo 2 cách thức: Có điều kiện (Conditional) và
kết hợp đơn giản (Joint). Với một tập biến (X,Y) cho trước với X là một vector dữ liệu đa chiều (có thể chia thành
k phân nhóm), quy trình thống kê có điều kiện (Conditional) sẽ áp dụng hàm thống kê đồ họa cho (X,Y) một cách
có điều kiện cho X, tức là riêng biệt cho mỗi phân nhóm của X (x1*x2*x3…*xk*Y), còn chế độ kết hợp đơn giản
(Joint) sẽ áp dụng hàm thống kê cho toàn bộ vector X.

Bin là một phương pháp với mục tiêu là phân chia (cắt) không gian dữ liệu thành nhiều phần (phân nhóm đại
diện). Bin phải được áp dụng trước các hàm thống kê còn lại. Thí dụ đơn giản nhất: biểu đồ tần suất (histogram)
là kết quả của hàm bin áp dụng cho 1 biến (1 chiều). Quy trình này tương đương với việc cắt dữ liệu tại những
ngưỡng tùy chọn để chuyển biến số liên tục thành biến rời rạc (discretization hay categorization), bách phân vị

ĐỒ HỌA THỐNG KÊ TRANG 24/46


hay tứ phân vị. Ta cũng có thể áp dụng bin cho không gian 2 chiều, lúc này mỗi đơn vị phân nhóm là 1 hình đa
giác, thí dụ tứ giác (rect), lục giác (hex)…, cách làm này được sử dụng để giải quyết vấn đề chồng lắp khi dựng
biểu đồ tán xạ cho dữ liệu có cỡ mẫu cực lớn.

Tóm lược (Summary) là một quy trình rất phổ biến khi dựng biểu đồ thống kê, nó cho phép thay thế nhiều trường
hợp/cá thể bằng một trị số thống kê đại diện. Thí dụ: phép đếm áp dụng cho biến rời rạc sẽ cho ra trị số là tần
suất và dùng kết quả này như dữ liệu đầu vào để dựng biểu đồ thanh, tỉ lệ dùng cho stacked bar hay pie chart,
Trung bình/trung vị cho phép biểu diễn vị trí trung tâm bằng 1 điểm duy nhất, biểu đồ boxplot là kết quả của một
loạt hàm thống kê mô tả (min,max,quartile, median) …

Phân vùng (Region) là một quy trình thống kê cho phép xác định hai ngưỡng cao/thấp của một tập dữ liệu 1
chiều, hoặc một bờ bao khép kín cho dữ liệu 2 chiều. Phương pháp này được dùng cho riêng biến kết quả Y (1
chiều) dựng những biểu đồ như error-bar, point range, boxplot, hoặc ED density plot cho dữ liệu 2 chiều (X và Y).
Phương pháp thống kê Smooth (tạm dịch: hồi quy) là tập hợp nhiều loại hàm cho phép ước đoán khuynh hướng
của dữ liệu.

Khi áp dụng cho 1 biến X duy nhất (dữ liệu 1 chiều), hai trường hợp thường gặp là hàm mật độ xác suất (PDF, kết
quả là density curve cho X) và mô hình hồi quy chỉ chứa Intercept (ước tính giá trị trung bình cho X).

Khi áp dụng cho dữ liệu 2 chiều (X và Y) ta có các mô hình hồi quy (tuyến tính, phi tuyến tính, đa thức, loess…)
nhằm ước tính giá trị Y theo X, và kết quả là đồ thị của mô hình hồi quy này. Ta có thể áp dụng nhiều giả định
khác nhau về quy luật phân bố của Y (family). Trong trường hợp đặc biệt khi Y là một số đếm ta cũng có thể dựng
mô hình Poisson hay nhị thức âm, còn khi Y là biến nhị phân thì ta có thể dựng mô hình logistic…

Thí dụ dưới đây trình bày kết quả của 4 đồ thị khác nhau trên cùng một tập dữ liệu, tương ứng với 4 phương
pháp Smoothing là Loess (phi tuyến tính), Linear (tuyến tính), Polynomial (đa thức bậc 6), GAM (phi tuyến tính
với hàm điều hòa natural Spline bậc 6).

Phương pháp cuối cùng là liên kết (Link). Như tên gọi, thao tác này sẽ nối kết các điểm rời rạc lại với nhau để tạo
ra một đường nét liên tục. Liên kết là cơ chế tạo ra các biểu đồ tuyến kí, chuỗi thời gian và biểu đồ mạng (graph,
network).

ĐỒ HỌA THỐNG KÊ TRANG 25/46


2.3.7 Yếu tố hình họa

(Phần này chưa hoàn thiện)

Yếu tố hình họa Hiệu ứng thị giác/Cơ chế mã hóa thông tin Ứng dụng trong

Điểm Định vị tọa độ: Kết quả phép giao 2 biến + Biểu đồ tán xạ
+ Bubble chart (bong bóng)
Tương phản về khoảng cách, biểu tượng, màu sắc và + Dot plot
diện tích + Heatmap
+ Correlogram
Mỗi điểm = 1 trường hợp, 1 trị số thống kê, 1 biến + Network (vertices, nodes)

Mở rộng:
+Các loại biểu tượng: mã hóa cho biến rời rạc
+Diện tích: mã hóa cho biến liên tục
+Màu sắc: Mã hóa cho biến rời rạc hoặc liên tục

Đường Kết quả của việc kết nối giữa 2 hay nhiều điểm +Biểu đồ tuyến kí
+Biểu đồ tuyến kí tần suất
Tương phản về góc +Đồ thị của hàm /mô hình
Biểu thị sự liên kết +Kaplan-Meier
Khuynh hướng tăng/giảm/ổn định +Network (edges)
+ Dendogram
Mở rộng:
+ Màu: Mã hóa cho biến rời rạc
+ Nét: Mã hóa cho biến rời rạc
+ Thêm layer: dot plot

Hộp chữ nhật Kích thước mỗi cạnh cho phép thể hiện 1 trị số thống + Bar graph (biểu đồ thanh)
kê (1 chiều thông tin) + Histogram (biểu đồ tần
suất)
Tương phản về kích thước, về diện tích, về màu nền + Stacked bar (thanh phân
đoạn)
Mở rộng: + Boxplot
+Màu nền: Mã hóa cho biến rời rạc hoặc liên tục + Bánh (pie chart)
+Kết hợp dễ dàng với layer khác : error bar, điểm,
violin, tuyến kí
+ Phân đoạn để định vị thêm nhiều trị số thống kê
khác
+ Hoán chuyển: pie chart (hệ tọa độ cực)

Đa giác Kết quả của việc nối nhiều điểm và khép kín + Density plot
+ 2D density plot
Tương phản về diện tích, về góc + Radar chart
+ Area graph
Mở rộng: +Đường cong ROC
+ Màu nền: Mã hóa cho biến rời rạc + Cluster
+ Nét: Mã hóa cho biến rời rạc

ĐỒ HỌA THỐNG KÊ TRANG 26/46


Hình dưới đây minh họa cho những kênh thông tin và cách thức truyền tin của 4 yếu tố hình họa : Điểm, Hộp,
đường nét và đa giác

ĐỒ HỌA THỐNG KÊ TRANG 27/46


Điểm là đơn vị hình họa đại diện cho 1 trường hợp quan sát trong các dạng biểu đồ dot plot hay scatter plot. Yếu
tố này có hai thuộc tính : Tọa độ của nó, và hình dạng. Một đơn vị điểm có thể mang rất nhiều hình dạng/màu
sắc : nó có thể cực nhỏ với kích thước chỉ 1 pixel, nhưng cũng có thể thay đổi kích cỡ để biểu thị cho một biến
liên tục thứ ba. Điểm không bắt buộc luôn là hình tròn, nó có thể là ô vuông, tam giác, lục giác… (để mã hóa cho
một biến rời rạc), 1 kí tự, hoặc thậm chí một biểu tượng. Điểm có thể được viền, trống rỗng hay tô màu và màu
sắc, độ đậm nhạt này lại có thể được dùng để biểu thị cho biến số thứ ba.

Hình: Danh sách mã biểu tượng (shape) thông dụng cho geom_point trong ggplot2; Shape mặc định = 16 (điểm
tròn đen). Các biểu tượng từ 1-14 không có màu nền (rỗng). Các biểu tượng từ 15-20 được tô màu nền bằng
tùy chỉnh color, các biểu tượng từ 21-25 có thể tùy chỉnh riêng biệt màu viền (color) và màu nền (fill). Thí dụ:
shape=22,col=”black”,fill=”gold” sẽ cho ra biểu tượng hình vuông, màu nền vàng và viền đen: ( ). Đặc biệt mã
46 hay ‘.’ tương ứng với kích thước điểm nhỏ nhất = 1 pixel.

ĐỒ HỌA THỐNG KÊ TRANG 28/46


2.3.8 Yếu tố mỹ thuật và phong cách

(Phần này chưa viết xong …)

ĐỒ HỌA THỐNG KÊ TRANG 29/46


2.3.9 Màu sắc

(Phần này chưa hoàn thiện)

Theo lý thuyết, võng mạc mắt người có khả năng phân biệt được 10 triệu màu sắc khác nhau, và máy tính có khả
năng hiển thị đến 256 sắc thái cho thang đơn sắc, do đó màu sắc là kênh thông tin có băng thông đủ rộng để biểu
thị biến số liên tục. Tuy nhiên, trên thực tế việc suy diễn giá trị biến liên tục bằng màu sắc là điều không hề dễ
dàng ! Do đó bạn nên cân nhắc nếu muốn mã hóa thang đo định lượng bằng màu sắc, ngoại trừ trường hợp dữ
liệu có cấu trúc tương phản rõ rệt hoặc bị bắt buộc phải tô màu để tạo ra sự tương phản, thí dụ bản đồ, 2D
density plot.

Sử dụng màu sắc là một nghệ thuật. Mỗi màu sắc có thể hàm chứa một ý nghĩa đặc biệt và dẫn dắt người đọc
suy diễn một cách vô thức ; thí dụ : Màu Đỏ và Đen biểu thị cho điều xấu, đáng sợ, nguy hiểm - tương phản với
màu Xanh lam, lục hoặc Trắng biểu thị cho sự an toàn, cân bằng, sạch sẽ - do đó các bác sĩ hay chọn màu Đỏ/Đen
cho nhãn giá trị « Bệnh nhân, Có bệnh, Dương tính » phân biệt với màu Xanh, Lục, Trắng đại diện cho « Người
khỏe mạnh, Bình thường, Nhóm chứng ».

ĐỒ HỌA THỐNG KÊ TRANG 30/46


Màu sắc Sóng quang phổ Ý nghĩa, hiệu ứng tâm lý Ứng dụng trong biểu đồ
Đen NA Quan trọng, điểm nhấn, uy lực, tỉ Yếu tố đích, chi tiết cần nhấn
mỉ/sâu sắc, tao nhã, nghiêm túc, kỷ mạnh , Nhóm bệnh nhân, Giá trị
luật, Điều xấu xa, Bí ẩn, Tang tóc, Cái cao, dữ liệu thiếu sót, giá trị cao
chết, Bóng tối nhất trên thang Xám, tương phản
với Trắng

Tím 380-450 nm Sang trọng, Huyền bí, U buồn, Tín Tương phản tốt với màu vàng và
ngưỡng, tưởng tượng, Lục

Xanh lam 450-495 nm An toàn, sạch sẽ, cân bằng, yên tĩnh, Nhóm chứng, trạng thái bình
thư giãn, Lạnh, Nước, không khí, thường, âm tính, tác động yếu
Nam giới, Trí tuệ, khoa học hơn, tương phản tốt với
Vàng/Lục/Đỏ/Hồng

Xanh lục 495-570 nm Thiên nhiên, Sự sống, Tăng trưởng, Trạng thái bình thường, nhóm
Sinh sản, Thảo dược, Sức khỏe, cân chứng, Đúng/tốt
bằng, bình an, thư giãn, mát mẻ,
Đúng/thành công, an toàn

Vàng/Cam 570 - 620 nm Gây chú ý, quan trọng, cảm giác ấm Vị trí trung gian giữa Lục (Thấp)
áp, niểm vui, hy vọng, Ánh sáng và Đỏ (Cao)

Đỏ 620 - 750 nm Sức mạnh, năng lượng, hoạt động, Giá trị cao hơn, Tác động mạnh
Cảnh báo, Nguy hiểm, Nóng, Sợ hãi, hơn, Nhóm Dương tính, Nhóm
Máu, Thất bại/sai lầm bệnh lý, Nhóm can thiệp/điều trị,
Sai lầm

Hồng NA Lãng mạn, Nhạy cảm, Nữ giới, Vẻ Nữ giới, tương phản tốt với Lam,
đẹp, Tình yêu, Cảm thông Lục và Vàng

Trắng NA Thuần khiết, sạch sẽ, vệ sinh, thánh Nhóm chứng, trạng thái cơ bản,
thiện, ngây thơ, Hòa bình, trống nhóm placebo, Cấp thấp hơn, giá
rỗng, An toàn, Trung tính, cân bằng, trị thấp nhất trên thang xám
tĩnh lặng, ánh sáng, đơn giản,

ĐỒ HỌA THỐNG KÊ TRANG 31/46


Những màu sắc tương phản tốt khi kêt hợp với nhau :

O X O O X X X X O
O X O O O O X X X
X X O O O O O X O
O O O O O O O O X
O O O O X X O X X
X O O O X X X X X
X O O O X X X X X
X X O O O X X X O
X X X O X X X X O
O X O X X X X O O

Màu sắc trong R

ĐỒ HỌA THỐNG KÊ TRANG 32/46


Hình: Những màu sắc có thể gọi trực tiếp bằng tên riêng trong R.
Mã màu thập lục phân (Hexadecimal code)
Mã màu thập lục phân (Hexadecimal code), viết tắt là Hex color cho phép định danh 16,777,216 màu (24 bit)
bằng cách tổ hợp 6 kí tự (10 con số từ 0:9 và 6 chữ A:F). Hex color là cách định danh màu sắc đơn giản nhất trong

ĐỒ HỌA THỐNG KÊ TRANG 33/46


R, vì danh pháp ngắn gọn và tương thích với nhiều ứng dụng trực tuyến thí dụ của Google. Bạn chỉ cần gõ “hex
color” vào ô tìm kiếm của Google để mở ứng dụng này.

Cơ chế của hex color rất đơn giản: như ta biết – mỗi điểm ảnh trên màn hình máy tính được cấu tạo từ 3 phần
tử phát quang với 3 màu cơ bản là Đỏ (R), Lục(G) và Lam(B).
Trong thí dụ trên: mã #C92863 có nghĩa như sau: kí tự đầu tiên # cho biết đây là một mã thập lục phân, mỗi cặp
2 kí tự tiếp theo lần lượt biểu thị cho cường độ của màu Đỏ (C9), Lục (28) và Lam (63). Những kí tự đứng trước
(C,2,6) quy định giá trị độ bão hòa cho mỗi màu cơ bản, và định hình kết quả từ tỉ lệ phối hợp của 3 màu này.
Trong khi đó, những kí tự đứng sau (9,8,3) tinh chỉnh về độ sáng, giá trị của chúng càng cao thì kết quả càng nhạt
(màu sáng), càng thấp thì kết quả càng đậm.

Do đó trên thực tế ta chỉ cần nhớ 3 kí tự đứng trước để có thể định hình một màu sắc nào đó, như trong sơ đồ
sau:

ĐỒ HỌA THỐNG KÊ TRANG 34/46


Hình: Nhóm bộ 3 kí tự đứng trước trong danh pháp hex code
Mã màu RGB

Hệ thống mã màu thứ ba mà ngôn ngữ R hỗ trợ đó là RGB- viết tắt của Red, Green và Blue là 3 màu cơ bản. Hệ
thống màu RGB dễ hiểu và tường minh hơn hexcolor nên rất được giới chuyên viên thiết kế đồ họa ưa chuộng.
Cường độ của 3 màu cơ bản Đỏ, Lục, Lam được biểu thị trực tiếp bằng một con số với 256 bậc giá trị (0:255). RGB
code cho phép tái lập màu sắc chính xác khi làm việc nhóm, tuy nhiên cú pháp của nó trong R phức tạp hơn so
với hexcolor và danh pháp mặc định. Hàm rgb(red,green,blue,alpha) giúp xác định cả giá trị màu và độ trong
suốt.

Không gian màu RGB có thể được biểu thị bằng giá trị từ 0:1 cho mỗi màu cơ bản như sau:

ĐỒ HỌA THỐNG KÊ TRANG 35/46


Trong hình dưới đây, ta thấy cả RGB và hexcode có thể hoán chuyển cho nhau và đều cho phép tái lập chính xác
một màu sắc bất kì :

Trong nhiều trường hợp, chúng ta có nhu cầu sử dụng một phổ màu rộng với nhiều màu sắc để mã hóa cho thang
đo một biến số liên tục hoặc rời rạc.
Phổ màu có thể được tạo ra một cách thủ công trong R bằng cách liệt kê nhiều màu sắc theo thứ tự.
Hệ thống đồ họa mặc định trong R cung cấp sẵn 5 phổ màu cơ bản là cm, topo, terrain, rainbow và heat:

Một số R packages khác sẽ cung cấp cho các bạn nhiều phổ màu khác với hiệu ứng mỹ thuật phong phú và tốt
hơn, thí dụ:

Package viridis cung cấp 4 phổ màu liên tục : viridis, magma, plasma và inferno, rất phù hợp cho các biểu đồ
choropleth

ĐỒ HỌA THỐNG KÊ TRANG 36/46


Hình: Tỉ lệ thất nghiệp năm 2008 tại Hoa kỳ, phổ màu magma và viridis (package viridis).
Package RColorBrewer cung cấp rất nhiều phổ màu áp dụng cho cả biến rời rạc (Set1,2,3,Dark,Spectral…) và biến
liên tục:

Hình: Tất cả phổ màu mà package RColorBrewer hỗ trợ

ĐỒ HỌA THỐNG KÊ TRANG 37/46


Package RColorBrewer còn hỗ trợ hàm colorRampPalette cho phép mở rộng tùy thích số lượng màu trong một
phổ có sẵn. Thí dụ ta có thể mở rộng phổ màu với 3 thành phần: c("#f4dd44","#16ad64","#6325dd") thành phổ
rộng hơn với 13 màu:

2.3.10 Một số tiêu chí của Edward Tufte (1986) phẩm chất biểu đồ.

Chắc hẳn bạn đã từng có cảm giác “khó chịu” hoặc cảm thấy “có điều gì đó không ổn” khi tiếp xúc với những biểu
đồ kém phẩm chất trong văn bản khoa học hay báo chí, nhưng bạn không thể xác định được nguyên nhân là gì
hoặc tác giả những biểu đồ này đã phạm sai lầm gì ? Trong phần tiếp theo, chúng ta sẽ tìm hiểu các tiêu chí quan
trọng về phẩm chất và hiệu quả của biểu đồ thống kê. Những nguyên tắc và tiêu chí này được rút ra từ tác phẩm
“Trình bày trực quan thông tin định lượng - The Visual Display of Quantitative Information” năm 1983 của Edward
Tufte.

Tính trung thực

Khả năng truyền tải toàn vẹn và trung thực dữ liệu là tiêu chí được Tufte đặt lên hàng đầu. Thí dụ, con số (cột
mốc trên thang đo) phải tỉ lệ chính xác so với đại lượng được khảo sát trên thực tế. Biểu đồ phải thể hiện trung
thực sự biến thiên được ghi nhận trong dữ liệu chứ không phải một ảo giác tạo ra bởi thiết kế đồ họa. Số lượng
chiều thông tin mà biểu đồ truyền tải không nên vượt quá số biến trong dữ liệu (thí dụ tránh dùng biểu đồ 3D
chỉ để mô tả 2 biến số).

Tufte đề nghị đo lường phẩm chất toàn vẹn/trung thực của biểu đồ bằng “chỉ số lừa dối” (Lie Factor). Chỉ số này
được xác định bằng cách lấy kích thước hiệu ứng trên biểu đồ chia cho kích thước hiệu ứng thực tế trong dữ liệu.
Chỉ số lừa dối càng cao thì biểu đồ càng kém trung thực. Thí dụ trong biểu đồ sau đây, giá trị lie factor = ((5.3-
0.6)/0.6)/((27.5-18)/18) = 14.8 cho thấy biểu đồ đã bóp méo sự thật.

Nguyên tắc về tính toàn vẹn/trung thực chắc chắn bị vi phạm khi ta áp dụng hiệu ứng 3 chiều cho mọi biểu đồ
bất kì, như bar graph hay piechart. Do đó, lời khuyên đơn giản là tránh tối đa việc sử dụng hiệu ứng 3 chiều.

Trong ngành truyền thông, báo chí, các nhân viên thiết kế đồ họa thường phạm sai lầm là lạm dụng hiệu ứng đồ
họa để can thiệp làm nổi bật một hiệu ứng nào đó không tồn tại trong dữ liệu, như thí dụ sau đây:

ĐỒ HỌA THỐNG KÊ TRANG 38/46


Hình: Một thí dụ điển hình cho việc can thiệp nhân tạo lên biểu đồ nhằm cường điệu hóa một khuynh hướng gia
tăng không có thực trong dữ liệu.
Nguồn :
http://strajk.me/notes/2012/the-visual-display-of-quantitative-information-by-edward-r-tufte/assets/009.png;

Sai lầm này hoàn toàn có thể xảy ra trong nghiên cứu khoa học, nhất là khi ta lạm dụng kỹ năng viết code và can
thiệp sâu vào những tùy chỉnh của hàm geom_( ) một cách không cần thiết hoặc cố ý lừa dối độc giả với động cơ
xấu. Thí dụ, kéo dãn hoặc thu nhỏ kích thước error_bar của boxplot mà không kèm chú thích về tỉ lệ thực sự
được dùng.

Hiệu quả truyền thông

Nguyên tắc quan trọng thứ hai mà Tufte đề nghị, đó là tối ưu hóa hiệu quả truyền thông của biểu đồ, dựa vào
tiêu chí tỉ số Dữ liệu/Mực in. Trong trường hợp bạn chỉ hiển thị biểu đồ trên máy tính, nó trở thành tỉ số Dữ
liệu/Điểm ảnh. Tỉ số này biểu thị cho lượng mực in (điểm ảnh) thực sự có ích (trình bày vừa đủ thông tin quan
trọng của dữ liệu).

Quy tắc đơn giản đó là ta cần tăng tối đa tỉ số này bằng cách loại bỏ tất cả những chi tiết dư thừa, vô dụng trong
biểu đồ (thí dụ hình nền, màu nền, lưới tọa độ, độ bão hòa màu sắc…). Trong thí dụ sau đây, ta thấy hai biểu đồ
cùng trình bày một thông tin như nhau, nhưng hình bên phải có tỉ số Dữ liệu/Mực in được tối ưu hóa hoàn toàn
so với hình bên trái. Việc tối ưu hóa này bao gồm :

+ Lựa chọn thành phần hình họa là Điểm (geom_point) thay cho hình hộp (geom_bar),
+ Giảm chiều rộng error bar tối thiểu về 0,
+ Giản lược thang đo trục tung,
+ Loại bỏ màu nền,
+ Tô hệ trục tọa độ bằng màu xám thay cho màu đen.

ĐỒ HỌA THỐNG KÊ TRANG 39/46


Hình: Biểu đồ bên trái có phẩm chất kém hơn so với hình bên phải, vì tỉ số thông tin/pixel chưa được tối ưu
hóa. Môt cách tổng quát: biểu đồ thanh và error bar có hiệu quả truyền thông kém hơn nhiều so với biểu đồ
point range.

Việc ứng dụng ngữ pháp đồ họa thống kê cho phép bạn chuẩn bị sẵn những hàm đồ họa được tối ưu hóa trong
ggplot2 và luôn đạt được hiệu quả cao nhất cho mục tiêu thăm dò dữ liệu. Kinh nghiệm sử dụng ggplot2 đó là
luôn dùng theme_bw( ) thay cho theme mặc định, chọn đúng thành phần hình họa, chỉ tô màu khi cần thiết, giới
hạn thấp nhất có thể số hàm geom, sử dụng hàm facet_wrap/facet_grid để phân nhóm và nén nhiều thông tin
nhất có thể trên một trang giấy.

Rác biểu đồ

Tufte cũng sáng tạo ra một khái niệm mới để diễn tả những thành phần thừa thải, vô dụng, thậm chí gây nhiễu
và sai lệch nhận thức thị giác – ông gọi chúng là « chartjunk », tạm dịch là «Rác biểu đồ». Tufte chia rác biểu đồ
thành 3 loại chính gồm:

Rác gây nhiễu (Vibrating chartjunk) : bao gồm tất cả những thành phần, đường nét gây nhiễu loạn nhận thức,
mất tập trung vào thông tin chính trên biểu đồ. Những biểu đồ chứa rác loại này thường gây cảm giác khó chịu,
thậm chí chóng mặt, buồn nôn hoặc mệt mỏi cho người đọc. Thí dụ trong hình dưới đây, việc chọn màu nền
không khéo và trình bày trục hoành một cách hỗn loạn đã làm nhiễu loạn thị giác và mất tập trung vào mục tiêu
so sánh.

ĐỒ HỌA THỐNG KÊ TRANG 40/46


Sau khi sửa chữa những sai lầm trong biểu đồ trên, ta có thể loại bỏ hoàn toàn rác biểu đồ gây nhiễu và thu được
một kết quả tốt hơn nhiều trong hình dưới đây :

Trong một số trường hợp, hiệu ứng gây nhiễu có thể xuất phát từ sự tham lam, muốn dồn nén thật nhiều thông
tin vào một biểu đồ duy nhất, như trong thí dụ sau đây :

Hình: Rác gây nhiễu có nguyên nhân vì sự tham lam. Trong trường hợp một yếu tố phân nhóm có quá nhiều bậc
giá trị, bạn nên sử dụng hàm facet để tách biệt các phân nhóm thay vì chồng lắp chúng lên nhau.
Nguồn : Rougier NP, Droettboom M, Bourne PE (2014) Ten Simple Rules for Better Figures. PLOS Computational
Biology 10(9): e1003833. https://doi.org/10.1371/journal.pcbi.1003833
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003833

2) Lưới tọa độ : đây là một loại rác biểu đồ rất phổ biến. Một lưới tọa độ quá dày không phải là điều tốt thậm
chí có hại. Theo kinh nghiệm của tôi, lưới tọa độ chỉ thực sự quan trọng nếu bạn muốn đo đạc chính xác, nhưng
hoàn toàn không cần thiết cho nhận thức thị giác về sự tương phản. Bộ não của chúng ta có khả năng so sánh
khoảng cách mà không cần đến thang đo lẫn lưới tọa độ. Do đó, ta nên dùng lưới tọa độ thưa, màu xám nhạt
thay vì màu đen, thậm chí loại bỏ hoàn toàn lưới tọa độ (theme_minimal).

ĐỒ HỌA THỐNG KÊ TRANG 41/46


Hình : Hình bên trái sử dụng lưới tọa độ quá dày, đó là một loại rác cần loại bỏ. Hình bên phải tuân thủ rất tốt
tiêu chí về tỉ số thông tin/điểm ảnh.

3) Trang trí cầu kì : Loại rác biểu đồ thứ ba cần tránh, đó là những chi tiết đồ họa (hình học, đường nét, màu
sắc…) được cố ý đưa vào biểu đồ chỉ nhằm mục tiêu trang trí mỹ thuật chứ hoàn toàn không có chức năng trình
bày thông tin chính.

Hình : Rác biểu đồ sinh ra do lạm dụng trang trí mỹ thuật thay vì tập trung vào mục tiêu biểu thị thông tin trong
dữ liệu.

ĐỒ HỌA THỐNG KÊ TRANG 42/46


Hình: Một thí dụ khác về rác trong biểu đồ do lạm dụng trang trí mỹ thuật. Nguồn: N. T. Kouchoukos, et al.,
"Replacement of the Aortic Root with a Pulmonary Autograft in Children and Young Adults with Aortic-Valve
Disease," New England Journal of Medicine, 330 (January 6, 1994), p. 4.

Nguồn : https://www.jhsph.edu/

ĐỒ HỌA THỐNG KÊ TRANG 43/46


Mật độ dữ liệu

Đây là một tiêu chí khác mà Tufte để cập, được định nghĩa bằng tỉ lệ phần diện tích trên biểu đồ được dùng để
hiển thị thông tin. Tufte khuyến khích dựng biểu đồ chứa mật độ dữ liệu cao nhất có thể.

Một biểu đồ có mật độ tối ưu khi nó cho phép trình bày được lượng thông tin lớn nhất trên cùng một diện tích
cho sẵn. Chúng ta có thể hình dung dữ liệu như một ma trận gồm n hàng (trường hợp) và k cột (biến số), như vậy
nén toàn bộ không gian dữ liệu gồm nxk chiều thông tin này lên 1 trang giấy A4 là một việc không dễ dàng. Để
tối ưu hóa mật độ dữ liệu người ta có thể dùng hệ trục polar, hoặc các hàm điều kiện như facet (Treilis graph hay
ma trận biểu đồ) hoặc network (biểu đồ mạng lưới).

Hình : So sánh hai hình thức trình bày cho cùng một bộ dữ liệu trong nghiên cứu của Florence Nightingale về tần
suất tử vong của binh sĩ trong 12 tháng, chia theo nguyên nhân và được khảo sát trước và sau khi áp dụng các
biện pháp cải thiện điều kiện vệ sinh. Hình phía trên là biểu đồ thanh dùng hệ trục Descartes, hình bên dưới là
biểu đồ Cox-Comb, giải pháp cực kì thông minh mà Nightingale đã sáng tạo ra. Cách làm này đã giải quyết đồng
thời 2 mục tiêu : trình bày được tính chu kỳ (12 tháng trong năm, xoay vòng) và nén mật độ dữ liệu lớn nhất có
thể lên một diện tích nhỏ bé.

ĐỒ HỌA THỐNG KÊ TRANG 44/46


Tóm lại, một biểu đồ hiệu quả cần đạt các tiêu chí như:

- Nhắm đến mục tiêu cụ thể (trả lời một câu hỏi cụ thể)
- Biểu hiện trung thực dữ liệu
- khuyến khích phát hiện sự tương phản (so sánh)
- Thể hiện nhiều thông tin ý nghĩa nhất có thể
- Không có gì thừa : chỉ phức tạp khi cần thiết tùy theo mục tiêu
- Có khả năng hỗ trợ và hòa hợp với những suy diễn thống kê
- Có khả năng được diễn đạt và chú thích trong văn bản khoa học

Tài liệu tham khảo: Edward R. Tufte, The Visual Display of Quantitative Information (Cheshire, CT: Graphics Press
LLC, 2001). http://www.edwardtufte.com/

ĐỒ HỌA THỐNG KÊ TRANG 45/46


3 Tài liệu tham khảo

3.1 Nhóm tài liệu lý thuyết đồ họa thống kê

1) Edward R. Tufte. The Visual Display of Quantitative Information 2 nd Ed.


2) Leland Wilkinson. The Grammar of Graphics
3) Andreas Krause. A Picture is Worth a Thousand Tables: Graphics in Life Sciences

3.2 Nhóm tài liệu về Infographics và đồ họa mỹ thuật

1) Andy Kirk. Data Visualization: a successful design process


2) Brian Suda. A Practical Guide to Designing with Data
3) Mark Smiciklas. ThePowerof Infographics
4) Randy Krum. Cool Infographics

3.3 Nhóm tài liệu ggplot2 thực dụng

1) Jodie Burchell, Mauricio Vargas. The Hitchhiker's Guide to Ggplot2 in R


2) Hadley Wickham. ggplot2: Elegant Graphics for Data Analysis 2nd Edition.
3) Winston Chang R Graphics Cookbook: Practical Recipes for Visualizing Data 1st Edition
4) The Essentials of Data Science: Knowledge Discovery Using R
5) Alboukadel Kassambara ggplot2: Guide to Create Beautiful Graphics in R

ĐỒ HỌA THỐNG KÊ TRANG 46/46

You might also like