Data Analysis 101. Tut 1: Histogram
Mục tiêu bài viết
Bài viết sẽ giúp cho người đọc hiểu được khái niệm Histogram và cách áp dụng Histogram vào phân tích dữ liệu.
1. Histogram là gì ?
Histogram là một cách biểu diễn chính xác cho phân bố của dữ liệu dạng số(numerical data). Một histogram ước lượng phân bố xác suất (probability distribution) của một biến liên tục (continous variable) định lượng (giá trị của biến mang ý đo lường, định lượng, e.g chiều cao của người, dân số một quốc gia). [1]
2. Ví dụ
Ví dụ dưới đây sẽ giúp các bạn hình dung cụ thể Histogram là gì và có hình dạng như thế nào.
Hình 1 mô tả đầy đủ dữ liệu Điểm thi môn Toán của một lớp học tại một lớp nọ thuộc trường kia trên một dải ngân hà nào đấy (a.k.a dữ liệu hư cấu). Lúc này là cuối năm học, bạn là giáo viên Toán của lớp đó và nhiệm vụ của bạn là phải báo cáo cho trường về kết quả học tập của lớp trong năm học vừa qua. Để làm việc này, bạn cần phải phân tích hai dữ liệu là Điểm thi môn Toán học kì (viết tắt là Điểm Toán) và Điểm Tổng Kết cuối năm. Để quan sát và phân tích các dữ liệu trên, bạn quyết định sử dụng Histogram.
Phân tích Điểm Toán
Hình 2 mô tả Histogram của Điểm Toán. Trục ngang là giá trị của điểm thi học kì môn toán có giá trị từ 0 đến 10. Trục dọc là số lần xuất hiện của điểm thi (ví dụ: có 1 lần xuất điểm 1, 3 lần xuất hiện điểm 10). Histogram cung cấp cho bạn đầy đủ các thông tin tổng quan về kết quả điểm thi môn Toán bao gồm: điểm thi cao nhất (giá trị lớn nhất xuất hiện), điểm thi thấp nhất (giá trị nhỏ nhất xuất hiện), phân bố điểm thi (hình dáng của các cột trên histogram).
Trên hình 2, dễ dàng có thể thấy được điểm thi thấp nhất (giá trị thấp nhất trên trục ngang) nằm trong khoảng >= 1 và <2 (ô màu đỏ). Do điểm thi môn Toán là số nguyên trong khoảng từ 0 đến 10 (quy chuẩn do bộ giáo dục trên dải ngân hà nọ đặt ra), nên có thể suy ra điểm thi thấp nhất là 1 điểm. Cột điểm thấp nhất (trong ô đỏ) có chiều cao là 1, điều này có nghĩa là có 1 học sinh có điểm số là 1.
Điểm thi cao nhất (giá trị lớn nhất trên trục ngang) nằm trong khoảng >=10 và <10, hay nói cách khác là 10 (cột trong ô màu xanh). Cột này có chiều cao là 3, mang ý nghĩa có 3 học sinh đạt điểm 10 trong kì thi toán này.
Nhìn vào histogram của Điểm Toán, ta có thể thấy được phân bố (hay nói cách khác là hình dáng) của điểm thi (đường cong uốn éo màu xanh). Có 1 học sinh được điểm 2, 2 học sinh được điểm 6, 1 học sinh được điểm 7, 2 học sinh đạt điểm 8, không có học sinh nào đạt điểm 3, 4, 5, 9 (Các bạn có thể kiểm chứng lại với bảng dữ liệu tại hình 1). Để thu được thông tin từ dữ liệu, bạn cần phải kết hợp với nghiệp vụ chuyên môn của vấn đềđể có thể phân tích được phân bố dữ liệu.
Giả sử mình là giáo viên của lớp, mình biết lớp học các bạn học lực ở dạng trung bình nhưng đề thi lần này mình cho rất khó. Nhìn vào phân bố trên có thể thấy vấn đề khi phân bố nghiêm về bên >5 và có tận 3 học sinh được 10 điểm. Từ đấy mình có thể xuất hiện nghi vấn có gian lận, quay cóp hoặc lộ đề. Ngược lại, trong trường hợp biết lớp tất cả các bạn đều có học lực khá, và đề mình cho tương đối dễ để có thể đạt được điểm 5, từ histogram có thể thấy có 2 học sinh cá biệt có điểm rất thấp. Căn cứ vào đấy mình có thể tìm và hỏi trực tiếp 2 học sinh này để xác định nguyên nhân và tìm hướng khắc phục.
Binsize
Trong một số trường hợp, khi dữ liệu quá rời rạc (ví dụ như lớp 10 người, và mỗi người có một điểm khác nhau từ 1 -> 10), việc quan sát từng giá trị rất khó đem lại thông tin hữu ích. Để có thể lấy được thông tin tổng quan, bạn có thể nhóm các giá trị lại thành từng cụm để quan sát.
Trong ví dụ trước, mình muốn quan sát xem có tỉ lệ giữa học sinh học lực yếu (điểm <=4), học lực khá (5 <= điểm < 9) và học lực giỏi (điểm >= 9). Để làm được điều này, mình dựng một histogram với mỗi một cụm có độ lớn là 4 (a.k.a binsize = 4, thì sẽ có được các cụm là [1,5), [5, 9), [9, 13) ). Từ hình 5, bạn có thể thấy có 2 hai sinh yếu (điểm <5), 5 học sinh khá (5 <= điểm < 9) và 3 học sinh giỏi (điểm >= 9). Nếu nhìn từ phương diện người ra đề, có thể kết quả thi khá đẹp và đề thi có khả năng phân loại học sinh (20% yếu, 50% khá, 30% giỏi).
3. Tổng kết
Bài viết vừa trình bày kiến thức về histogram, một trong những cách mô tả dữ liệu được sử dụng phổ biến nhất trong phân tích dữ liệu. Bên cạnh đó, bài viết cũng trình ví dụ về cách sử dụng histogram qua việc iệc phân tích kết quả thi học kì môn Toán. Hi vọng qua bài viết này, các bạn có thể hiểu và áp dụng vào phân tích các vấn đề gặp phải.
HMD.