Tomorrow Marketers – Percentiles là phương pháp cho biết có bao nhiêu phần trăm điểm dữ liệu nhỏ hơn một mốc giá trị cụ thể. Ví dụ: một người có chỉ số IQ 120 ở 91% Percentile (P91), có nghĩa là chỉ số IQ của người này cao hơn 91% những người khác.
Percentile là một công cụ rất tốt để bạn biết được vị trí tương đối của một giá trị, xem chúng đứng ở đâu trong biểu đồ phân phối tần suất của tệp dữ liệu. Trong bài viết sau, cùng Tomorrow Marketers tìm hiểu về percentile, các trường hợp đặc biệt của percentile và cách vận dụng chỉ số này trong thống kê mô tả nhé!
Đọc thêm: 04 giai đoạn phân tích dữ liệu – Descriptive, Diagnostic, Predictive & Prescriptive Analytics
1. Percentile có ý nghĩa gì?
Percentile có thể cho biết vị trí của một giá trị so với các giá trị khác như thế nào. Dễ hiểu hơn, nếu giá trị X ở percentile thứ K, thì X lớn hơn K% giá trị.
Ví dụ, nếu điểm kiểm tra đứng riêng lẻ mà không có sự so sánh với điểm số của những người còn lại trong cuộc thi, thì điểm đó không cho thấy thứ bậc (ranking) ở đâu so với những người còn lại. Khi bạn đạt 500 điểm TOEIC, con số 500 này không chỉ ra đây là con số cao hay thấp, không cho biết có bao nhiêu phần trăm người trên 500 điểm và bao nhiêu phần trăm người dưới 500 điểm. Đối với kỳ thi SAT, nếu tổng điểm của bạn là 1340, con số này nằm ở khoảng 90% Percentile (P90), đồng nghĩa điểm số của bạn cao hơn 90% thí sinh khác.
2. Các trường hợp đặc biệt của Percentile
Một số trường hợp đặc biệt của Percentile có những cái tên riêng:
Quartile là giá trị chia tập dữ liệu thành bốn phần bằng nhau:
- Quartile thứ nhất (Q1 hay còn được gọi là quartile dưới), là giá trị của 25th percentile. Một phần tư dữ liệu nhỏ hơn giá trị này, trong khi ba phần tư dữ liệu còn lại lớn hơn giá trị này.
- Quartile thứ hai (Q2 hay chính là median – giá trị trung vị). Giá trị này chia tập dữ liệu thành hai nửa. Một nửa có giá trị thấp hơn giá trị tại P50, một nửa còn lại có giá trị cao hơn giá trị tại P50. Quartile thứ hai chính là median – đây là giá trị nằm ở chính giữa của tập dữ liệu sau khi được sắp xếp theo thứ tự.
- Quartile thứ ba (Q3 hay còn được gọi là quartile trên), là giá trị của 75% percentile. Một phần tư dữ liệu lớn hơn giá trị này, trong khi ba phần tư dữ liệu còn lại nhỏ hơn giá trị này.
The interquartile range (IQR) là thước đo mức độ phân tán trong thống kê. Khoảng giá trị này tương ứng với khoảng cách giữa quartile thứ nhất và quartile thứ ba (IQR = Q3 – Q1), tương đương với một nửa giá trị của tập dữ liệu. Một phần tư giá trị nhỏ hơn IQR và một phần tư giá trị khác lớn hơn IQR. Khi so sánh 2 dataset thuộc cùng một biến, tệp nào có IQR lớn hơn cho thấy dữ liệu phân tán rộng hơn.
Percentile có thể được ứng dụng linh hoạt. Không chỉ giúp bạn xác định vị trí tương đối của một giá trị, Percentile còn giúp chia tập dữ liệu thành các phần, xác định xu hướng trung tâm, phát hiện giá trị ngoại lai (outlier) và đo lường sự phân tán của phân phối. Nói tóm lại, Percentile là một công cụ phân tích dữ liệu hữu ích trong thống kê mô tả.
3. Percentile được tính như nào?
Dưới đây là ba hướng tiếp cận mà các nhà phân tích sử dụng để tính Percentile khi xem xét bộ dữ liệu tương đối nhỏ. Ba hướng tiếp cận này xác định phân vị thứ k theo các cách khác nhau sau:
- Tìm giá trị nhỏ nhất lớn hơn k phần trăm của các giá trị.
- Tìm giá trị nhỏ nhất lớn hơn hoặc bằng k phần trăm giá trị.
- Tìm một giá trị nội suy giữa hai thứ tự gần nhất (Nội suy là phương pháp ước tính giá trị của các điểm dữ liệu chưa biết trong phạm vi của một tập hợp rời rạc chứa một số điểm dữ liệu đã biết).
Trước khi tính Percentile bằng cách sử dụng ba hướng tiếp cận này, bạn cần bắt đầu bằng cách sắp xếp tập dữ liệu từ giá trị thấp nhất đến giá trị cao nhất.
Hãy sử dụng ba hướng tiếp cận này với tập dữ liệu sau (n=11) để tìm P70 (70% Percentile):
Hướng tiếp cận 1: Lớn hơn
Với hướng tiếp cận này, chúng ta cần tìm giá trị lớn hơn 70% giá trị của 11 điểm dữ liệu. Lấy 70% của 11, ta được thứ hạng 7,7. Sau đó, làm tròn 7,7 lên đến 8. Giá trị của P70 phải lớn hơn giá trị của 8 điểm dữ liệu. Như vậy, giá trị của P70 bằng giá trị của điểm dữ liệu thứ 9 theo thứ tự của tập dữ liệu, tương đương 40.
Hướng tiếp cận 2: Lớn hơn hoặc bằng
Với hướng tiếp cận này, chúng ta cần tìm giá trị lớn hơn hoặc bằng 70% giá trị của 11 điểm dữ liệu. Tương tự, lấy 70% của 11, là 7,7. Sau đó, làm tròn 7,7 lên đến 8. Giá trị của P70 phải lớn hơn hoặc bằng giá trị của 8 điểm dữ liệu. Như vậy, giá trị của P70 có thể bằng giá trị của điểm dữ liệu thứ 8 theo thứ tự của tập dữ liệu, tương đương 35. Có thể thấy hai hướng tiếp cận với hai hướng tiếp cận khác nhau đã cho ra hai kết quả khác nhau.
Hướng tiếp cận 3: Giá trị nội suy giữa hai thứ tự gần nhất
Như bạn đã thấy từ ví dụ trên, việc sử dụng “lớn hơn” hoặc “lớn hơn hoặc bằng” sẽ cho ra những kết quả khác nhau đáng kể, đặc biệt khi bạn đang làm việc với một tập dữ liệu nhỏ. Tùy thuộc vào bản chất và kích thước của tập dữ liệu, sự khác biệt này sẽ thay đổi đáng kể ý nghĩa của dữ liệu. Hướng tiếp cận thứ ba – giá trị nội suy giữa hai giá trị dữ liệu gần nhất – sẽ khắc phục vấn đề này.
Bạn cần làm theo các bước sau:
- Tính thứ hạng để sử dụng cho percentile. Sử dụng: xếp hạng = p(n+1), trong đó p = phần trăm và n = cỡ mẫu. Với ví dụ trên, để tìm thứ hạng cho P70, lấy 0,7*(11 + 1) = 8,4.
- Nếu thứ hạng tính được trong bước 1 là một số nguyên, hãy tìm giá trị dữ liệu tương ứng với thứ hạng đó và coi đây là giá trị của percentile.
- Nếu thứ hạng tính được trong bước 1 không phải là số nguyên, bạn cần nội suy giữa hai quan sát gần nhất. Với ví dụ trên, 8,4 nằm trong khoảng từ 8 đến 9, tương ứng với các giá trị dữ liệu là 35 và 40.
- Lấy sự khác biệt giữa hai giá trị dữ liệu này và nhân nó với phần thập phân của thứ hạng đã tính trong bước phía trên. Với ví dụ trên, (40 – 35)*0,4 = 2 (0,4 là phần thập phân của 8,4).
- Lấy giá trị được xếp hạng thấp hơn trong bước 3 và thêm giá trị từ bước 4 để thu được giá trị nội suy cho percentile. Với ví dụ trên, giá trị đó là 35 + 2 = 37.
Kết quả, có ba giá trị khác nhau cho P70: 35, 37 và 40.
Hướng tiếp cận 4: Percentile Rank
Có cách khác để tính toán percentile – đó là percentile rank.
“In statistics, the percentile rank (PR) of a given score is the percentage of scores in its frequency distribution that are less than that score” – Trong thống kê, thứ hạng phần trăm (PR) của một điểm nhất định là tỷ lệ phần trăm của các điểm trong phân bố tần suất nhỏ hơn điểm đó.
Các nhà phân tích thường sử dụng cách này để phân loại điểm số của các cuộc thi đã được tiêu chuẩn hóa, vì đặc thù của tệp dữ liệu này là chúng có rất nhiều data point lặp lại. Ví dụ, có hàng triệu người tham gia kỳ thi SAT và có rất nhiều người cùng đạt điểm số giống nhau trong khoảng từ 200 đến 800.
Công thức tính Percentile rank:
Trong đó PR: Percentile Rank, CF: Cumulative Frequency, F: Frequency.
Ví dụ, xem xét tệp dữ liệu sau có các điểm dữ liệu ở cột Score và tần suất xuất hiện của chúng ở cột Frequency:
Hình này minh họa cách tính Percentile Rank và cho biết cách thức chỉ số 0,5 × F trong công thức đảm bảo rằng Percentile Rank phản ánh Percentage of Score thấp hơn một điểm đã chỉ định.
Ví dụ: đối với 10 điểm được hiển thị trong hình, 60% trong số đó dưới điểm 4 (năm điểm nhỏ hơn 4 và một nửa của hai điểm bằng 4) và 95% dưới 7 (chín điểm dưới 7 và một nửa của một bằng 7). Thông thường, Percentile Rank chỉ được tính cho các data point có trong phân phối nhưng, như hình minh họa, xếp hạng phần trăm cũng có thể được tính cho điểm có tần suất bằng không. Ví dụ, 90% số điểm nhỏ hơn 6 (chín điểm nhỏ hơn 6, không điểm nào bằng 6).
Hướng tiếp cận 6: Sử dụng phân phối chuẩn (Normal Distribution) để ước tính Percentile
Chiều cao có xu hướng tuân theo phân phối chuẩn (normal distribution), vì vậy hãy lấy chiều cao làm case study của hướng tiếp cận này. Giả sử, chiều cao của population tuân theo phân phối chuẩn với giá trị trung bình (mean) là 1,512 mét và độ lệch chuẩn (standard deviation) là 0,0741 mét.
Đối với các population có phân phối chuẩn, bạn có thể sử dụng Z-scores để tính percentile. Z-score của một quan sát là số độ lệch chuẩn mà nó nằm trên hoặc dưới mức trung bình của tổng thể. Hướng tiếp cận này tương đối thuận tiện nếu bạn chỉ có thông tin tóm tắt về sample và có giá trị Z-scores.
Bạn có thể sử dụng hàm mật độ xác suất (PDF) để tính toán và vẽ biểu đồ của percentile. Trong loại biểu đồ mật độ xác suất này (probability density plot), tỷ lệ của diện tích được tô đậm dưới đường cong biểu thị tỷ lệ phần trăm phân phối nằm trong phạm vi giá trị đó. Biểu đồ này được tô đậm 70% giá trị thấp hơn giá trị 1.551m, nghĩa là giá trị chiều cao tương ứng của P70 là 1.551m.
Biểu đồ này cho thấy chiều cao 1,551 mét nằm ở P70 đối với population nữ sinh trung học này.
Tạm kết
Percentile là một giá trị hữu ích để hiểu vị trí của một giá trị trong phân phối của dữ liệu, đồng thời có thể hỗ trợ trong việc phát hiện các dữ liệu ngoại lai (outlier). Hy vọng thông qua bài viết này, bạn đã hiểu Percentile là gì, ứng dụng trong thống kê mô tả như nào và biết được các phương pháp tính Percentile khác nhau. Nếu bạn quan tâm hơn về các kiến thức thống kê mô tả trong phân tích dữ liệu, hãy tham khảo khóa học Data Analysis của Tomorrow Marketers nhé!
Bài viết được biên dịch bởi Tomorrow Marketers, xin vui lòng không sao chép dưới mọi hình thức!
Chào mừng bạn đến với PRAIM, - nền tảng thông tin, hướng dẫn và kiến thức toàn diện hàng đầu! Chúng tôi cam kết mang đến cho bạn một trải nghiệm sâu sắc và tuyệt vời về kiến thức và cuộc sống. Với Praim, bạn sẽ luôn được cập nhật với những xu hướng, tin tức và kiến thức mới nhất.