Ý nghĩa của giá trị "p"

Rachel C Forcino, Ying Cao, Aaron J Katz, Petronella A Muresan, Ronald C Chen

Department of Population Health, University of Kansas Medical Center, Kansas City, KS; Department of Radiation Oncology, University of Kansas Medical Center, Kansas City, KS; Center for Biostatistics in AIDS Research, Harvard School of Public Health/Frontier Science Foundation, Boston, Massachusetts.

Nội dung chính

1. Tình huống minh hoạ

Bạn đọc được kết quả của hai thử nghiệm lâm sàng pha 3, đánh giá lợi ích trên sống còn toàn bộ của xạ trị tuyến tiền liệt cho các bệnh nhân được chẩn đoán giai đoạn di căn gánh nặng u thấp (Low-volume Metastatic disease). Một thử nghiệm phân ngẫu nhiên 2061 bệnh nhân, trong đó 819 trường hợp gánh nặng u thấp, nhận điều trị tiêu chuẩn với liệu pháp toàn thân và điều trị toàn thân kết hợp xạ trị tuyến tiền liệt. Thử nghiệm này đã cho thấy sự cải thiện về sống còn toàn bộ ở những bệnh nhân có gánh nặng u thấp, được xạ trị tuyến tiền liệt, tỷ số nguy cơ HR 0,68 (95% CI 0,52 – 0,90), p = 0,007, với tỷ lệ sống thêm 3 năm tương ứng là 73% so với 81%. Thử nghiệm thứ hai phân nhóm ngẫu nhiên 432 bệnh nhân, khi xem xét dưới nhóm 160 trường hợp gánh nặng di căn thấp, xạ trị tuyến tiền liệt đi kèm với kết quả HR tương tự 0,68 (95% CI 0,70 – 1,14), nhưng giá trị p = 0,20, không có ý nghĩa thống kê. Nếu chỉ dựa vào các giá trị p, mỗi thử nghiệm có thể hoàn toàn đưa ra những kết luận trái ngược về tác động của can thiệp: Một đã cho thấy lợi ích “có ý nghĩa của xạ trị về sống còn toàn bộ, nhưng thử nghiệm còn lại đã cho “âm tính”. Những kết quả này thường xuyên đưa đến những tranh luận không hồi kết giữa bạn và đồng nghiệp về câu hỏi khi nào nên chỉ định xạ trị cho nhóm bệnh nhân này?

2. Vì sao là “p“

Những người khác nhau cùng đọc kết quả của một nghiên cứu có thể không đồng thuận về cách diễn giải ý nghĩa của các kết quả này. Để giải quyết các bất đồng tiềm tàng này, cộng đồng khoa học đưa ra các quy ước, quy tắc nhằm giúp các nhà khoa học chia sẻ cách hiểu chung về kết quả của các nghiên cứu. Kiểm tra ý nghĩa thống kê là một trong những quy ước đó. Tác vụ này thuận lợi hơn với giá trị “p“, được định nghĩa là “xác suất mà dữ liệu được quan sát, hay một kết cục cực đoan hơn, có thể đã xảy ra một cách ngẫu nhiên, là do khác biệt trong chọn mẫu – khi giả thiết vô hiệu (null hypothesis – H0) là đúng”. Như một cách chính thức để đánh giá ý nghĩa thống kê, giá trị p đóng vai trò như một công cụ giúp chúng ta phân biệt giữa những phát hiện có ý nghĩa và kết quả không có ý nghĩa.

Lịch sử của “p”

Trước thế kỷ 20, các nhà khoa học và toán học đã phát triển và ứng dụng các phép kiểm định ý nghĩa dựa trên xác suất và các thống kê tương tự với p-value hiện đại. Ví dụ, vào đầu thế kỷ 18, John Arbuthnot – một thầy thuốc và học giả đa ngành người Scotland – quan sát thấy số lượng trẻ sơ sinh nam tại London trong giai đoạn 1629–1710 luôn nhiều hơn nữ. Ông ước tính xác suất số ca sinh nam vượt quá số ca sinh nữ trong 82 năm liên tiếp này là (1/2)⁸² – với giả định khả năng sinh trai hay gái ngang nhau. Với xác suất cực kỳ nhỏ này, Arbuthnot kết luận hiện tượng này không phải do ngẫu nhiên, qua đó đặt nền móng cho việc sử dụng kiểm định ý nghĩa và lập luận dựa trên kết quả thống kê.

Khoảng 70 năm sau, Pierre-Simon Laplace – nhà toán học và vật lý học người Pháp – sử dụng phân bố nhị thức để đánh giá tỷ lệ sinh nam và nữ ở London và Paris. Từ các tính toán có tính chất tương tự p, Laplace kết luận xác suất sinh con trai tại cả hai thành phố này chắc chắn lớn hơn 50%, và nhiều khả năng tồn tại một yếu tố chưa biết nào đó gây ra sự mất cân bằng quan sát được. Cả Arbuthnot và Laplace đều ước tính xác suất quan sát được kết quả là do “ngẫu nhiên” đơn thuần, và đây chính là tiền thân của giá trị p.

Karl Pearson chính thức giới thiệu khái niệm p-value năm 1900 (ký hiệu là P) khi mô tả phân bố và kiểm định chi-bình phương, định nghĩa nó là “xác suất để xuất hiện một hệ thống sai lệch lớn hơn hoặc bằng so với giá trị ngoại lai đang xét”. Ngay sau đó, William Sealy Gosset – một nhà thống kê, đồng thời là trưởng bộ phận nấu bia thử nghiệm tại Guinness, học trò của Pearson – đã công bố phát hiện về phân bố t năm 1908 dưới bút danh “Student” trong quá trình cải tiến độ ổn định chất lượng sản phẩm (vì vậy đến nay nó được gọi là “phân bố t của Student”).

Đáng chú ý, công trình của Gosset về phân bố t của Student – nền tảng cho nhiều kỹ thuật thống kê được sử dụng rộng rãi – đã đưa ra khái niệm “ý nghĩa thống kê”, tức là ngưỡng xác suất dưới đó chúng ta kết luận rằng dữ liệu quan sát không phù hợp với giả thuyết đặt ra, thay vì chỉ là kết quả ngẫu nhiên. Tuy nhiên, ngay cả Gosset cũng cho rằng ý tưởng này có giá trị hạn chế và kém quan trọng hơn bối cảnh và tác động thực tiễn của kết quả.

Ronald A. Fisher, người kế thừa và phát triển các công trình của Pearson và Gosset, được ghi nhận là người đã chuẩn hóa p-value và phổ biến việc sử dụng nó trong thống kê vào đầu thế kỷ 20. Năm 1922, Fisher công bố việc sử dụng phân bố chi-bình phương của Pearson để tính giá trị của p từ bảng chéo, cũng như việc sử dụng phân bố t của Student để kiểm định ý nghĩa của hệ số hồi quy. Đến năm 1925, ông xuất bản ấn bản đầu tiên của cuốn Statistical Methods for Research Workers, trong đó mô tả ý nghĩa và hệ quả của p và lần đầu tiên đề xuất mức 0,05 làm ngưỡng ý nghĩa thống kê.

Khi đề xuất ngưỡng ý nghĩa thống kê, Fisher coi mức lệch chuẩn gấp 2 lần so với trung bình là một “quy ước thuận tiện”. Theo đó, giá trị tới hạn mà tại đó xác suất sai lệch khỏi trung bình của một biến ngẫu nhiên phân bố chuẩn bằng 0,05 chính là 1,96 – xấp xỉ 2 độ lệch chuẩn. Do vậy, dù lựa chọn mức 0,05 thường bị chỉ trích là tùy tiện, đề xuất ban đầu của Fisher có lẽ nhằm tăng tính thực tiễn của kiểm định ý nghĩa, đặc biệt trong bối cảnh chưa có máy tính hỗ trợ tính toán! Hơn nữa, các bảng thống kê của Fisher còn bao gồm nhiều mức xác suất khác nhau (không chỉ 0,05), giúp các nhà nghiên cứu thuận tiện lựa chọn giá trị tới hạn phù hợp với ngưỡng ý nghĩa mong muốn.

Công trình của Fisher đã làm cho bảng thống kê trở nên dễ tiếp cận hơn và nâng cao tính khả thi của kiểm định ý nghĩa, từ đó giúp phương pháp này được áp dụng rộng rãi trong nhiều lĩnh vực khoa học. Tuy nhiên, p từ khi ra đời đã gặp nhiều tranh luận: khác biệt về triết lý trong vai trò của tính chặt chẽ toán học, mục đích và tính hữu dụng của p-value, cũng như việc nhấn mạnh kích thước hiệu ứng hơn là ý nghĩa thống kê. Việc cho đến nay các quan điểm này vẫn còn nhiều tranh cãi, nhưng p-value cùng ngưỡng 0,05 vẫn được sử dụng phổ biến, cho thấy thách thức lớn trong việc cân bằng giữa độ chính xác và tính thực tiễn trong thống kê.