Thứ Bảy, 21 tháng 12, 2013

Official statistics

Giang Le: Mấy tuần trước nhà báo Nguyễn Vạn Phú viết một số bài báo và blog về sự thay đổi số liệu GDP của VN năm 2012. Vấn đề trở nên nóng hơn khi một đại biểu HĐND TPHCM chất vấn về sự thay đổi đột ngột của chỉ số GDP đầu người của địa phương này. 
Bởi vậy không có gì ngạc nhiên khi ông Tổng cục trưởng Tổng cục Thống kê Nguyễn Bích Lâm đăng đàn trần tình về việc TCTK bị phê phán về chất lượng số liệu. Với tựa đề bài viết "Cần trách nhiệm hơn khi đánh giá số liệu thống kê" có lẽ không chỉ trần tình mà ông Tổng cục trưởng còn trách cứ những người phê phán đã không có trách nhiệm.

Công bằng mà nói số liệu thống kê kinh tế bị phê phán không chỉ ở VN. Ngay cả ở Mỹ, nơi có hệ thống thống kê tốt nhất thế giới, cũng không tránh khỏi những phê phán/nghi kỵ của người dân và giới nghiên cứu về chất lượng các chỉ tiêu kinh tế. 

Nổi tiếng nhất trong số những người nghi ngờ số liệu thống kê của Mỹ phải kể đến John Williams, hàng chục năm qua đã không ngừng công kích số liệu CPI và unemployment rate của nước này. Williams còn lập ra một website tính lại những chỉ số kinh tế phổ thông để đối trọng lại các con số chính thức do các cơ quan thống kê công bố. Một ví dụ đình đám khác là vụ George Welch, cựu CEO của GM, chỉ trích số liệu việc làm của Mỹ trong mùa tranh cử tổng thống năm ngoái. Ông này ám chỉ chính phủ Obama đã nâng số liệu việc làm lên để tranh thủ lấy phiếu cử tri. Giới thống kê và học giả Mỹ đã đăng đàn phản bác những nghi ngờ và cáo buộc của cả Williams lẫn Welch, tương tự như bài của ông Nguyễn Bích Lâm.

Nói vậy để thấy việc "phản biện" và "chống phản biện" số liệu thống kê là khá bình thường. Nhưng hỏi 10 nhà nghiên cứu kinh tế chắc phải có 9 người tỏ ý nghi ngờ về độ chính xác của số liệu thống kê của VN. Tôi nằm trong số 9 người đó và đã không dưới một lần nêu ra sự nghi ngờ của mình trên blog này, thậm chí đã từng viết một entry riêng về chất lượng số liệu thống kê của TCTK. Bởi vậy, là đối tượng mà ông Nguyễn Bích Lâm phê phán (thiếu trách nhiệm), tôi không thể không có vài dòng phản-phản biện lại ông Tổng cục trưởng. Nhân tiện tôi sẽ giới thiệu thêm với các bạn một số qui tắc/thông lệ liên quan đến việc thu thập và phổ biến số liệu thống kê kinh tế của một số nước mà tôi được biết. Xin lưu ý trước, những gì tôi viết dưới đây là dưới góc độ của người sử dụng thống kê kinh tế chứ không phải người thu thập và xử lý số liệu. Giá mà bác Vũ Quang Việt hoặc Bùi Trinh viết cho một bài về khía cạnh thu thập số liệu thì tuyệt.

Trước hết cần phải xác định rõ thế nào là chất lượng của số liệu thống kê (kinh tế), ông Nguyễn Bích Lâm chỉ nói về ba yếu tố ảnh hưởng lên chất lượng số liệu (sẽ bàn thêm bên dưới) chứ không đưa ra định nghĩa về chất lượng. Có bạn sẽ nghĩ ngay chất lượng ở đây là độ chính xác chứ có gì mà phải bàn. Tất nhiên chính xác là tiêu chuẩn quan trọng nhất đối với số liệu thống kê. Nhưng bên cạnh đó một hệ thống thống kê "có chất lượng" còn phải bảo đảm các yếu tố coverage, timely, consistency, và transparency.

Coverage (bao quát?): một hệ thống thống kê có chất lượng phải đảm bảo cung cấp đủ những chỉ số quan trọng của một nền kinh tế. Tất nhiên "đủ" là một khái niệm khôn cùng và subjective, vd nếu tôi quan tâm đến lĩnh vực tài chính tôi sẽ muốn có hàng nghìn chỉ tiêu liên quan đến hệ thống ngân hàng, thị trường chứng khoán..., ngược lại nếu bạn nghiên cứu về lao động thì bạn muốn có nhiều số liệu về việc làm, lương bổng... Một vấn đề nữa là chi phí, những nước giàu có ngân sách lớn cho cơ quan thống kê quốc gia hiển nhiên sẽ có coverage tốt hơn các nước nghèo, bởi vậy "đủ" còn có nghĩa sử dụng budget cho thống kê một cách hợp lý. Cách đây 5-6 năm Niên giám thống kê của VN còn thu thập số liệu số quạt máy, phích nước được sản xuất hàng năm, số máy công nông được lắp ráp, thậm chí số huy chương Seagames, số lễ hội/festival tổ chức ở các tỉnh thành, trong khi không có số liệu về thất nghiệp (không biết bây giờ đã thay đổi chưa). Coverage như vậy là không "đủ" và số liệu thống kê của VN không thể nói là có chất lượng về mặt này.

Có thể thấy mong muốn coverage "đủ" là khó, nhưng chí ít phải có một mức tối thiểu nào đó. Ở hầu hết các nước, số liệu thống kê kinh tế phải đảm bảo coverage cho hệ thống tài khoản quốc gia (theo chuẩn SNA của LHQ), thống kê tài chính (theo chuẩn của IMF), thống kê về giá cả (CPI/PPI, house price...), thống kê việc làm, thống kê xuất nhập khẩu, và thống kê ngân sách/chi tiêu chính phủ. Ngoại trừ thống kê việc làm, coverage của VN đã đủ cho các lĩnh vực còn lại mặc dù đi vào chi tiết có thể chưa hoàn chỉnh. Đơn cử là thống kê tài chính theo yêu cầu của IMF (cho hệ thống cảnh báo rủi ro sớm của họ) VN còn thiếu khá nhiều và tần suất cung cấp số liệu cũng không đạt yêu cầu (nói cho chính xác thì đây là trách nhiệm của NHNN chứ không phải TCTK, nhưng tôi tạm gộp các cơ quan có trách nhiệm thu thập số liệu kinh tế vào làm một).

Một điều khá thú vị liên quan đến coverage là hầu hết các nước đều đã "xã hội hóa" một phần việc thu thập số liệu (kinh tế) để mở rộng coverage mà không phải tốn thêm ngân sách. Thông tin kinh tế luôn là một mặt hàng bán chạy nên các công ty tư nhân có động cơ tiến hành thu thập và bán số liệu này. Trong một số trường hợp số liệu thống kê tư nhân còn "cạnh tranh" với số liệu chính thức của nhà nước, vd ShadowStats của John Williams tôi link bên trên hoặc Billion Price Project của MIT (bây giờ đã bán cho State Street). Vấn đề là các cơ quan thống kê quốc gia (và cả cơ quan an ninh) nên "thoáng" hơn với các tổ chức tư nhân tham gia vào hoạt động thu thập số liệu. Nên tạo điều kiện phát triển thị trường mua bán thông tin để giúp tăng coverage cho nền kinh tế.

Timely (thuật ngữ này có thể dịch là kịp thời nhưng nó còn bao hàm một số ý rộng hơn): giới tài chính có một thuật ngữ là real-time data, nghĩa là số liệu có ngay tức thì khi hoạt động kinh tế tương đương kết thúc hoặc thậm chí đang diễn ra, vd chỉ số chứng khoán được cập nhật ngay lập tức trên màn hình cá nhân song song với trên sàn giao dịch. Tất nhiên số liệu kinh tế vĩ mô không thể và không cần phải cập nhật nhanh như vậy. Không thể vì rất nhiều số liệu thống kê phải khảo sát và thu thập trên toàn quốc, rồi phải xử lý thô trước khi công bố. Không cần vì như đã đề cập đến trước đây, nền kinh tế là một cỗ máy khá nặng nề có quán tính lớn nên hai thời khắc gần nhau quá không đem lại nhiều thông tin có ích. Vấn đề timely của số liệu thống kê cũng phụ thuộc vào budget/chi phí thu thập số liệu và độ chính xác, càng nhanh càng tốn kém và càng ít chính xác.

Thông thường số liệu SNA được thu thập và công bố theo quí, các thể loại số liệu khác theo tháng. Số liệu thống kê của VN có một điểm rất khác biệt so với các nước. Số liệu quí (vd GDP) thường được công bố vài ngày trước khi quí kết thúc, số liệu tháng (vd CPI) cũng được công bố trước khi tháng kết thúc. Điều này tưởng chừng cho thấy tính timely của số liệu VN cực cao, nhưng thực tế nó chứng tỏ cơ quan thống kê của VN đã không sử dụng hết thông tin của chu kỳ thống kê cho mỗi chuỗi số liệu. Tất nhiên sau đó cơ quan thống kê sẽ tiếp tục hiệu chính các chỉ số thống kê khi có thêm thông tin như thông lệ quốc tế. Nhưng điều khác biệt giữa VN và thế giới là thời điểm của các hiệu chỉnh đó không được công bố rộng rãi và các chuỗi số liệu cũ không được lưu giữ.

Lấy ví dụ số liệu GDP của các nước thường được công bố ít nhất 3 lần: preliminary release, first revision, và second revision. Preliminary release thường được công bố 1-2 tháng sau ngày cuối cùng của quí, first revision thường trước khi quí tiếp theo kết thúc, second revision sau đó 1-2 tháng. Hầu hết những ngày công bố số liệu đều được báo trước rộng rãi và số liệu chính sửa ra sao sẽ được nêu ra cụ thể. Thường thì cơ quan thống kê không có nghĩa vụ (theo luật) phải giải thích tại sao số liệu lại thay đổi như vậy nhưng trên thực tế họ vẫn nêu ra/gợi ý những lý do khách quan (vd government shutdown, thiên tai, đình công...) để báo giới và những người sử dụng thông tin có cơ sở phân tích. Một vấn đề quan trọng nữa là tất cả số liệu của các lần công bố/sửa đổi phải được lưu trữ để các nhà nghiên cứu có thể phân tích/đánh giá thực trạng kinh tế chính xác. Giới economists vẫn thường tranh luận với nhau nên sử dụng số liệu preliminary release hay số liệu final revision.

Ngoài vấn đề tần suất và thời điểm công bố/sửa đổi số liệu, tính chất timely còn thể hiện qua cách thức công bố số liệu ra công chúng. Rất nhiều số liệu thống kê kinh tế có ảnh hưởng lớn lên thị trường tài chính nên các cơ quan thống kê thường có qui định về cách thức công bố rất chặt chẽ để đảm bảo tính công bằng. Trước đây một số nước "nhốt" phóng viên của các báo và hãng tin vào một phòng, công bố số liệu cho họ để học có thời gian nghiên cứu và viết tin rồi đúng giờ mở cửa phòng cho họ ra chuyển tin về tòa soạn. Hiện nay công nghệ thông tin đã phát triển hơn nên số liệu thường được công bố vào một thời điểm định trước trên website hoặc một hệ thống điện tử để bất kỳ ai cũng có thể truy cập và biết thông tin như nhau. Các hệ hãng tin tài chính lớn như Bloomberg/Reuters thường sẽ relay số liệu từ các cơ quan thống kê ngay lập tức cho khách hàng dưới dạng flash news, sau đó họ mới viết bài phân tích sau. Đảm bảo thông tin được cung cấp công bằng như vậy cũng là một khía cạnh chất lượng mà cơ quan thống kê phải tính đến.

Một điểm nhỏ nữa liên quan đến vấn đề timely là ngoài việc cung cấp số liệu cho người sử dụng trong nước, các cơ quan thống kê còn cung cấp thường ký cho các tổ chức quốc tế như WB, IMF, BIS... Một điều trái khoáy là trong khi TCTK công bố số liệu rất nhanh vào mỗi cuối quí hoặc tháng, VN lại rất chậm chạp khi cập nhật số liệu ở các tổ chức quốc tế. Điều này ít ảnh hưởng đến các nhà hoạch định chính sách trong nước nhưng gây khó khăn cho những nhà nghiên cứu và đầu tư nước ngoài cần. Về mặt này chất lượng của thống kê VN không thể nói là timely.

Consistency (nhất quán?): một chuỗi số liệu có tính chất consistency khi nó phản ánh một khía cạnh/hoạt động kinh tế ổn định theo thời gian và không gian. Ổn định theo thời gian có nghĩa là giữa 2 thời điểm khác nhau bản chất của chuỗi số liệu không thay đổi. Điều này tưởng đơn giản nhưng thực ra rất khó đảm bảo, ngay cả ở những nước phát triển. Có một số nguyên nhân làm bản chất các chuỗi số liệu thay đổi theo thời gian. Thứ nhất là khía cạnh/hoạt động kinh tế mà nó phản ánh thay đổi nên buộc người làm công tác thống kê phải thay đổi cách thu thập dữ liệu và tính toán thống kê. Lấy ví dụ GDP của Mỹ đã có một thay đổi lớn trong năm 2013 vì cách tính thay đổi để phản ánh giá trị gia tăng của các hoạt động liên quan đến intangible assets. Các đây 2 năm GDP của TQ cũng có một revision lớn vì họ đổi cách tính để đưa một số hoạt động kinh tế trước đó bị cho là ngoài luồng vào GDP chính thức. Hiển nhiên chuỗi số GDP trước và sau những thay đổi đó không còn consistent nữa và các nhà nghiên cứu phải chú ý đến điểm này. Ở đây việc lưu trữ song song chuỗi dữ liệu theo cả hai cách tính trong một thời gian đủ dài sẽ giúp những người sử dụng số liệu tránh sai xót khi có những thay đổi lớn như vậy.

Lý do thứ hai là bản thân cơ quan thống kê thay đổi cách tính vì có những phương pháp thống kê mới ra đời. Ví dụ chuỗi số NFP của Mỹ khoảng hơn chục năm trước được thay đổi cách tính áp dụng một mô hình về số lượng công ty mới thành lập và phá sản (birth-death model) để hiệu chỉnh số liệu khảo sát thô. Một ví dụ khác là chuỗi số CPI thô được chỉnh lại theo mô hình imputable quality improvement (vd một cái máy tính có tốc độ xử lý tăng 20% thì nếu giá tăng lên 20% coi như chỉ số giá của nó không đổi). Những thay đổi về phương pháp tính như vậy làm các chuỗi số liệu bị mất tính consistency, nhiều trường hợp gây ra tranh cãi và nghi ngờ trong dư luận. Trong trường hợp này tính chất transparency (tôi sẽ nói thêm bên dưới) vô cùng quan trọng.

Lý do thứ ba là mẫu khảo sát thay đổi. Đây cũng có thể coi là sự thay đổi của phương pháp thống kê nhưng trong một số trường hợp do mẫu khảo sát tăng lên hay giảm xuống vì thay đổi ngân sách thống kê. Cách đây khoảng 2 năm Úc giảm bớt số lượng khảo sát việc làm vì budget bị cắt nên cho dù phương pháp lấy mẫu và cách tính không đổi chuỗi số liệu mới sẽ không consistent với chuỗi số trước đây, chí ít về mặt sai số và volatility.

Ổn định về không gian nghĩa là chuối số liệu đại diện cho một khía cạnh/hoạt động kinh tế ở các địa phương khác nhau, các quốc gia khác nhau về bản chất phải giống nhau. Đây là lý do các tổ chức quốc tế nhưu UN, WB, IMF... đưa ra các bộ tiêu chuẩn thống kê như SNA, BoP để thống kê của các nước có thể so sánh được với nhau. Trong phạm vi từng quốc gia, thống kê địa phương dễ được thu thập và tính toán theo cùng một chuẩn, nhưng chất lượng chọn mẫu, thu thập, xử lý có thể vẫn khác nhau. Ví dụ GDP ở khu vực nông thôn có thể sẽ bị bỏ xót nhiều hoạt động phi chính thức hơn GDP của thành phố.

Tóm lại số liệu thống kê "có chất lượng" theo khía cạnh consistency sẽ phải tuân thủ chặt chẽ các tiêu chuẩn quốc tế, phương pháp thu thập và xử lý ổn định, mẫu khảo sát đủ lớn để sai số không vượt quá ngưỡng cho phép. Những điều này đòi hỏi cơ quan thống kê phải có budget và resource đủ mạnh, là điều chưa thể mơ ước ở VN.

Transparency (minh bạch): Như đã phân tích bên trên, việc cơ quan thống kê minh bạch phương pháp và qui trình khảo sát, thu thập và xử lý số liệu rất cần thiết cho người sử dụng cuối cùng. Đặc biệt khi một chuỗi số liệu nào đó có thay đổi lớn việc giải thích cụ thể những thay đổi đó sẽ giúp tránh những nhầm lẫn đáng tiếc như vụ nhiều nhà báo cho rằng GDP bình quân đầu người VN tính theo USD tăng 23% trong năm vừa qua. Khi số liệu được điều chỉnh (sau các lần revision), các chuỗi số cũ nên được lưu giữ, thuật ngữ chuyên môn gọi là vintage series, để tiện so sánh, đối chiếu. Với những chỉnh sửa do thay đổi phương pháp tính, vd các đây vài năm TCTK thay cách tính tốc độ lạm phát năm bằng trung bình lạm phát tháng thay vì year-on-year CPI rate, cơ quan thống kê nên tính lại chuỗi số liệu trong quá khứ bằng phương pháp mới để có thể so sánh với cách tính cũ.

Transparency còn thể hiện ở số lượng và mức độ chi tiết số liệu thống kê được công bố. Lấy ví dụ chuỗi CPI có cấu thành bởi hàng trăm loại hàng hóa khác nhau, chỉ công bố chỉ số tổng hợp hoặc một vài nhóm hàng hóa lớn sẽ gây khó khăn, thậm chí nghi ngờ với người sử dụng cuối cùng. Không rõ hiện tại TCTK đã công khai trọng số của rổ CPI chưa (trước đây vài năm đây là số liệu không được phổ biến), hay đến bao giờ NHNN mới chính thức công khai dự trữ ngoại hối quốc gia chứ không úp úp mở mở như hiện tại. Nếu vì lo ngại công bố nhiều số liệu "nhạy cảm" có thể có ảnh hưởng xấu đến nền kinh tế, vd có người sợ bị giới hedge fund quốc tế tấn công tiền tệ, thì có thể delay việc công bố số liệu. Thà rằng chất lượng theo timely bị kém đi nhưng gia tăng transparency thì vẫn hơn.

Việc rất nhiều chuỗi số liệu nay đã được công bố công khai (và miễn phí) trên website của TCTK, NHNN và nhiều bộ khác, là một bước tiến đáng khen về mặt transparency. Tuy nhiên infrastructure của những website này còn có thể được cải thiện tốt hơn, một ví dụ mà các web developer của các cơ quan thống kê VN nên học hỏi là website cung cấp số liệu FRED của St Louis Fed. Với chi phí hardware ngày càng giảm, tốc độ đường truyền ngày càng tăng, các cơ quan thống kê VN nên nâng số lượng database cung cấp cho người sử dụng lên, có thể thu một mức phí dịch vụ nhưng nên công khai điều này (chứ không phải như trước đây bạn phải quen biết ai đó để mua số liệu từ TCTK hay các cơ quan khác) mặc dù trong thâm tâm tôi muốn mọi dữ liệu đều free :-).

Một thiếu sót nữa trên website của nhiều cơ quan (thống kê) VN là thiếu mục education/Q&A cho người sử dụng cuối cùng. Tối thiểu những số liệu được cung cấp cần phải có định nghĩa đầy đủ và rõ ràng, những chuỗi số liệu có đặc thù (của VN) càng cần giải thích rõ để tránh ngộ nhận. Lấy ví dụ GDP bình quân đầu người theo USD cần phải nói rõ đó là nominal GDP theo giá hiện hành bằng VND chia cho số dân rồi qui đổi ra USD theo tỷ giá trung bình trong năm. Trong thời đại hyperlink hiện nay số liệu trên website hay thậm chí trong pdf hoặc doc files cũng có thể link thẳng đến định nghĩa hoặc giải thích. Tuyệt vời hơn nữa nếu những website này có thêm một diễn đàn hỏi đáp, giải thích các thắc mắc về số liệu thống kê cho người sử dụng.

Gia tăng transparency chắc chắn sẽ tốn thời gian, công sức, tiền bạc và nhất là cần sự thay đổi mindset của những người làm công tác thống kê (và có lẽ cả cơ quan an ninh). Nhưng đây là một điều cần thiết và có nhiều lợi ích cho phát triển kinh tế, nhất là khi VN mong muốn có một nên kinh tế tri thức.

Accuracy (chính xác): Như đã nói bên trên, chính xác là yêu cầu quan trọng nhất của số liệu thống kê nên không có gì khó hiểu khi nhiều người đánh đồng "chất lượng" với "chính xác" và bỏ qua những tính chất khác tôi liệt kê bên trên. Nhưng ngay cả hiểu đơn giản như vậy cũng không đơn giản, nhất là với những số liệu thống kê kinh tế vĩ mô có tính tổng hợp cao. Nếu thống kê chỉ đơn giản đếm số phích nước, quạt máy được sản xuất thì xác đingj tính chính xác khá rõ ràng. Khi một hoạt động/khía cạnh kinh tế phức tạp hơn cần thống kê thì tính chính xác trước hết phụ thuộc vào khái niệm và định nghĩa của chỉ tiêu thống kê dự định đại diện cho hoạt động kinh tế đó.

Lấy ví dụ chúng ta muốn đo lường tốc độ tăng giá tiêu dùng trong nền kinh tế trong một năm, chúng ta có thể đưa ra một chỉ số bằng trung bình trọng số tốc độ tăng giá của một rổ hàng hoá đại diện mà người dân mua trong năm. Chắc bạn đã nhận ra đây là định nghĩa của chỉ số CPI và chắc bạn cũng thấy chỉ số này có một vài khiếm khuyết khi đại diện cho tốc độ tăng giá hàng tiêu dùng. Thứ nhất rổ hàng hoá chỉ là đại diện, mỗi cá nhân, mỗi gia đình có thói quen tiêu dùng khác nhau. Thứ hai vì trọng số của mỗi loại hàng hoá cố định nên cách tính như vậy loại trừ substitution effect, nghĩa là sự thay đổi hành vi tiêu dùng khi giá tương đối giữa 2 loại hàng hoá thay đổi (vd phổ biến trong textbook là người tiêu dùng chuyển sang uống trà khi giá cà phê tăng lên). Thứ ba cách tính trung bình trọng số (dựa vào mức chi tiêu cho từng loại hàng hoá) chưa chắc đã "đúng" theo nghĩa phản ánh được perception về lạm phát trong xã hội. Không chỉ ở VN, nhiều nơi trên thế giới người dân nghi ngờ độ chính xác của con số lạm phát mà cơ quan thống kê công bố vì họ chỉ "cảm nhận" lạm phát nhưng là một con số trung bình đơn giản mức độ tăng giá của một vài loại hàng hoá mà họ dễ nhận diện.

Ví dụ trên cũng cho thấy tính chính xác của một chỉ số thống kê phụ thuộc vào subjectivity của người sử dụng nó. Rõ ràng một bà nội trợ hàng ngày đối mặt với giá gạo, thịt sẽ có perception về lạm phát khác với một central banker và do vậy sẽ có khái niệm chính xác rất khác khi cùng nhìn vào một con số thống kê. Chắc các bạn biết nhiều nước công bố CPI và core CPI (chưa kể các thể loại CPI được hiệu chỉnh khác như trimmed mean, median CPI...), thực ra đó chỉ là cách làm tăng độ chính xác của số liệu thống kê cho các đối tượng sử dụng cuối cùng khác nhau. Như vậy để tăng độ chính xác, ở khía cạnh thoả mãn nhu cầu sử dụng cuối cùng của các đối tượng khác nhau, cơ quan thống kê nên đưa ra nhiều cách tính, cách hiệu chỉnh cho cùng một chuỗi số liệu thô (cần phân biệt điều này với coverage bên trên). Gia tăng transparency như đã nói bên trên cũng giúp tăng perception của người sử dụng về độ chính xác của số liệu.

(Còn tiếp)

Không có nhận xét nào:

Đăng nhận xét