統計學 · 資訊素養 · 學術研究

港大民調之統計學解讀


摘要:本文透過統計學分析方法,檢視近日輿論對港大民調中特首民望調查的批評及反駁,探討這些言論背後的統計學理據。本文作者認為,港大民調在抽樣方面十分嚴謹,但在設計問卷和演繹結果方面有值得商榷之處。本文又對港大民研所公布的原始數據進行了進一步分析,指出當中所蘊含的啟示,並據此提出建議。

引言

近日有關香港大學民意調查(下稱港大民調)的爭論甚囂塵上。港大民調是香港大學民意研究計劃(下稱港大民研)定期舉行的民調,由香港大學政治與公共行政學系的鍾庭耀主持。民調內容包括特首、政府、主要官員、議員民望,及其它社會指標等(《香港大學民意研究計劃》)。2014年2月8日,民主黨黨員、律師陳莊勤在明報發表《沉默的螺旋》一文,批評港大民調以平均分來表達特首梁振英民望,結果易被極端數值影響,又以50分作為合格分數,並不全面。同時這些民調「本身並不單單在反映民意,也同時在以定期公布評分來塑造民意」(2月8日明報陳莊勤《沉默的螺旋》)。3月4日,在北京舉行的政協港澳聯組會議上,政協常委、恒基地產副主席李家傑點名批評鍾庭耀,指其主持的港大民調「總是在關鍵時候發表對中央政府、特區政府以至整個愛國愛港陣營十分不利的民意調查結果」,藉此「操弄民意」。他又認為鍾的民調不夠科學,卻是香港眾多民調機構中最具影響力的一個,必須盡快改變(3月5日AM730《李家傑批評鍾庭耀 用民調為反對派造勢》)。鍾庭耀於同日發表書面聲明回應,指出其調查方法經得起學術考驗,「總會堅持科學透明的原則,從不遷就對方的政治背景或立場」,認為「如果把言論自由的憂慮,進一步擴大至學術自由的空間,是非常不智的做法。」他又歡迎任何人士討論民意研究工作,「只要是實事求是,客觀公正,便可集思廣益」(港大民研《關於政協委員李家傑於政協會議上有關「民意調查」的言論》)。

爭論焦點

陳、李二人的批評引起了廣泛關注。有論者從政治立場和動機立論(如3月17日文滙報文平理《「鍾氏民調」真的是學術嗎?》、3月18日蘋果日報李怡《攻民調為扼殺民意》),本文對此無意涉獵。另有論者從統計學角度評論鍾的研究方法。行政會議成員張志剛在電台節目稱,鍾庭耀曾經多次提到50分是合格水平,認為他有需要向公眾交代(3月20日商業電台《張志剛指鍾庭耀多次提及五十分屬合格》)。他又認為,在極端評分的影響下,用平均分來評核梁振英表現,猶如瞎子摸象,普通人亦難以理解50分是否合格水平。若50分屬於不合格,港大應清楚說明,並解釋何謂支持度評分合格或不合格 (3月21日大公報《張志剛促鍾庭耀交代 民望50分是否合格》) 。陳莊勤則指出,「在一般人心目中,50分這及格分具有非常重要的象徵意義」,但如果只公布平均分而不公布各評分的人數分布,便是不完整的民調結果公布。以今次民調為例,61.8%受訪者給予合格分數,38.2% 給予不合格分數,跟兩大民研/民調機構定期公布以平均分均多數低於50分所顯示的民情相去甚遠(2月8日明報陳莊勤《沉默的螺旋》、3月20日明報陳莊勤《再談民調》)。網站「港人講地」亦提出類似論點,指出整體平均分被0分的「極端評分」拉低,令梁振英支持度被低估,認為應取中位數更佳。過往多年的新聞報道都把50分演繹為及格分數,港大民研亦未有澄清,令市民累積了「50分等同合格」的印象。又批評港大以SPSS格式發佈原始數據,必須裝有特定軟件才能開啟(3月14日港人講地《解開特首民望「不合格」之謎》、3月20日港人講地《有關港大民調的幾個疑問:覆練乙錚及關焯照兩位學者》)。公民黨黨員、港大法律學院院長陳文敏認為,剔除極端數據是普遍做法,因為更能反映現實(YouTube 視頻《公民黨港大法律學院院長陳文敏都覺得鍾庭耀的民調做法不是專業手法》)。中大亞太研究所研究員鄭宏泰稱,港大民調的50分沒有正面意思,不能視為合格,與中大民調講明50分及格並不相同。但0分亦是表達出某類民意,從政者應予注意(3月20日明報《特首民望50分意義 中大「及格」 港大「一半半」》)。

因應批評,鍾庭耀在港大民研網站重貼了2003年的兩篇文章,解讀特首民望調查的設計(《「特首民望新解」、「問責官員如何向民意問責?」》)。文章指出,55分的支持度大約等如假想投票中的45%的「得票率」,50分的支持度則可化成大約30%的「得票率」,45分大概會轉化為20%,而40分大概會化成10%至15%左右。其後,鍾又在出席一個論壇時回應,指使用平均分是國際常用標準。而50分只是一個中性的分數,沒有所謂合格不合格。至於開啟SPSS格式檔案的軟件,在大學可以免費下載,他相信任何一個專業研究機構都有相關軟件(3月15日商業電台《鍾庭耀指國際間最常使用平均分作研究結果》)。前中大經濟學教授、現職冠域商業及經濟研究中心的關焯照,聯同經濟學家周文林、統計學家雷照盛等撰文,指出根據問題的措辭,50分只是代表「一半半」,沒有任何暗示這是一個合格的最低門檻。如果把50分歸入合格,會得出61.8%的人給了合格分數。但如果把50分歸入不合格,會得出66.4%的人給了不合格分數,兩者結果相反。解決方法是把一半評50分的人歸入0-50分一組,另一半歸入50-100分一組,結果是有52.4%的人給了0-50分,反映特首的支持度評分不是太理想。他們同意一旦出現很多人選擇極高或極低評分,平均分不是最好的指標,建議同時公佈中位數和眾數,或剔除極高或低評分部份,計算「截尾均值」。但他們亦認為,極高和極低的評分也是重要的統計資料,不能忽略(3月20日蘋果日報關焯照、周文林、雷照盛《民調小學雞》)。傳媒工作者練乙錚則指,港大民調的特首民望評分由0至100,即有101個整數,50分居中,故此應尊重給予50分者的中立態度,而非把50分理解為支持梁振英。至於0分與100分,在港大民調中都有清楚而具體的定義,不應剔除。若真要剔除0分,亦應同時剔除100分。即使剔除了,平均值仍是低於50分(3月20日信報練乙錚《打棍無效:網小子放倒「巨人」張志剛》)。

下表總結了兩方面的言論:

批評 反駁
平均分與極端評分
  • 整體平均分被極端評分拉低,低估特首支持度。(陳莊勤、港人講地)
  • 剔除極端數據是普遍做法,更能反映現實。(陳文敏)
  • 一旦出現很多人選擇極高或極低評分,平均分不是最好的指標。可同時公佈中位數和眾數,或剔除極高或低評分部份,計算「截尾均值」。(關焯照等)
  • 類似0分或100分的的極端評分將會愈來愈多,因此不能單單公佈平均分,可以中位數代之。(港人講地)
  • 使用平均分是國際常用標準。(鍾庭耀)
  • 0分亦表達出某類民意,從政者應注意。(鄭宏泰)
  • 極高和極低的評分也是重要的統計資料。(關焯照等)
  • 0分與100分都有清楚而具體的定義,不應剔除。若真要剔除0分,亦應同時剔除100分。即使易除了,平均值仍是低於50分。(練乙錚)
關於50分是否合格分數
  • 以50分為合格分數並不全面。給予合格分數的人數是佔總受訪人數的61.8%,給予不合格分數的人數佔總受訪人數的38.2%。這樣的結果與多年來兩大民研/民調機構定期公布以平均分均多數低於50分所顯示的民情相去甚遠。(陳莊勤)
  • 港大民調的50分沒有正面意思,不能視為合格。(鄭宏泰)
  • 有愈六成人給了50分以上的分數。過往新聞報導都把50分演繹為合格分數,令市民累積了「50分等同合格」的印象,港大有必要澄清。(港人講地)
  • 翻查以往報道,發現鍾庭耀曾多次提到50分是合格水平。普通人難以理解50分是否合格水平,認為鍾要澄清。(張志剛)
  • 50分只是一個中性的分數,沒有所謂合格不合格。(鍾庭耀)
  • 55分的支持度大約等如假想投票中的45%的「得票率」,50分的支持度則可化成大約30%的「得票率」,45分大概會轉化為20%,而40分大概會化成10%至15%左右。(鍾庭耀)
  • 根據問題的措辭,50分只是代表「一半半」,沒有任何暗示這是一個合格的最低門檻。50分是評分的中間點,如果把50分歸入合格,會得出61.8%的人給了合格分數。但如果把50分歸入不合格,會得出66.4%的人給了不合格分數,兩者結果相反。解決方法是把一半評50分的人歸入0-50分一組,另一半歸入50-100分一組,結果是有52.4%的人給了0-50分,反映特首的支持度評分不是太理想。(關焯照等)
  • 特首民望評分由0至100,50分居中,應尊重給予50分者的中立態度,不應擅自將「50分」定義為「合格」。(練乙錚)
數據格式問題
  • 港大以SPSS格式發佈原始數據,必須裝有特定軟件才能開啟。(港人講地)
  • 開啟SPSS格式檔案的軟件,在大學可以免費下載,相信任何一個專業研究機構都有相關軟件。(鍾庭耀)

關於民調的統計學基礎

民調在外國稱為 opinion poll,其要旨是運用統計學方法,找出一個群體對於某個社會議題的意見。統計過程可以分為五大步驟:收集、組織、分析、演繹、發表(《What Is Statistics? – Overview》)。

做民調的最理想方法是從整個群體(稱為「母體 (population)」)中收集數據,即要訪問群體內的所有人,如此即能得出全面的統計數據,這種做法稱為「人口普查 (population census)」。但現實中往往由於目標群體的人數眾多,只能從受訪對象之中作隨機抽樣 (random sampling) 並進行訪問,這種做法稱為「抽樣統計 (sample statistics)」。無論是人口普查或抽樣統計,在得到原始數據之後,研究員都會組織並分析原始數據以進行總結。最常見的總結方法是取平均值 (mean) 和標準差 (standard deviation),以展示數據的中央趨勢 (central tendency) 和分散程度 (variability)。中央趨勢的量度,還可以用中位數 (median) 和眾數 (mode)。分散程度的量度還可以用數值範圍 (range,即最大數減最細數)、方差 (variance,即標準差的平方)、百分位數 (percentile) 等。除了中央趨勢和分散程度,有時還要量度數值分布的偏度 (skewness,即非對稱性) 和峰度 (kurtosis,即尖峰的尖銳程度)。這些都是嘗試用少量的數字,去總結一大堆數據的整體特性。數字之外,有時也會用圖表表示數據的特性,最常見的是以直方圖 (histogram) 來展現數據的頻率分布 (frequency distribution)。從上文可知,數字簡潔易用但流於片面,圖表表達較麻煩卻能給出更多方面的資料,研究員在報告中往往要兩者配合使用,才能展現數據的真實特性。

用這些統計結果來描述原始數據的特性,稱為描述性統計 (descriptive statistics)。如果是從樣本的特性來推論整個母體的特性,則稱為推論性統計 (inferential statistics) 。中央極限定理 (central limit theorem) 表明,如果樣本數足夠大,而且抽樣足夠隨機,則樣本的平均值會呈正態分布 (normal distribution) 並趨近母體的平均值,而標準差則為母體的標準差除以樣本數的開方。只要符合中央極限定理的條件,便可以從樣本的平均值和標準差,推測母體的平均值和標準差,並推測這些推測的置信區間 (confidence interval) ,以估計可能的誤差範圍,從而決定推測的可信性。然後,研究員便會就著有關調查的主題,演繹並發表調查結果。

關於上述的統計學理論,可以參考一般的統計學入門書籍(如《OpenIntro Statistics》)。

抽樣調查可能出現以下幾種誤差:

其一、因為樣本缺乏代表性而引入誤差。抽樣必然要忽略母體中部份人士的意見,樣本越小,遺漏越多,因此樣本必須要有代表性,即其成份跟母體相若,否則從樣本的特性來推論整個母體的特性時,便會出現誤差 (Wilks, 1940)。例如,有文獻指出部份在美國進行的電話調查,只對家用電話號碼進行抽樣,但現今越來越多人只用手提電話,作者認為有證據顯示這些只用手提電話的人有相當不同的政見,因此以家用電話受訪的樣本不能代表他們 (Mokrzycki, 2010)。

其二、受訪者未必願意表達自己的真實看法。例如問題較敏感,令受訪者不想或不敢表達意見。有學者提出沉默的螺旋 (spiral of silence) 的概念,指出如果受訪者認為自己的意見屬於少數派,便可能不敢發表真實的意見 (Noelle-neumann, 1974)。一項以台灣與美國人為對象的研究指出,接受電話訪問時台灣人展現了沉默的螺旋現象,美國人則不然,顯示某種文化特質可能會導致這現象出現 (Huang, 2005)。

其三、訪問的用語或會影響結果。不同文化、不同背景的人對問題可能有不同的理解 (Groves, 2009),影響數據的有效性 (validity)。

其四、在總結報告時,無可避免要忽略原始數據中的一些資料。例如平均值的計算方法是將數據總和除以個數,從平均值卻不能反過來計算出原始數據。以 {0, 60, 60} 和 {40, 40, 40} 兩組數據為例,平均值都是 40。兩組數據明顯不同,卻無法從 40 這個數字得知有甚麼不同,因為原始數據的細節被忽略了。如果統計量的選取不宜,便會在演繹出誤導的結果。部份輿論針對平均值所提出的質疑,即屬這一類。

港大民調使用的方法

港大民研網站詳列了特首梁振英評分的相關研究方法(《特首梁振英評分》)。調查基本上每兩個月進行一次,以電話訪問18歲以上操粵語的香港市民。每次樣本數為1000或以上,抽樣方法是從住宅電話簿中首先以隨機方法抽取「種籽」號碼,在號碼上加減 1 或 2,過濾重覆號碼後再作隨機排列,然後提供給訪員進行電話訪問。如果被抽中的家庭中成員不止一人,就選擇下一位即將生日的家庭成員作訪問。

調查的結果經過了加權 (weighting) 處理。根據上文所引文獻 (Wilks, 1940),樣本的成份要跟母體相若才有代表性。由於事實並不符合這項要求(例如年齡分布不同),因此研究員按2013的中期人口統計中的性別與年齡分布,及2011年人口普查中的學歷分布,對樣本進行了加權,其百分比已詳列於《被訪者基本個人資料 》網頁。例如,18-29歲的人口比例,在原始樣本中為15.9%,在加權樣本中修正為18.3%。要留意加權是加在人數上,而不是加在分數上。兩者的概念大有不同。例如一個給了50分的人,若要將其所佔的權重加倍,會變成兩個給了50分的人,而不是一個給了100分的人。有些網站忽略了這一點,錯誤計算出大於100分的評分(如:輔仁網《港大民研特首評分係「被拉高」還是「拉低」?》)。

調查所用的問卷有幾個版本,關於特首民望的問卷編號為 tp1403013_01 (《調查問卷》)。除了詢問受訪者對特首的支持度之外,問卷還會詢問受訪者的居住地區、家庭成員人數、是否登記選民、有否在各項選舉中投過票、性別、年齡、教育程度、居住情況、婚姻狀況、職業收入、階層(如中產、基層等)、出生地、行業、來港年期等等。

關於特首支持度的問題有兩條:

  • Q1: 而家想請你用0至100分評價你對特首梁振英既支持程度,0分代表絕對唔支持,100分代表絕對支持,50分代表一半半,你會俾幾多分特首梁振英呢?
  • Q2: 假設明天選舉特首,而你又有權投票,你會唔會選梁振英做特首?

備受爭議的民望評分即來自 Q1 的答案。基於近日公眾的關注,港大民研網站公布了最近一次(2014年3月3日-6日)的原始數據,檔案格式為SPSS,內裡包含了 Q1 的數據共 1017 條,亦即此次調查的樣本數。根據SPSS檔內的說明,其數據結構如下:

  • 第一列:1-1017 的編號;
  • 第二列:受訪者所給的 Q1 的分數;其中 3 條記錄是 191,代表「不認識梁振英」。16條記錄是8888,代表「不知道」或「不肯講」。餘下998條為0-100間的整數,即為受訪者給予梁振英的評分。
  • 第三列:性別;其中1代表男,2代表女。
  • 第四列:年齡組別;其中1代表18-29,2代表30-39,3代表40-49,4代表50-59,5代表60-69,6代表70或以上。另有4筆記錄是-99,代表拒答。
  • 第五列:一個代表權重的數字;例如第一筆記錄的人的權重是0.85422675557,表示他在經加權處理的樣本中,只代表0.85422675557個人。
就著 Q1 的答案,港大民研原先發表的報告中只報告了以下數點(《港大民研發放特首及問責司局長民望數字》):
  1. 特首梁振英的最新支持度評分為47.5分,跟兩星期前變化不大。
  2. 樣本數是1017。
  3. 回應率是 65.9%。
  4. 誤差率是 +/-1.5,即 3% (以95%置信水平計算)

註:報告亦提及,根據民研計劃的標準,梁振英屬於「表現失敗」,其定義為反對率超過50%。但反對率來自 Q2 的答案,不在本文討論範圍內。有論者認為「表現失敗」是因為梁的平均分在 50 分以下,從而引發關於定義合格分數的批評。按照調查中所用的「民望級別總表」中的定義,這項批評並不符合事實。

分析及評論

參照前述抽樣調查可能出現的幾種誤差,比較港大民研網站所列的研究方法、數據和分析,我們可以評價港大民調在特首民望評分上面的合理與否。

港大民調以電話進行隨機訪問,對種籽電話號碼進行加減處理,並以生日日期選取家庭成員作訪問。最終成功訪問的樣本數達1000以上,回應率65.9%,又對數據進行加權處理,應能很大程度上確保了樣本的代表性。以家用電話號碼來抽樣,可能會出現美國研究中描述的偏頗情況。但目前沒有證據顯示,忽略手提電話的使用者會對關於特首民望的調查造成偏頗的結果,因此不能以此作為對港大民調的指控。

文獻指出人們可能會因為自己的意見屬於少數派而不敢發表真實的意見,即「沉默的螺旋」現象。但是次電話訪問以匿名進行, 應能減低人們的擔憂。而且即使「沉默的螺旋」存在,除非人們認為大多數人都很極端,否則「沉默的螺旋」亦只會令人們傾向選取中間的答案,不會反過來導至「極端答案」的出現。

訪問用語方面,問卷的說明是0分代表絕對不支持,100分代表絕對支持,50分代表一半半。如果受訪者要從這三個分數中選擇,大部分都會選中間的50分。如果要給其它分數,受訪者就要思考其它的數字。圖一顯示各分數的出現頻率,圖二將這頻率以圖象方式表達。從這些數據可知,受訪者傾向給出簡單的數,其中0字尾的數字最多(如0,10,20,30,…),5字尾的數字較少,其它數字最多只有幾個人選擇。另外,選50分的人非常多,共280人,選0分的有91人,選100分的也有29人。這三個分數的出現頻率比旁邊的分數多出很多。理論上,1分甚或10分的相差應該算是輕微的變化,但對受訪者來說,這0,50,100三個分數都具有獨特意義。1分跟2分之間可能沒有差別,0分與1分之間的差別卻是巨大的,是質變而非量變。同理,100分與99分之間,49、50、51分之間的差別亦然。民調要求受訪者給出0-100之間的分數,並以此計算平均值,是假定了這個分數跟受訪者心目中對特首的支持度之間有一連續變化的線性關係。事實上,問題的問法賦予了三個分數特別的意思,客觀上扭曲了分數分布。這效應在50分這一臨界點尤為重要,下面再詳述。

Screenshot from 2014-03-21 17:00:21
圖一:各分數的頻率分布
score_bar
圖二:分數的頻率分布圖(以1分為一格)

原報告以報導平均分為主,新聞媒體主要亦以這個數字作為討論的根據。如前所言,平均分只是總結統計數據的其中一種方式,不同的統計量會給出不同方面的資訊。平均分是最常用的方式,其好處是計算涉及所有的數據,壞處是易受極端數字影響。如果數據中出現極端的數字,一般做法是以中位數取代。中位數是指將數據順序排列之後排在中間的數。例如,數集 {0,0,0,0,100} 的平均值是 20,中位數是 0。平均值因受100影響,其數值不能很好地反映數集的中央趨勢。反之,中位數只取決於數字的排列,在這情況下就較能反映中央趨勢,這就是為甚麼入息通常都是以中位數而非平均值來計算中央趨勢。至於眾數,則是頻率最高的數,在這例子也是 0。也有一些情況是三個數字都不能很好地反映中央趨勢。例如,數集 {0,0,0,100,100,100} 的平均值是 50,中位數是50(中間兩個數的平均),眾數是 0 和 100 (因頻率相同),三個數字都難以代表數集的總體特性,因為數集本身就是分化成兩邊的。一般來說,只有當分布接近鐘形分布時,這三個統計量才能較好地反映現實。

從原始數據可知,是次民調的分數分布並不依從鐘形分布,單純從數字很難對統計結果作出全面的認識,因此以下改由圖表進行分析。

圖三是以每10分為一組的頻率分布,是未經加權處理的結果,分組方法為 0-<10、10-<20、20-<30、30-<40、40-<50、50-<60、60-<70、70-<80、80-<90、90-<100,100-<110。留意最後一個分組實際上只有100分的分數。一般做法是把100分歸入前一組,變成90-100。但因在這組數據中,100分出現了峰值,所以做了這個特別處理,以免影響了前一組的結果。加權處理則按各權重調整每一組的頻率,分組方法相同,結果如圖四所示。

score
圖三:未經加權處理的頻率分布
圖四:經過加權處理的頻率分布
圖四:經過加權處理的頻率分布

兩幅圖只有些微差別。由於本文的分析以看圖表為主,不涉及計算合格不合格的問題,為了方便說明,以下將採用未經加權處理的頻率分布。

跟圖二的結果一樣,圖三清楚展現了0分、50分和100分的特殊性。除了總體的分布外,港大公佈的原始數據還包括年齡和性別的資料,因此我們也可以按性別和年齡分別畫出各組別的分布,如下面兩幅圖所示。

圖五:以性別分組的分數分布
圖五:以性別分組的分數分布
score_age
圖六:以年齡分組的分數分布

先看0分的情況。無論是按性別還是年齡分組,都可以看到0-<10分處出現尖峰。從原始數據或圖二都可以看出,在這個組別裡絕大部分都是直接給了0分。進一步說,男性受訪者給0分的人較女性多,有接近15%。而30-39歲的組別給0分的人較其它組別多,亦是接近15%。從40歲開始,年紀越大的組別,越少人給0分。即使忽略了這些給0分的情況,也可以看出18-29歲及30-39歲的市民,評分少於50分的較評分多於50分的為多。而隨著年紀增加,排除0分之後兩邊趨向平衡。到了60-69歲及70歲或以上的組別,則有向右邊發展之勢。因此,如果以給0分的作為對特首極度不滿的標示,則可以看出最不滿特首的是介乎30-39歲的市民。從40歲的組別開始,年紀越大的市民對特首的支持度越高。

18-29歲是剛剛畢業出來工作的年紀,30-39歲是成家立業的年紀。這兩個年齡層的不滿,或許反映了政府在經濟、就業等政策上的不足,也有可能是這個年齡層的人較關心政治,尤其是在民主發展上產生不滿。真正原因必須經進一步研究確定,本文只能從數據上指出這一現象,沒有足夠的資料作出解釋。

再看50分和100分的尖峰。明顯的100分尖峰只出現在70歲或以上的組別。事實上,70歲或以上的組別,50分尖峰兩邊的分布很均勻,而50分尖峰比其它組別都突出。圖二的分布也顯示,50分尖峰的人數,遠遠超出了鐘形分布應有的數量。透過比較旁邊兩組的高度,大約也是多了15%。如前所述,問題的設計很容易令人選擇50分。這些人要麼真是覺得自己對特首的支持度是一半半,也有可能只是覺得難以下決定,或者根本沒有打算認真思考這個問題,只好給一個中間的分數。如果這班人經過了詳細思考,就可能會給出較高或較低的分數。鑑於這班人的人數不少,他們的決定會對整體分布產生關鍵影響。無奈問卷的設計無法把這批人分辨出來,因此我們不知道這班人的真正取態。

總結及建議

本文透過統計學分析方法,嘗試檢視近日輿論對港大民調的批評及反駁,探討這些言論背後的統計學理據。本文作者認為,港大民調在抽樣方面十分嚴謹,但在設計問卷和演繹結果方面有值得商榷之處。

其中,無論以平均分、中位數還是眾數來進行統計,都不能全面地反映調查結果。應該同時公布頻率分布,甚至是各年齡組別的頻率分布,才能從中提出改善施政的建議。在分析極端分數的時候,我們可以把這些分數分開來考慮,以反映其他人的意見,但極端分數還是有它的重要價值。至於給予50分的人數眾多,本文認為是來源於問卷設計出現了問題,致使難以得知這些人的真正取態,降低了調查的價值。

關於合格分數的問題,由於原問卷設計中,50分只是一半半的意思。以50分為合格分數可能符合一些人的直覺,但本文認為沒有壓倒性的理由以此定義為合格分數。合格是最低要求的指標,但這個最低要求設在何處則是沒有一定準則。即使在學校的考試制度裡,合格分數也並非每間學校相同,只能說通常在40-60分之間。本文同意鍾氏的說法,50分只是一個中性的分數,沒有必要跟合格不合格掛鈎。傳媒亦不應再以此作為報導的焦點。

此外,從按年齡組別畫出的分數分布可以看出,民調的數據確能反映一些重要的社會現象 。雖然大多數人中間落墨,所謂的極端分數只佔少數,但亦有一成之眾,而且集中在30-39歲的組別。在一個社會裡,沉默的大多數和激進的極少數同樣重要。前者是社會穩定的要素,後者是變革的動力,缺一不可。為甚麼某些組別的人給了最差的評分,他們最關注的是甚麼,這方面的跟進工作,不但能夠回應這組人的關注,亦有可能帶動社會的整體進步,從政者責無旁貸。

最後,本文作者很感謝港大民研公開最近一次民調的原始數據,讓社會大眾可以進行更深入的分析。然而 SPSS 只是學術界常用的統計軟件,但如果數據的使用對象是傳媒或一般大眾,通常的做法是一併提供 CSV 和 Excel 版本,有時也會提供 XML 版本(參看:美國政府的《Data.gov》、香港政府的《資料一線通》)。現時在 MS Excel 上開啟 SPSS 格式檔案必須另外安裝插件,本文作者亦是使用了 PSPP (《PSPP – GNU Project – Free Software Foundation》)或在 R (《The R Project for Statistical Computing》)安裝某些特定的程序包才能開啟。若能以比較普及的格式提供數據,將有助資訊的透明和公開。

學術參考文獻

Groves, R. M., Fowler, F. J., Jr., M. P. C., Lepkowski, J. M., Singer, E., & Tourangeau, R. (2009). Evaluating Survey Questions. In Survey Methodology (2nd ed., Vol. 3). John Wiley & Sons.

Huang, H. (2005). A Cross-Cultural Test of the Spiral of Silence. International Journal of Public Opinion Research, 17, 324–345.

Mokrzycki, M., Keeter, S., & Kennedy, C. (2010). Cell-Phone-Only Voters in the 2008 Exit Poll and Implications for Future Noncoverage Bias. Public Opinion Quarterly, 73, 845–865.

Noelle-neumann, E. (1974). The Spiral of Silence. Journal of Communication, 24, 43–51.

Wilks, S. (1940). Representative Sampling and Poll Reliability. Public Opinion Quarterly, 4(2), 261–269.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s