創刊號 201806 【修課成績的決定因素分析】

 

修課成績的決定因素分析

 

鄭保志 

校務研究辦公室 校務研究及發展組組長

經濟學系副教授 


前言

        修課成績是一項衡量學生學習狀況的量化指標,而分數高低則取決於學生的表現與老師的「佛心」程度。我們準備透過分析來檢視下列幾個問題:老師在評分上有沒有甚麼樣的慣性?會不會受到及格線的影響而調整給分模式?給的分數有沒有鑑別度?必修真的比選修嚴?差別很大嗎?各開課單位會不會有寬緊程度上的差異?誰給的分數最甜?成績高低跟學生的性別、年級等個人基本特性又有什麼關聯?

        為了回答以上問題,本文串接多個資料檔,就國立中央大學 103~105 學年 (共六學期) 所有學術科目的修課成績進行分析。透過數據的整理,我們觀察到幾個特別的現象,並建構指標來呈現潛在的問題。此外,我們建立一個多變量線性模型來探討影響成績高低的諸多可能因素,並嘗試就其影響提出解釋。

 

資料來源與選擇

        本文所使用的資料包括《學生各科成績檔》、《學生基本資料檔》、《學生大考成績檔》、《課程資料檔》、《課程教學評量檔》等,個人資料可以用 (去識別化的) 學號來串接,至於課程相關資訊,則有相對應的課號及班別。特別要強調的是,學號資料都已經由電算中心去識別化了,無法對回原始學號,因此不會有任何個資外洩的問題,教學評量檔更是剔除掉所有的個人資訊,僅留下各題的答覆內容,只能整理出與課程相關的資訊。

        本文所分析的課程在授課型態上以「講授」為主,不討論「實驗」與「專題」兩類,在課程屬性方面則剔除「軍訓」、「校際暑修」、「校際選課」、「勞動服務」、「暑修」、「境外選課」、「操性」、「體育」等,學習型兼任助理與零學分的課程也不在分析範圍內。

        以下進入本文的主題,先來看看大家都拿到什麼樣的成績。

       

「佛心」效應

       

201804學期大學部學生之成績分布1

圖 1. 105-1 學期大學部學生之成績分布

 

       圖 1 繪出 105-1 學期 6,210 位大學部學生共 40,784 筆成績的次數分布情形,整體而言是個左偏的型態,平均 77.4 分 (中位數 80,標準差 14.8)。從圖中可以看出兩個有意思的特性:

 

1. 老師有較高的機率會給出整十的分數 (如圖中紅圈所示),但 99 分是個例外,或許是受到「滿分 100 象徵完美但學習沒有止境」之類的想法所影響。

 

2. 在所有的整十分中,60 這個及格線分數顯得特別突出,而出現在 56~59 區間的大缺口 (圖中紅色箭頭所示) 則是提供了一個解釋方向:基於「佛心」或為了避免麻煩 (如被求情的困擾),老師「高抬貴手」決定不「為難」學生。

 

        以上兩個特性也出現在 105-1 學期 3,882 位研究所學生共 10,563 筆成績 (平均 84.2 分,中位數 87,標準差 10.6) 的次數分布中 (請參見圖 2),唯獨 56~59 區間的大缺口上移至 66~69 區間,顯然與研究生的及格線上移至 70 分有直接關聯。除了 105-1 學期以外,我們所檢視 103~105 學年的其他五個學期也都有一樣的現象。

 

201804學期研究所學生之成績分布1

圖 2. 105-1 學期研究所學生之成績分布

 

       回到大學部的成績分布來看,若以圖 1 中 55 及 61 兩個分數的次數為端點,利用線性插補的方式,將 60 分的超高次數挪走一些來「填平」56-59區間的大缺口 (如圖 3 中放大的紅框所示),整個成績次數分布看起來會變得更自然些,此時整體的及格率將從 92.9% 降為 91.0%,平均分數微幅下降 0.1 分。

 

201804以線性內插法填平成績缺口的效果

圖 3. 以線性內插法填平成績缺口的效果

 

       以填補後的分配來看,55~65 區間佔了整體的 11.0%,其中有 27% 落在 55~59 區間,60 分佔了 18%。我們很好奇存在著這樣「佛心」效應的課程有多少,於是參考以上這幾個數據,建構了四項不算嚴格的標準來進行篩選:(1) 落在 55~65 區間的人超過 20%;(2) 55~59區間的人比 60 分的人少;(3) 60 分的人佔 55~65 區間的 30% 以上;(4) 班級中的大學生人數在 30 人以上。

        從 103-1 到 105-2 六個學期,篩選出來可能存在「佛心」效應的課程比例分別是 9.26%、8.02%、8.57%、7.18%、6.60%、7.02%,這比例看起來雖然有下降趨勢,但並不代表老師們愈來愈沒有「佛心」,一來完全不當人且分數都在 65 以上的「大佛」課程本身就不會被篩選進來,二來我們的篩選標準本身具有一定程度的任意性,或許稍作調整就會出現相當不同的結果也很難說,這一點有待後續更深入的探討。

 

分數能否鑑別學習成效?

        老師除了扮演授課者的角色,以各種方式將知識傳遞給學生外,另一個「評分者」的角色也一樣重要,打出來的分數要能夠良好地鑑別出學生的學習效果,否則會降低學生認真修課的誘因,也會減損成績單的公信力與價值。

        一般而言,單從一個班級的成績分布是沒有辦法看出老師的評分是否具有鑑別力 (就算是用電風扇吹出來的成績,看起來仍舊會呈現一個分配),但如果全班的成績只集中在少數幾個分數時 (例如全班都 80 分,或者一半 70 分一半 90 分),這種給分方式肯定沒有太好的鑑別力。

        借用產業分析常用的市場集中度指標 HHI (Herfindahl-Hirschman Index),我們可以將 0~100 共 101 種分數視同 101 家廠商,將每一個分數得分者佔所有人的比例看作市場份額 S,則

eq1

舉例來說,如果全班只有 80 分一種成績,則 S80 = 1 其他 S 為零,得到 HHI = 1;如果全班一半 70 分一半 90 分,則 S70 S90 = 0.5 其他 S 為零,得到 HHI = 0.25 + 0.25 = 0.5;如果全班平均分配在這 101 種分數,則 HHI = 1/101。

        美國司法部就 HHI 指標訂出標準來評估產業集中程度,高於 0.30 訂為「高寡占 I 型」,介於 0.18 到 0.30 訂為「高寡占 II 型」,0.10~0.18 之間訂為「低寡占型」,0.10 以下則是「競爭型」。

        要特別注意的是,在應用 HHI 指標來衡量各課程的給分集中度時,修課人數的多寡會是一個必須考慮的重要限制。舉例來說,只有一個學生的課程只可能給出一個成績,該班的 HHI 必定為 1;只有兩個學生的課程則可能給出一個或兩個成績,HHI 不是 0.5 就是 1。到底修課人數要達到多少以上才能夠直接借用 HHI 指標,我們目前沒有找到相關的研究,但一個可行的替代方案是:利用 103~105 六學期大學部課程實際的數據,在相同人數規模的班級中,套用判斷離群值 (outlier) 的作法來自行建構相關準則 (細節在此不加贅述)。

       搭配美國司法部定義高寡占型的兩個標準 0.30 與 0.18,我們也自建出相對應的兩個準則,並設定 14 人與 21 人作為臨界值。換言之,人數在這臨界值以下的班級就使用我們的自建準則,超過臨界值的班級就使用美國司法部的 0.30 與 0.18 兩個標準。圖 4 與圖 5 分別以散布圖來呈現 103~105 六學期大學部及研究所各班級的「HHI 指標」與「班級人數」,並以綠色寬虛線及紅色短虛線作為寬鬆與嚴格的判準線。

 

201804班級大小與成績集中度指標

圖 4. 班級大小與成績集中度指標 (103~105 六學期大學部課程)

 

201804班級大小與成績集中度指標 研究所

圖 5. 班級大小與成績集中度指標 (103~105 六學期研究所課程)

 

       由圖可以很明顯地看出,相較於大學部課程,研究所課程會有較高比例落入「高寡占」區,這在一定程度上與兩種學制及格線的高低有關。面對研究生較高的及格線,老師給分的主要範圍落在 70~100 之間,相較於大學生的 60~100,硬是少了 10 種分數可以給,但這一點無法構成絕對的理由來合理化老師的給分模式,因為我們仍能在圖 5 中找到不少成績集中度沒有那麼高的課程。

       再次強調,單從成績的分布無法直接看出老師的給分能否良好地鑑別出學生的學習效果,但一門課程的成績集中度過高肯定沒有很好的鑑別度。誠然,要仔細地針對每位學生給予學習成效上的判斷得花費老師相當的心力,但這關乎學生認真修課的誘因與成績單的價值,也是老師身為評分者的責任。未來在傑出或優良教學獎的選拔上,或許校方可以在教學評量之外,將這項指標也納入考量,提供給評審委員參考。

 

哪些因素有加分?

        一個學生修一門課程能夠得到的成績有多高,會同時受到學生面因素 (如用功程度) 及老師面因素 (如給分「甜度」) 雙重的影響,不是單一因素的對照分析就能夠清楚掌握的。舉例來說,A 生在 X 班的分數高過 B 生在 Y 班的分數,有可能是因為 X 班的分數都給得比較高 (即使 B 生比 A 生用功),但也有可能是因為兩班給的分數大致相當且 A 生真的比較努力。本節試圖利用多變量迴歸分析,以「大學部學生」的修課成績為對象,來探討各種可能因素所產生的加分 (或減分) 效果。

        多變量迴歸分析的基本精神簡單地說,就是控制住其他變數,不要讓它們來干擾重點變數的實際影響效果。舉個例子,假定 A 系的男女比例是 1:4,而規模相當的 B 系其男女比例恰恰相反是 4:1。再假定 A 系給男生跟女生的成績都是 90 分,而 B 系則是不分性別都給 80 分。如此看來,性別因素其實在兩個系都沒有效果才對,但如果我們把這兩個系所有學生的成績都放在一起,在沒有控制科系因素的情況下,分別計算男生跟女生的平均成績,將會得出「男生平均 82 分低於女生平均 88 分」的偏誤結論。使用多變量迴歸分析可以避免這種錯誤。

        我們建立一個分數 Y 的線性函數:Y = f (X ),其中 X 涵蓋學生個人與課程兩類特性的變數,前者包括:學生性別、年級/學期、入學管道身分、年級/學期與入學管道的交叉項等,後者則有:開課單位、教學評量、平均每週課外修讀時數、學制屬性、修課人數、全/半學年、必/選修、學分數等。估計方式採用普通最小平方法 (OLS),資料範圍涵蓋 103~105 學年六個學期,共計 227,256 筆觀察值。各解釋變數的基本統計量與估計結果均列在附表 1,有興趣的讀者可以參考。

        如果一位「女性、103學年度、大四下學期、修習 7.1679 門課程、考試分發入學」的代表性學生修了一門「通識、教學評量 4.3045、修課人數 69.61、全班平均課外修讀該課程每週 3.5482 小時、大學部、半學年、選修、三學分」的課程,將會得到 77.63 分。接著我們來檢視,在其他條件不變的情況下,一次只變動一個條件會讓這個 77.63 分變動多少,並嘗試提出可能的解釋。

 

1. 性別:相較於女性,男學生的分數平均低了 3.9529 分。

【說明:相較於直接比較所有男女學生的平均分差 5.8605 分,迴歸式中已經控制了不少個人及課程變數,但仍留下將近 4 分的差距,未來值得繼續探討性別差異的問題】

 

2. 修習科目數:每多修習 1 科,分數會下降 1.2016 分,但下降幅度會隨科目增加而遞減 (平方項係數為正)。圖 6 繪出科目數與分數的關係,是一個開口向上的曲線,代表至少有兩個相反的力量在作用。

【說明:科目愈多,負擔自然愈重,對成績會產生負向影響。但修讀科目愈多的學生,或許也反映其強烈的企圖心,因而帶來正向影響】

 

201804修習科目數的加減分效果
 
圖 6. 修習科目數的加/減分效果 (相對於完全不修課)

 

       

3. 入學管道:相較於「考試分發」的入學者,轉學生的平均得分會少個 3.2979 分、僑生會減少 6.7688 分、交換生則多了 1.7189 分、繁星推薦會高出 1.2651 分、申請入學則多了 0.4821 分。

【說明:不同入學管道所呈現的系統性差異,反映出該群組跟能力或努力相關的整體特性,但因為欠缺相關變數來準確測量能力或努力,因此無法得出具體明確的解釋】

 

4. 年級/學期:在控制了所有其他變數、但不包括「學測總級分」的情況下,三個主要入學管道在大學八個學期間的成績變化如圖 7。要請讀者特別注意的是,圖中的曲線是以前述那位「女性、103學年度、大四下學期...、 通識課程...」的代表性學生為準,曲線的起伏僅反映了年級/學期因素所產生的影響,並不是所有科目成績的平均。

【說明:大二上的分數低谷,或許是因為該學期是專業科目最多的一個學期,也可能是接手社團幹部佔去較多時間。大二下的「反彈」可能是被前一學期的低分嚇到,也或者有其他因素。大四的成績往下掉,可能是畢業在即,學生會花去較多心思在求職或升學的緣故】

 

201804未受控學測總分得個學期成績

圖 7. 未控制學測總分的各學期成績 (按三大入學管道分)
 
 
 

5. 開課單位:相較於通識課程,各開課單位的課程在平均分數上的差距如圖8所示,除了管院與客家學院,其他單位跟通識課程的差異均顯著。

【說明:在控制了其他相關的課程因素後,除非有具體事實能夠說明修習各單位課程的學生在資質能力上確有顯著差距,否則此處的差異就只能歸因於各單位整體的課程難度、教學功力或給分文化上的差別了】

  

201804開課單位的回歸分析估計結果

 圖 8. 開課單位的迴歸分析估計結果 

 
 

6. 教學評量:全班學生給該課程的評量分數 (最低 1 分、最高 5 分) 平均每高出 1 分,該班學生的成績會增加 4.4515 分。

【說明:教學評量是在期末得到成績之前進行調查的,在學生尚未得知學期成績且控制了課外修讀時數的情況下,可以解釋為老師的教學品質除了得到學生認同外,也有助於提升學習成效,因而該班學生會得到較高的分數】

圖 9 繪出 105-1 學期大學部與研究所所有 (分析範圍內的) 課程教學評量之分布圖,從平均評量結果來看,研究所 582 門課程的 4.55 明顯高於大學部 766 門課的 4.38。

201804各課程教學評量之機率分布1

圖 9. 各課程教學評量之機率分布 

 
 

 7. 平均每週課外修讀該課程的時數:數據取自教學評量所問「除上課時間外,平均一星期修讀本課程付出的時間:A. 10小時以上;B. 6-9小時;C. 4-5小時;D. 1-3小時;E. 1小時以下」。各時數選項的處理以該組的組中點為準,分別為 A=13,B=7.5,C=4.5,D=2,E=0.5。

圖 10 (A) 繪出 105-1 學期大學部與研究所所有 (分析範圍內的) 課程課外修讀時數之分布圖,平均而言,研究所門課程的 4.93 小時明顯高於大學部的 3.78 小時。對大學部學生而言,該課程的平均課外修讀時數每多 1 小時,成績會減少 2.1657 分,但下降幅度會隨時數增加而遞減 (平方項係數為正)。

 

201804課外修讀時數之機率分布A

圖 10 (A). 課外修讀時數之機率分布

 

圖 10 (B) 繪出時數與分數的關係,是一個開口向上的曲線,代表至少有兩個相反的力量在作用。

 

201804課外修讀時數的加減分效果B

圖 10 (B). 課外修讀時數的加/減分效果

 

【說明:課程難度增加會增加學生的課外修讀時數,同時也比較不容易得到高分。另一方面,學生投入更多的課外時數,自然有益於課程學習,因而得到較高的分數】

 

8. 修習大學部課程:大學部的學生如果去修開設在研究所的課程,分數會增加1.7649分。

【說明:研究所的課程一般而言難度較高,但給的分數也較高,另一方面願意跨級上修的大學部學生的資質或企圖心較高】

 

9. 修課人數:修課人數每增加 1 人,該班學生的成績平均會減少 0.1191 分,但下降幅度會隨時數增加而遞減 (平方項係數為正)。圖 11 繪出修課人數與分數的關係,是一個開口向上的曲線,代表至少有兩個相反的力量在作用。

【說明:修課人數少,師生之間的熟稔程度較高,學習效果 (成績) 也比較好。從另一方面來看,修課人數或許也反映了老師的教學功力或聲譽 (功力或給分甜度),因而能夠吸引較多學生修課的課程給出的分數會比較高】

201804修課人數的加減分效果1

圖 11. 修課人數的加/減分效果

 
 

10. 全學年課程:相較於半學年課程要高 0.3540 分。

 

11. 必修課程:相較於選修課程要低 3.0893 分。

【說明:老師對必修課程有較多的要求,相對在給分上比較嚴格】

 

12. 學分數:相較於三學分以上的課程,兩學分的課程會高 0.8948 分,一學分則是高出 4.2384 分。

 

13. 學年度:相較於 103 學年度,104 及 105 學年度各自高出 0.1614 與0.7364 分,幅度雖然不大但統計上顯著,代表分數膨脹問題可能存在。

       

控制學測成績之後

        不論是繁星推薦、申請入學或考試分發,透過這三大入學管道進入中大就讀的學生絕大多數都有學測成績,排除機運成分不論,「學測總級分」在一定程度上可以反映學生的認知能力 (cognitive ability) 或是進入大學前的先備知識。在以下的分析中,由於轉學生、僑生或交換生沒有這項資訊,所以這三類學生會被排除在本節的分析之外,共剔除了大約 8.4% 的觀察值。

        圖 12 顯示,在本文的分析對象中,申請入學者的平均學測總級分居冠,為 65.16 分,指考分發者以平均 62.07 居次,但在分布上離散程度比較大,繁星推薦者的平均總分為 61.75 則是最低。然而,這三大入學管道的學生在進入大學以後的成績在排序上則呈現相當不同的結果,從圖 7 可以看出繁星推薦者躍昇為第一。

 

三大管道學測分布

圖 12. 三大入學管道入學生之學測總級分分布

 

        如果將分析資料中每個學生的平均學業成績繪於縱軸,學測總級分繪於橫軸,則從圖 13 可以看出:三大入學管道學生的個別表現其實是有很大的差異性與複雜性。換句話說,除了學測總級分以外,還有許多其他的因素會影響學生的大學學業表現,這也是為什麼我們必須要使用多變量迴歸分析來控制各種變數所產生的影響。

 

三大管道學業表現與學測

圖 13. 三大入學管道入學生之學業成績 vs. 學測總級分

 

 

        根據我們迴歸分析的結果,在控制了其他變數之後,學測總級分每增加 1 分,確實顯著地增加修課成績 0.1982 分。此外,在加入了「學測總級分」這個控制項以後,三大入學管道學生的平均成績表現產生了很不一樣的結果。對照圖 14 與圖 7,可以發現「申請入學」與「考試分發」兩類學生在各學期的成績差異幾乎都消失了,代表兩類學生之間的差異在很大程度上能夠被認知能力 (或入學前的先備知識) 的差異所解釋。

        但「繁星推薦」學生的成績則不太受到影響,這很可能是因為透過這個管道入學的學生,其高中前兩年的在校排名相較於同儕要來得高,就像許多卷哥或卷姐重視學業成績並能持續不懈的特性一樣,他們相對較高的成績或許要從人格特質相關的非認知能力 (non-cognitive ability) 來加以解釋。換句話說,繁星推薦者比較像是長跑型的選手,而其他兩種管道的入學生則相對比較像是短跑衝刺型。不同的人格特質其實沒有什麼高下之分,只能說在純學業表現上可能是差異來源而已。

       

201804控制學測總分後的個學期成績1

 圖 14. 控制學測總分後的各學期成績 (按三大入學管道分)

  

 

         至於其他的控制變數,雖然其影響成績的效果會因為加入「學測總級分」這個新變數而有些許不同,但在方向與程度上並沒有太大的差別。

         必須要特別指出的是,本文是針對季報的一般讀者而寫,就嚴謹的學術標準來說,文中的 OLS 分析結果絕對是不夠精確的,至少要再針對 panel data 加入固定效果等的處理為佳。

       

 

結語

        本文串接多個校務資料檔並就「修課成績」進行分析,討論了「佛心」效應、成績集中度與相關決定因素等三項主題,每一項主題的討論都有其政策意涵,提供給學校主管在進行決策時參考。

         在不算嚴格的篩選標準下,我們發現有將近8%的課程存在「佛心」效應,分數偏高的課程還不包括在內。對及格線附近的學生高抬貴手不是對與錯的問題,畢竟老師在很高程度上有自主給分的權利,我們要提醒的是相關的任意性與公平性問題,特別是學期初所公布的評分機制是否有被良好地執行。

        成績集中度過高更是一個重要的問題,過去或許少有這方面的分析,所以一個老師身為「評分者」的角色沒有像「授課者」那樣被看重。事實上,老師打出來的分數應該要能夠良好地鑑別出學生的學習效果,否則會降低學生認真修課的誘因,也會減損成績單的公信力與價值。未來在傑出或優良教學獎的選拔上,建議在教學評量之外,將這項指標也一併提供給評審委員參考。

        從影響成績高低的相關因素分析中,我們發現加入學測總級分的考量後,「申請入學」與「考試分發」的成績差異消失,「繁星推薦」則不太受到影響,顯見就各種入學管道而言,認知能力與非認知能力扮演不同的角色。過去在招生方面大多集中在認知能力的考量,未來應該要投入一些資源去探討非認知能力的影響程度。

 

 

 

 

附表 1. 線性迴歸模型之估計結果(未控制學測成績)

 

《個人特性相關變數》

201804附件1

 

《課程特性相關變數》

201804附件2

                                                              *p < 0.1, ** p < 0.05, *** p < 0.01

 

 

返回季報