Download as pdf or txt
Download as pdf or txt
You are on page 1of 58

國 立 交 通 大 學

管理學院(資訊管理學程)碩士班

碩 士 論 文

運用健保資料庫分析全民健保
第一類投保單位欠費特性
Analysis of Overdue Payment of Category 1 Insured

Unit for National Health Insurance based on NHI

Research Database

研 究 生:鄭舒琪

指導教授:劉敦仁 博士

中 華 民 國 106 年 6 月
運用健保資料庫分析全民健保第一類投保單位欠費特性

Analysis of Overdue Payment of Category 1 Insured Unit

for National Health Insurance based on NHI Research

Database

研 究 生:鄭舒琪 Student:Shu-Chi Cheng

指導教授:劉敦仁 Advisor:Duen-Ren Liu

國 立 交 通 大 學

管理學院(資訊管理學程)碩士班

碩 士 論 文
A Thesis

Submitted to Institute of Information Management

College of Management

National Chiao Tung University

In Partial Fulfillment of the Requirements

For the Degree of

Master of Science

in

Information Management

June 2017

Hsinchu, Taiwan, the Republic of China

中 華 民 國 106 年 6 月
摘要

全民健保之運作為隨收隨付制度(pay-as-you-go),由全體保險對象、投保單

位及政府共同繳納保險費至健保署,所有的醫療費用支出直接由大家繳納的保險

費共同支付。我國醫療費用支出逐年上升,健保時常面臨收支不平衡及入不敷出

之財務衝擊,而第一類投保單位的保費收入佔全民健保總保費收入約 80%,大額

欠費往往也是第一類投保單位所造成,故維持投保單位保費收入穩定一直是健保

署收入面最重要的業務之一。本研究利用健保署倉儲資料庫,針對 2015 年 1 月到

12 月之間,累計欠費金額超過 5,000 元的第一類投保單位,並以隨機抽樣方式擷

取未欠費投保單位後兩者合併,作為本研究所要分析的樣本資料,以摘要統計、

決策樹及羅吉斯迴歸分析其影響投保單位欠費的特性,例如:行業別、單位規模、

單位營運時間長短、負責人年齡層及受僱者投保金額等,可發現不同分析方式所

預測的單位欠費結果不盡相同,最後透過誤分類率、ROC 曲線以及累積增益圖作

為評價不同分析方法之效益,找出可以預測第一類投保單位是否產生欠費之模型,

讓主管機關能更了解欠費高風險單位的特性,做更有效率的投保單位保費繳納情

形管控。

關鍵字:全民健保、健保費、投保單位、欠費、決策樹、羅吉斯迴歸

1
i
Abstract

The National Health Insurance (NHI) program is operated based on the

“pay-as-you-go” financing principle. The NHI system mainly derives its revenue from

the premiums collectively paid by the insured people, employers, and the government,

and the premiums paid for the medical expenditure. However, the revenue growth has

lagged far behind the rate of increase of medical expenses, and the deficit of the NHI

system has become a financial problem. About 80% of all premiums are paid by

category 1 units, and they often caused large amount of overdue premiums as well.

Maintanining a stable financial system of NHI is the most important responsibility of

the NHI admistration (NHIA). Based on the NHI research database, this research

collects the payment data and basic information of all category 1 units in 2015, and

analyzes those data by using the decision tree analysis and logistic regression analysis.

The analysis discovers the significant attributes of category 1 units which would have

higher probability of not paying the premiums in time. The research findings can be

used to bulid a more efficient premium monitoring system for NHI.

1
ii
誌謝

這篇論文的完成非常感謝我的指導老師劉敦仁博士,除了課堂上的教導外,

對於研究方向給我很大的空間可以發揮,並且適時給我很多提醒及鼓勵,同時也

非常感謝口試委員王朝煌老師、周世傑老師、羅濟群老師以及蔡銘箴老師在口試

時給的許多建議,讓我的論文能順利完成。

這兩年來在交大資管所,很幸運能遇到許多很優秀的老師及同學,讓我在這

2 年學習到不只有豐富的學識,也認識了許多來自不同領域的同學,拓展了自己

的視野。就讀在職專班必須要同時應付工作以及課業,對於身心都是一種磨練,

在學習的路上,很幸運能有家人的支持,還有同事在工作上的幫忙,讓我可以安

心地在學校學習以及完成論文,也由衷感謝男朋友蔡先生,在最後工作和學業焦

頭爛額時的陪伴,給予我非常多的支持及鼓勵,這一路上得到許多貴人的幫助,

也希望未來能利用在交大學習到的知識,在工作上學以致用,發揮最大的效益。

1iii
目錄

中文摘要………………………………………………………………………………i
英文摘要……………………………………………………………………………ii
誌謝…………………………………………………………………………………iii
目錄…………………………………………………………………………………iv
表目錄………………………………………………………………………………v
圖目錄………………………………………………………………………………vi
第一章 緒論 …………………………………………………………………………1
第一節 研究背景及動機……………………………………………………………1
第二節 研究目的……………………………………………………………………2
第二章 全民健保現況及相關文獻探討……………………………………………3
第一節 健保費計算…………………………………………………………………3
第二節 欠繳健保費之相關規定及處理流程 ………………………………………5
第三節 全民健保投保概況…………………………………………………………9
第四節 投保單位欠費處理情形……………………………………………………11
第五節 相關文獻…………………………………………………………………12
第三章 研究設計……………………………………………………………………18
第一節 研究架構……………………………………………………………………18
第二節 資料來源……………………………………………………………………20
第三節 資料變項定義……………………………………………………………23
第四節 資料前置處理………………………………………………………………25
第五節 研究方法……………………………………………………………………27
第四章 研究結果…………………………………………………………………34
第一節 摘要統計…………………………………………………………………34
第二節 決策樹分析…………………………………………………………………36
第三節 羅吉斯迴歸分析…………………………………………………………39
第四節 模型比較…………………………………………………………………44
第五章 結論與建議…………………………………………………………………47
參考文獻…………………………………………………………………………49

1iv
表目錄

表 1 全民健康保險保險費負擔比率表……………………………………………3

表 2 全民健康保險被保險人及投保單位保險費計算方式………………………4

表 3 全民健保各類投保單位數統計表……………………………………………9

表 4 全民健保各類保險對象人數統計表……………………………………………9

表 5 投保單位及保險對象保險費收繳統計表………………………………………10

表 6 全民健康保險投保單位及保險對象保險費欠費收回統計表…………………11

表 7 近年有關健保收入面之文獻一覽表……………………………………………12

表 8 保險對象資訊資料表欄位一覽表………………………………………………20

表 9 投保單位主檔資料表欄位一覽表……………………………………………20

表 10 單位財務應收資料表欄位一覽表……………………………………………21

表 11 中華民國行業標準分類(第 10 次修訂版) …………………………………24

表 12 投保單位欠費情形摘要表……………………………………………………26

表 13 混淆矩陣………………………………………………………………………31

表 14 第一類投保位屬性摘要統計一覽表…………………………………………35

表 15 決策樹模型規則………………………………………………………………38

表 16 決策樹模型之欠費單位統計表………………………………………………38

表 17 羅吉斯迴歸模型參考組………………………………………………………39

表 18 線性迴歸分析表………………………………………………………………39

表 19 羅吉斯迴歸模型虛擬編碼表………………………………………………40

表 20 羅吉斯迴歸屬性篩選結果…………………………………………………41

表 21 羅吉斯迴歸分析結果………………………………………………………43

表 22 決策樹模型混淆矩陣………………………………………………………44

表 23 羅吉斯迴歸模型混淆矩陣……………………………………………………44

2
v
圖目錄

圖 1 健保費欠費處理流程圖……………………………………………………6

圖 2 投保單位例行性催繳作業流程圖……………………………………………7

圖 3 投保單位專案催繳作業流程圖……………………………………………8

圖 4 研究架構圖……………………………………………………………………19

圖 5 決策樹示意圖……………………………………………………………………27

圖 6 羅吉斯迴歸示意圖………………………………………………………………30

圖 7 累積增益圖示意圖………………………………………………………………33

圖 8 決策樹分析結果…………………………………………………………………37

圖 9 決策樹模型 ROC 曲線圖…………………………………………………………45

圖 10 羅吉斯迴歸模型 ROC 曲線圖……………………………………………………45

圖 11 決策樹模型累積增益圖………………………………………………………46

圖 12 羅吉斯迴歸模型累積增益圖…………………………………………………46

3
vi
第一章 緒論

第一節 研究背景及動機

全民健保自民國 85 年 3 月開辦至今約 21 年的時間,曾經歷多次財務危機,

保險收支赤字曾累積高達 582 億元(中央健康保險署,105),自民國 99 年調高保

險費率為 5.17%後,當年度首次出現保險收支結餘為正數的情形,並於 102 年實

施二代健保,徵收補充保險費後更使結餘快速累積,故維持健保財務的穩定性一

直都是健保署一項重大的課題。

財務收支平衡不外乎是「開源」以及「節流」兩個方式,又 105 年 6 月 7 日起,

健保署基於我國實施健保的目的為增進國人的健康,以及給予國人就醫權益的公

平性保障,宣布健保全面解卡,此政策實施後,可能影響保險對象按時繳費的意

願。故健保費的收入穩定性成為健保署收入面最重要的一項業務,依據健保法第

30 條第 1 項「第十八條及第二十三條規定之保險費,依下列規定,按月繳納:一、

第一類被保險人應自付之保險費,由投保單位負責扣、收繳,並須於次月底前,

連同投保單位應負擔部分,一併向保險人繳納。二、第二類、第三類及第六類被

保險人應自付之保險費,按月向其投保單位繳納,投保單位應於次月底前,負責

彙繳保險人。三、第五類被保險人之保險費,由應補助保險費之中央社政主管機

關,於當月五日前撥付保險人。四、第一類至第四類及第六類保險對象之保險費,

應由各機關補助部分,每半年一次於一月底及七月底前預撥保險人,於年底時結

算。」故每月健保署進行保費計費程序,將投保單位及個人的應收保費製成繳款單,

再利用紙本郵寄或電子傳送至繳款人收件位置。但繳款人因各種情況,無法在繳

納期限及法定寬限期限內繳納保費,最後經過行政執行可能形成呆帳無法收回,「

欠費」對於健保的財務穩定性是一項負面不確定的因素。故全民健保遂行至今已經

累積了相當的數據資料,本研究將針對投保單位的屬性,分析造成投保單位欠費

之因素,研究者期望透過本研究之結果,提供做為政府未來政策制定之參考。

1
第二節 研究目的

健保署每六個月針對欠費的投保單位進行例行性催繳作業,每四個月亦進行

專案催繳作業,催繳作業執行時下傳資料給健保署各分區業務組進行催繳、移送

行政執行等相關程序,但是投保單位已經產生欠費後所做的措施為事後補救,如

果能事前預測高風險單位,進而介入輔導或有因應措施,更能有效率的管控欠費

單位及增加健保財務穩定性。

本研究為探討 2015 年 1 月至 2015 年 12 月期間,全民健保全體投保單位應收

及繳納資料,並根據投保單位規模別、行業別、負責人年齡層、營運時間長短以

及受僱者投保金額等屬性是否產生欠費進行分析,期能透過資料探勘及統計分析

等研究方法找出有欠費的投保單位特性,同時也找出一個有別於以往並可與現行

機制配合使用的健保費欠費監控機制。

本研究報告共分為五章,第一章為緒論,第二章為全民健保現況及相關文獻

探討,第三章為研究設計,第四章為研究結果,第五章為結論及建議。

2
第二章全民健保現況及相關文獻探討

第一節 健保費計算

依據健保法第 30 條規定,投保單位應每月扣、收繳第一類被保險人應自付

的保險費,並於次月底前連同單位負擔部分一併向健保署繳納。第一類被保險人

包含:

(1) 政府機關、公私立學校之專任有給人員或公職人員。

(2) 公、民營事業、機構之受僱者。

(3) 前二項被保險人以外有一定雇主之受僱者。

(4) 雇主或自營業主。

(5) 專門職業及技術人員自行執業者。

健保費的計費方式,依據健保法第 27 條第 1 項,保險費由被保險人、投保

單位及政府三方共同負擔,且依被保險人投保類目的不同,三方負擔的比率亦有

不同,健保費各類目保險費負擔比率表如表 1。

表1 全民健康保險保險費負擔比率表
負 擔 比 例 (%)
保險對象類別
被保險人 投保單位 政府
公務人員 (一目) 本人及 30 70 0
公職人員 (一目) 眷 屬
本人及
私校教職員(一目) 30 35 35
眷 屬
公民營事業、機構等有
第一類 本人及
一定雇主的受雇者 30 60 10
眷 屬
(二、三目)
雇主(四目)
自營業主 (四目) 本人及 100 0 0
專門職業及技術人員自 眷 屬
行執業者(五目)
職業工會會員(一目) 本人及
第二類 60 0 40
外僱船員(二目) 眷 屬
農民、漁民 (一目) 本人及
第三類 30 0 70
水利會會員(二目) 眷 屬
義務役軍人(一目)、替
代役役男(二目)、軍校
第四類 軍費生(一目)、在卹遺 本人 0 0 100
眷(一目)、矯正機關之
收容人(三目)
3
第五類 低收入戶 本人 0 0 100
榮民、榮民遺眷家戶代 本人 0 0 100
表(一目) 眷 屬 30 0 70
第六類
本人及
其他地區人口(二目) 60 0 40
眷 屬

本研究針對第 1 類被保險人及投保單位負擔保險費的計算方式,分述如表

2:

表2 全民健康保險被保險人及投保單位保險費計算方式

被保險人

第一類第一 投保金額*保險費率 1* 30%(積數先四捨五入)* (本人+眷屬人數 2)


目至第三目
第一類第四 投保金額*保險費率* 100%(積數先四捨五入)* (本人+眷屬人數)
目及第五目

投保單位
第一類第一目-
公務人員或公 投保金額*保險費率* 70%* (1+平均眷口數 3) (積數四捨五入)
職人員
第一類第一目-
投保金額*保險費率* 35%* (1+平均眷口數) (積數四捨五入)
私校教職員

第一類第二目
投保金額*保險費率* 60%* (1+平均眷口數) (積數四捨五入)
及第三目

綜上所述,投保單位每月應收保險費係指第一類被保險人(含眷屬)之自

付保險費及投保單位負擔保險費加總之金額。

___________________________________

1
保險費率自 105 年 1 月由 4.91%調整為 4.69%。
2
眷屬之保險費,超過三口者,以三口計算。
3
平均眷口數自 105 年 1 月由 0.62 調整為 0.61。
4
第二節 欠繳健保費之相關規定及處理流程

依據全民健康保險法第 35 條第 1 目,投保單位如未在繳納期限前繳納健保費,

得寬限 15 日。故全民健康保險費欠費係指投保單位逾繳納期限(含寬限期 15 日)

仍未繳納之健保費。而健保費逾繳納期限仍未繳納者,健保署將進行催繳作業,

催繳之目的除收回欠費外,以雙掛號郵寄方式催繳者,同時可取得合法送達證書,

以利後續欠費行政執行作業。

健保費欠費經催繳送達後仍未收回者,依據「全民健康保險保險費及滯納金

欠費催收暨轉銷呆帳作業要點」規定,投保單位自寬限期滿之翌日起逾四個月仍未

繳清欠費者,應進行催繳。而欠費經催繳後仍未繳清者,應於執行期間屆滿前移

送行政執行。投保單位欠費處理流程以及催繳作業流程,請詳見圖 1 至圖 3:

5
健保費逾寬限期未繳

催繳

合法送達後移送行政執行

執行無實益取得債權憑證

轉銷呆帳

圖 1 健保費欠費處理流程圖(資料來源:健保署承保組)

6
準備

投保單位逾寬限期之欠費

讀取單位財務應收檔

排除:
經濟困難/特殊困難者、低收入戶
催繳特殊名單檔內之扣除名單者
被保險人死亡
有效分期中及 25 日內被催繳者

依催繳地址選項參數,比對地址檔,有地址者以催繳日
期回寫財務應收檔之最近催繳日期

催繳單列印作業

寫入催繳單檔/催繳單明細檔

1.繳款單或中斷繳款單
2.無地址報表
3.雙掛號者產生送達證書、大
宗掛號清單
4.產生相關媒體檔.

結束

圖 2 投保單位例行性催繳作業流程圖(健保署承保組,2016)

7
短期欠費、外傭雇主於 1
類投保、個人於 1 類投保、
欠費者死亡、欠費未催繳、
未送達、欠費將逾時效、
長期欠費、個人有利息補
充保費

投保單位逾寬限期之欠費

讀取單位財務應收檔

依各專案別條件產生欠費資料,由健保署各
分區業務組轉入特別催繳名單檔

執行特別催繳:
依催繳地址選項參數比對地址檔,有地址者以催繳日
期回寫財務應收檔

催繳單列印作業

寫入催繳單檔/催繳單明細檔

1.繳款單或中斷繳款單
2.無地址報表
3.雙掛號者產生送達證書、大
宗掛號清單
4.產生相關媒體檔.

結束

圖 3 投保單位專案催繳作業流程圖(健保署承保組,2016)

8
第三節 全民健保投保概況

依據民國 105 年 3 月份健保署公布之「衛生福利部中央健康保險署業務執行報

告」,民國 100 年 1 月至 104 年 12 月間,各年度各類投保單位之家數統計資料,

第一類投保單位佔全部投保單位約 99%,且可從表中看出投保單位數逐年增加中。

再以各類保險對象人數來看(表 4),第一類保險對象(含被保險人及眷屬)約佔全

體保險對象的 55%,此亦表示全民健保保險對象超過一半皆為加保在第一類投保

單位的保險對象。不論以投保單位家數或保險對象人數來看,第一類投保單位都

是全民健保最大宗的承保對象,其重要性顯而易見。
表3 全民健保各類投保單位數統計表
單位:家

類目
總計 第一類 第二類 第三類 第四類 第五類 第六類

100年底 730,720 725,147 3,622 345 9 613 984

101年底 750,851 745,201 3,703 345 9 604 989

102年底 775,369 769,670 3,749 345 14 585 1,006

103年底 803,693 797,943 3,781 345 13 578 1,033

104年底 828,502 822,651 3,802 345 13 563 1,128

表 4 全民健保各類保險對象人數統計表
單位:人

目 總計 第一類 第二類 第三類 第四類 第五類 第六類

100
23,198,664 12,470,563 3,962,392 2,750,311 160,591 310,273 3,544,534
年底
101
23,280,949 12,649,300 3,868,431 2,690,876 151,910 347,607 3,572,825
年底
102
23,462,863 12,911,504 3,785,722 2,631,177 186,671 352,700 3,595,089
年底
103
23,621,599 13,178,029 3,772,173 2,539,882 185,047 349,088 3,597,380
年底
104
年底 23,737,221 13,399,350 3,759,457 2,441,512 181,914 334,119 3,620,869

9
而在計費期間為保險費 5 年請求權期間(100 年 1 月年至 104 年 12 月)之各類

投保單位收繳統計資料(表 5),可看出本研究對象第一類投保單位之收繳率雖為

所有類目之中最高,達到 99.76%,但其應收保險費金額佔總應收保險費約 81%,

故第一類投保單位及保險對象之保險費收繳情形為整體保費收入穩定性最重要的

因素。

表 5 投保單位及保險對象保險費收繳統計表

單位:億元,%
類別 應收保險費 實收保險費 收繳率%
第一類 13,864.35 13,831.20 99.76
第二類 1,605.17 1,599.99 99.68
第三類 436.53 433.34 99.27
第六類 1,157.88 1,004.73 86.77
總計 17,063.92 16,869.26 98.86
資料日期:105年3月31日

10
第四節 投保單位欠費處理情形

投保單位如有欠費且無力繳納的情形,健保署提供分期繳納的方式給予

投保單位緩衝繳納的時間,依「全民健康保險保險費及滯納金分期繳納辦法」規定,

投保單位欠費總額達 3 萬元以上,可向健保署辦理分期繳納,又第 5 條第 1 項第

1 目規定「一、投保單位欠費:(一)金額未滿新臺幣二十萬元者,得分二至十二

期繳納。(二)金額新臺幣二十萬元以上,未滿五十萬元者,得分二至二十四期

繳納。(三)金額新臺幣五十萬元以上,未滿五百萬元者,得分二至三十六期繳

納。(四)金額新臺幣五百萬元以上者,得分二至四十八期繳納。」在分期的期數

上,亦有相關規範限制。有欠費之投保單位如依上述規定辦理分期繳納健保費,

依健保署制定之「投保單位例行性催繳作業流程」(圖 2)即不被納入催繳名單,

可視為產生長期欠費甚至欠費轉銷呆帳風險較低的投保單位。

經過健保署的欠費催繳及後續移送行政執行後,依據「全民健康保險投保

單位及保險對象保險費欠費收回統計表」4(表 6)可看出 5 年請求權期間 5,健保費

欠費收回率可達到 97.36%。
表6 全民健康保險投保單位及保險對象保險費欠費收回統計表
單位:億元,%

項目
欠費應收金額 收回金額 收回率%6
年度
100.1-100.12 112.43 109.46 97.36
101.1-101.12 128.60 119.64 93.03
102.1-102.12 153.52 120.50 78.49
103.1-103.12 168.39 109.55 65.06
104.1-104.10 144.73 75.71 52.31
104.11 15.19 6.05 39.82
104.12 17.06 6.35 37.22
總計 739.92 547.25 73.96
資料日期:105年3月31日

___________________________________
4
不含投保單位及保險對象補充保險費。
5
計算期間為保險費在5年請求權期間資料(100年1月至104年12月)。
6
近期欠費收回率相對較低,係因收繳期間較短。
11
第五節 相關文獻

在健保費收入上曾有陶宏麟與郭嘉祥(1998)、葉秀珍(1999)、黃旭男(2002),

探討總體經濟層面,如失業率、薪資成長、家戶所得、就業人口數或繳費方式等

對保費收入的影響;亦有針對健保費轉帳對欠費的影響,如葉秀珍(1999),且認

為具顯著相關。此外,另有吳琮潘與劉順仁(1998)認為在財務收支平衡議題方面,

不但需著眼於總體層面的變動,更應考量個體層面的影響,並非僅以調整費率就

能解決,及林國明(2000)認為呆帳之形成,主要歸因於社會面與制度面的影響,

欠費民眾多數由失業與經濟困難所造成,及黃仁德(2000)針對全民健保第一類

被保險人投保金額的區域性進行差異性分析,認為健保投保金額應考慮薪資所得

以外的其他所得收入;政府應對租稅及管制政策作全盤檢討,以降低地下經濟活

動及攤販業的擴張,並應加強對製造業投保單位及第四目被保險人(雇主)的查核,

及黃錫深等(2000 年)、曾惠明等(2003)討論催收的滿意度調查,及莊榮霖等(2003)

在健保費轉帳上之被保險人特性進行探討。由上述健保費相關文獻整理可看出,

近期並無使用資料探勘方式進行健保費之研究,而本文將就有欠費之第一類投保

單位,利用資料探勘方式進行研究分析。

表7 近年有關健保收入面之文獻一覽表
作者(年) 研究主題 研究對象 影響因素 研究結果
失業率 八十四年 失業率、薪 失業率變動與薪資成長對保費收入
變動、薪 七月至八 資成長 之影響進行估計,發現失業率上升
陶宏麟
資成長 十六年四 惕,當月保費收入的最大損失約為
郭嘉祥
與全民 月之健保 1.8 億至 2.6 億元之間;薪資成長增
(1998)
健保保 資料。 加 1%,保費收入僅上升 7 、8 百萬
費收入 元。
全民健 1. 實 地 訪 應收保費、 1.針對欠費之預防,宜保費債權發生
康保險 談 相 關 之 每 年 保 費 時,即積極採取因應措施。
呆帳提 財 務 及 會 收入(應計 2.基於成本效益原則,對於一定金額
列及轉 計人員,暸 基礎)於結 以下之欠費,經一段特定期間仍未收
銷之研 解 呆 帳 作 帳 六 十 日 回者,得不予函催。
究 業 處 理 情 內 收 回 之 3.針對作業要點中之規定,對於尚在
林美花
形。 估計比率、 營業之欠費者,代表有償債能力,故
(1998)
2. 蒐 集 中 第 i 個 月 不宜加上應超過「寬限期二年」,才
央 健 保 局 之 開 單 金 不致有鼓勵欠費之嫌。
過 去 欠 繳 額、每月保
保費呆帳 險費收入
之提列及 能於j 個
轉銷相關 月內收回

12
數據。 之比率
全民健 協助全民 對全民健 1.分析全民健保監理委員會在監理
康保險 健康保險 康保險監 功能、角色及定位上面臨之問題及建
財務監 監理委員 理功能的 議。
理與稽 會建立一 瞭解、全民 2.深入探討全民健康保險營運面之
核作業 套可行的 健康保險 各有關保費收入及醫療支出之問題。
研究。 財務監理 營運面之 3.深入探討健保局會計處理及財務
與稽核作 財務現況 表達上之各項問題。
業制度。 興問題、健 4.資金管理問題與建議。
吳琮璠
保局現行 5.建議定期提報監理單位營運面之
劉順仁
財務表達 報表。
(1998)
問題、資金 6.建立短期預警、安全性能力及長期
管理問題、 預警三方面全民健康保財務預警制
財務預警 度。
指標之實 7.實際測試分析所設計之各項財務
際測試分 預警指標。
析、財務稽 8.對全民健保收入面與支出面財務
核重點與 稽核重點與稽核程式提出建議,並以
稽核程式 實際範例具體說明其應用。
全民健 針對欠費 家戶所得、 1.教育程度愈高或家庭所得愈高,欠
保費季 較嚴重的 教育程度、 費的可能性較低;第 6 類被保險人男
繳、半年 第 6 類地 健保費轉 性與年紀輕的被保險人欠費機率增
繳可行 區人口, 帳率 加;第 2、3 類主要的影響因素是家庭
方案研 以及由工 所得。
究 會、農、 2.年紀愈輕,辦理自動扣款的意願愈
漁、水利 差;教育程度高或家庭所得高的第 6
會代收保 類被保險人,辦理自動扣款的機會高;
費的第 2 住鄉鎮的第 2、3 類受訪者比住市區有
葉秀珍
及第 3 類 較高機率去辦理。
(1999)
被保險 3.影響欠費的因素與是否辦理金融機
人,進行 構自動扣款,存在關聯性。3.50%已實
問卷調 際採用保費預收的第 2、3 類被保險人
查,共寄 中,如改由健保局直接預收,第 2 類
出約 支持度上升 13.9%,第 3 類支持度則
5,500 小降 2.7%;如預收享有優惠,則兩類
份。 支持度分別高達 86.0%及 85.5%,而第
6 類支持度由 40.5%上升到 60.1%,整
體支持度為 68.2%。
全民健 欠費之造 社會面、制 呆帳之形成,主要歸因於社會面與制
保呆帳 成,以及 度面因素: 度面的影響,欠費民眾多數由失業與
形成原 欠線的保 對健保價 經濟困難所造成;而欠費現象又多由
因分析 費是否能 值之認知、 於保費負擔方式的制度所致,故預防
及預防 夠經過催 失業率、經 呆帳形成最重要根本因素,在制度面
林國明 措施 線程式而 濟困難組 的變革,讓民眾有繳交保費的能力,
(2000) 回收。 織面因素: 形成欠費時,有償還欠費的能力。長
重複寄發 期而言,應研議取消以職業身分為基
不正確催 礎的保費負擔方式;短期而言應降低
繳單至錯 第六類保險費負擔,對失業勞工保費
誤通訊地 給予全額補助,協助經濟弱勢者提供
址。 紓困方案。
全民健 各健保區 投保單位 中區分局第一類被保險人平均投保
保第一 之第一類 特性〔第一 金額最低的可能原因:
類被保 被保險人 類被保險 1.單位員工平均全年薪資為各分局
黃仁德
險人投 平均投保 人平均投 最低,尤其以彰化縣為各縣市最低,
(2000)
保金額 金額不同 保金額、失 台中縣為第四低。製造業員工薪資最
的區域 的原因所 業率、平均 低。
差異性 在。 每人國民 2.多為大家庭,且家庭所得收入者的
13
分析 所得(元)、 負擔較重,而有誘因透過加入工會等
就業人口 方式轉移投保身份,或低報投保薪資
(勞動參與 以逃避高額保費。
率%,男; 3.製造業單位比例最高且規模較小,
女 ; NE) 、 容易發生投保單位低報被保險人投
各行業經 保金額的現象。
常性薪資 4.第四目被保險人所佔比例最高且
成長率〕、 所得偏高,較可能發生低報投保金額
非法經濟 的情形
活動量(攤 5.非法地下經濟活動嚴重。
販)、全戶 6.攤販業家數多且規模最大。
綜合所得 7.攤販從業人員收入最高,從事攤販
稅資料 業而逃漏的租稅,或是逃漏的健保投
保金額當然也就相對較大。
8.綜合所得稅中薪資所得申報核定
金額為最低,尤其彰化縣、台中縣及
南投縣的薪資所得偏低情況較為嚴
重。
建議:
1.投保金額應考慮薪資所得以外的
其他所得收入。
2.政府應對租稅及管制政策作全盤
檢討,以降低地下經濟活動及攤販業
的擴張,使業者能依照應有的投保身
份與薪資申報投保金額。
3.應拉近各類別被保險人的負擔比
例,減少其移轉身份投保的誘因。
4.應加強對製造業投保單位及第四
目被保險人的查核。
應收保 利用現有 平均眷口 依據應收保險費收入之組成,探討其
險費收 健保開辦 數、計費眷 個別影響因素;運用自我迴歸分析、
入預估 後之樣本 口數、平均 非線性聯立方程式、馬可夫分析,評
模型之 資料。 投保金額、 估各種因素差異對應收保險費收入
建立 保險費率、 之影響。所預估的模型與健保局原有
黃旭男
失業率、農 使用的 ARIMA 模型做一比較,並界定
(2002)
林漁牧業 收入監控指標警訊符號,以作為未來
就業人數、 管理控制之用。
工業就業
人數、應收
保險費
全民健 探討全民 公司(行 欠繳保費的四個因素構面,顯示欠費
康保險 健康保險 號)基本資 與未欠費公司(行號),對於可能導
保險費 公司行號 料(含,行 致欠費的因素感受,具有差異性。但
欠繳因 欠繳保險 業別、主要 對公司(行號)基本資料之不同、與
素之分 費的狀 營業區域、 對健保局欠費催繳作業處理之程度,
析及建 況,調查 營業額、存 及催繳人員態度,則未欠費公司(行
立防範 分析欠繳 在期間、投 號)認為最可能導致欠費。這經與實
黃錫深
機制之 的相關原 保人數)、 務狀況相較,似乎比較接近。
張春雄
探討 因。並特 導致欠費
曾惠明
別針對全 的相關變
(2002)
民健康保 項(含,公
險收入面 司(行號)
中,投保 本身變動
人數最多 因素、公司
的公司行 (行號)財
號(公家 務狀況、全
單位除 民健保法
14
外)
,探討 規之規定、
導致欠繳 及欠費狀
全民健康 況與處
保險保險 理)、欠費
費的相關 月數、欠費
因素。 催繳狀況、
公司(行
號)對於欠
費催繳作
業的觀點、
與對於欠
費催繳人
員態度的
感受
全民健 利用現有 欠費率、應 第 1、3、5、7 年之總體欠費率之平
保保險 健保開辦 收保險費、 均值,分別為 2.32%、1.67%、1.50%、
費之呆 後之樣本 實收保險 1.44%,1-3 年之平均值減少 0.65%,
帳率推 資料。 費、呆帳率 3-5 年間減少 0.17%,5-7 年間只減
呂麗珠
估 少 0.06%,顯示以 5 年欠費率推估呆
(2003)
帳率水準之穩健與可行性。又用 5 年
欠費金額之比率推估呆帳率,則預期
6 個月之欠費金額中,將有 49.99%
以上會成為呆帳而收不回來。
全民健 以隨機抽 對規定的 1.公司對於全民健康保險法規的認
保局欠 樣,電話 認同度、欠 同與欠費處理方式,是造成欠繳保險
繳保費 訪談 50 費月數、欠 費之可能原因;公司的資本額越高,
曾惠明 催收作 個有效樣 費金額、欠 及公司存在期間越長,其對健保局欠
張春雄 業反應 本。 費率 費催繳作業的滿意度越低。
黃錫深 調查分 2.公司認同欠費狀況及處理方式是
(2003) 析-以 造成欠繳保險費的可能原因,公司資
民營公 本額越高,及已欠繳健保費月數越
司行號 多,對健保局欠費催繳人員的滿意度
為例 越低。
Data 利用現有 保險類別 1.年齡及眷口數影響轉帳意向不高。
Mining 健保開辦 屬性、被保 2.欠費少、年資深者較具轉帳意向。
在鼓勵 後之樣本 險人性別、 3.Data Mining 實施效益大。
莊榮霖
轉帳繳 資料。 戶籍地、年
紀慧媛
交健保 齡、眷口
黃麗如
費方案 數、參加六
(2003)
上的應 類年資、榮
用 民註記、欠
費月份數
建立全 引用行政 應收保費 Box-Jenkis 的 ARIMA 時間數列分析
民健保 院主計處 (費用年 之模型及 Box-Tiao 的介入分析模型
應收保 等相關單 月)、平均 與轉換函模型,在實證資料分析中展
江權富 費預測 位相關單 眷口數、眷 現良好的分析能力,對於資料方特性
馬作鏹 模型― 位資料及 口數上限、 以及型態的掌握完整。
(2004) 時間數 健保局每 經濟成長
列 ARIMA 月應收保 率、人口月
模型之 費收入檔 增加率、失
應用 資料。 業率
我國全 以健保財 各類目投 一、健保雙漲政策的制定,因其本身
民健康 務收入面 保金額及 所具的特質係屬於攸關全體國民利
呂家鑾
保險財 為主軸, 負擔比率 益,參與的利害關係人所擁有的資源
魯炳炎
務收入 藉以探究 之公平性 不一,且屬於權力不平衡的機制。
(2004)
面之研 造成健保 與適切性 二、從各項論證檢視有關調整費率與
究―以 財務危機 研究、地方 部分負擔的合宜性,可分成兩方面論
15
健保雙 的因素, 政府積欠 述:
漲為例 將研究焦 健保保險 (一)就調漲費率之合法性。
點鎖定健 費補助款 (二)調漲部分負擔之原意在導正使
保開辦以 之爭議 用者付費之觀念,並避免醫療資源浪
來的第一 費及落實轉診制度。
次費率調 三、不管是從訪談結果或政策論證檢
漲及同步 視均可以深切明白,政治力之幹預應
的部分負 退出。
擔調整。 四、從健保雙漲政策的制定過程中可
以得知,健保監理委員會的功能不
彰,且形同虛設。
人口結 利用 醫療保健 結果:在控制其他因素後,至 2025
構變化 1996 至 支出佔 GDP 年人口數增加將顯著增加醫療申報
對健保 2004 年 比率、平均 點數,醫療供給因素增加亦將顯著增
制度的 醫療服務 每人國民 加醫療申報點數,然人口老化對醫療
衝擊研 資料。 所得(元)、 申報點數則無顯著影響。
究 人口成長 結論:本研究結果雖顯示人口結構變
(老化,65 化對於醫療費用影響有限,但因青壯
歲以上)趨 年人口數相對減少,故對於健保財源
勢、0 歲平 籌措上,仍為一項隱憂。因此,建議
均餘命(兩 健保局除仍需控管病床數、醫師數
性、男、 外,亦需定期檢討給付項目範圍及調
楊銘欽 女)、就業 高部分負擔金額或比率,以降低健保
(2004) 人口(勞動 財務負擔。
參與率
%(男;女,
NE)、各行
業經常性
薪資成長
率、實質國
內生產毛
額(GDP)、
家庭收支
調查(家戶
所得)
影響加入 2002 及 性別、年齡、1.失業者的未納保率遠高於就業者,
台灣全民 2004 年中 婚姻狀態、教 而非勞動力加入全民健保情況則有很
健保的社 央健保局 育程度、失業 大的差異
會經濟不 的「承保資 長度、人口 2.邊際勞動相較其他勞動力較易被排
均等要素 料檔」及行 數、工作狀 除在健保體系之外
林季平 政院主計 態、與戶長關 3.總體社會經濟環境對個人是否加入
(2008) 處「人力運 係、經濟成長 健保有顯著影響,其中以、經濟成長
用調查」為 率、就業成長 率、就業成長率、失業率、及醫療補
主體。 率、失業率、助佔市政府預算決算比率影響最為顯
醫療補助佔 著。
市政府預算
決算比率
以所得總 行政院主 保費佔總所 1.將健保保費費基若由一代健保的
額為費基 計處的「台 得比例、家戶 「薪資所得」改成二代健保「家戶所
徵收健保 灣家庭收 人口數、家戶 得總額」,即使是在保費上下限非常
費對所得 支調查」民 所在地的虛 有利於富有家戶的情況下,仍然達到
張凱鈞 分配面的 國 88 年到 擬變數、戶長 改善原先保費過度的累退分配之目
(2010) 衝擊 民國 95 年 職業別、家戶 的。
的資料庫。 擁有電腦數、2.以家戶所得總額為保費費基且保費
家戶所得、教 無上下限的情況將可以讓保費達到最
育年限 累進的分配,隨著保費上限的降低,
保費的分配將趨向累退。
16
3.以家戶所得總額為健保保費費基,
縱使保費之上限有利於富有家戶,仍
然可以改善同樣所得分位內,保費負
擔落於薪資階級的水帄不公帄狀況。
影響健保 2001 年 1 老年人口數 1.當期老年人口數變動率、保險對象
財務缺口 月至 2013 變動率、保險 數變動率、落後一期死亡率及落後10
因素之研 年 12 月健 對象數變動 期的病床變動率對健保財務缺口有顯
究 保相關月 率、落後一期 著的負相關
資料,建立 死亡率及落 2.當期薪資變動率對健保財務缺口有
李淑華
在現金基 後 10 期的病 顯著的正相關。
(2015)
礎會計下, 床變動率、當 3.GDP成長率、出生率及物價指數年增
影響健保 期薪資變動 率等總體經濟變數對健保財務缺口則
財務缺口 率、GDP 成長 無顯著的影響。
因素的複 率、出生率及
廻歸模型 物價指數

17
第三章 研究設計

第一節 研究架構

本研究旨在探討第一類投保單位產生欠費之特性分析,資料來源擷取健保資

料倉儲中,保費年月 2015 年 1 月至 2015 年 12 月第一類投保單位基本資料,以

及該區間第一類投保單位財務資料。

依據「全民健康保險保險費及滯納金欠費催收暨轉銷呆帳作業要點」第 5 條規

定,投保單位欠費金額累計在新台幣五千元以下得不移送行政執行,故針對已欠

費的投保單位,只篩選累計欠費金額達 5,000 元以上之第一類投保單位作為欠費

單位資料。擷取資料後,再以隨機抽樣(Ramdom Sampling)方式,以 1:2 的比例(有

欠費單位:未欠費單位)作為建立模型之樣本。

取得樣本資料後,進行資料前置處理作業,將投保單位的各月資料整併,並

新增資料探勘所需之屬性欄位,並將屬性值作資料離散化處理,再以投保單位歸

戶後留下唯一值。最後利用決策樹建立模型以及羅吉斯迴歸分析,找出影響投保

單位欠費的屬性,並比較兩種分析模型之預測能力。

18
資料擷取 健保倉儲資料
資料區間:2015/01~2015/12

資料清理 資料離散化處理

隨機抽樣 樣本數:76,800 筆

摘要統計 決策樹分析 羅吉斯迴歸


分析
C4.5 模型

勝算比(odds ratio)
模型比較
(1)誤分類率
(2)ROC 曲線
(3)累積增益圖

研究結果探討

圖 4 研究架構圖

19
第二節資料來源

本研究以健保署資料庫為研究材料,因健保署倉儲資料庫轉檔頻率為半年一

次,為取得較完整之年度資料,以2015年為研究區間,探討2015年1月至12月投保

單位健保費的繳納情形。

首先透過專案申請取得保險對象資訊檔、投保單位主檔以及單位財務應收資

料檔等三個檔,擷取欄位如表8至表10。

表8 保險對象資訊資料表欄位一覽表

保險對象資訊檔

序號 中文欄位名稱

1 保費計費年月

2 保險對象健保 ID

3 出生日期

4 被保險人健保 ID

5 投保狀態

6 業務組別

7 投保單位代號

8 類目屬性

9 身分別

10 投保金額

11 被保險人註記

12 行業別代碼

表9 投保單位主檔資料表欄位一覽表

投保單位主檔

序號 中文欄位名稱

1 業務組別

2 投保單位代號
20
3 保費計費年月

4 成立生效日

5 註銷生效日

6 證照核准成立日

7 證照核准停歇業日

8 異動生效日

9 類目屬性

10 行業別

11 負責人健保 ID

12 註銷原因

13 暫停迄日

24 投保狀態

表10 單位財務應收資料表欄位一覽表

單位財務應收資料檔

序號 中文欄位名稱

1 保費計費年月

2 投保單位代號

3 業務組別

4 應收別

5 應收金額

6 已銷帳金額

7 繳納期限

8 繳納日期

9 轉銷呆帳日期

另由全民健康保險研究資料庫網站下載代碼說明文件,取得投保狀態別、類

目屬性別、身分別、應收別代號與型態別名稱、業務組別等,專案申請取得之投

21
保單位及保險對象相關檔案及擷取資料的條件如下:

一、保險對象資訊檔資料表:

(1) 保費年月:2015年1月至2015年12月。

(2) 類目屬性:第1碼為「1」的第一類投保單位。

(3) 投保狀態:1-「在保」的被保險人資料

以上共14,272,114筆資料。

二、投保單位主檔資料表:

(1) 保費年月:2015年12月。

(2) 類目屬性:第1碼為「1」的第一類投保單位。

以上共2,082,022筆資料。

三、單位財務應收資料表:

(1) 保費年月:2015年1月至2015年12月。

(2) 類目屬性:第1碼為「1」的第一類投保單位。

(3) 應收別:「10」一般保費的應收資料。

(4) 欠費金額:無欠費單位擷取欠費金額等於0;有欠費單位只擷取2015年欠費總

金額大於等於5000。

如投保單位有多筆資料,則以投保單位代號歸戶,共919,028筆。

22
第三節 資料變項定義

本研究依據健保資料倉儲欄位,並藉由研究者之實務經驗,設計 5 項可能影

響投保單位欠費之屬性變數,作為研究分析之自變項。

首先,與投保單位基本資料相關之變項為規模別、行業別及負責人年齡,而

與投保單位營運狀態相關之變項為營運期間長短以及單位受僱者投保金額,並將

屬於類別屬性的變數作以下定義:

一、 規模別:

(1) 5 人以下:0-5 人。

(2) 小規模:6-30 人。

(3) 中規模:31-100 人。

(4) 大規模:101 人以上。

二、 營運期間長短:

營運期間係為投保單位成立生效日至 2015 年 12 月之年數。

(1) 未達 1 年:成立時間不超過 12 個月。

(2) 1-3 年:成立時間超過 1 年,未達 3 年。

(3) 3-10 年:成立時間超過 3 年,未達 10 年。

(4) 10 年以上:成立時間超過 10 年。

三、 行業別:

依據行政院主計總處制定之中華民國行業標準分類(如表 11)

23
表 11 中華民國行業標準分類(第 10 次修訂版)

行業別

1 不動產及住宅服務業

2 公共行政及國防;強制性社會安全

3 支援服務業

4 用水供應及污染整治業

5 住宿及餐飲業

6 批發零售業

7 其他服務業

8 金融及保險業

9 專業、科學及技術服務業

10 教育業

11 出版、影音製作、傳播及資通訊服務業

12 農、林、漁、牧業

13 運輸及倉儲業

14 電力及燃氣供應業

15 製造業

16 營建工程業

17 醫療保健及社會工作服務業

18 藝術、娛樂及休閒服務業

19 礦業及土石採取業

四、 負責人年齡

(1) 25 歲以下: 0-24 歲

(2) 25-44 歲

(3) 45-64 歲。

(4) 65 歲以上。

五、 受僱者投保金額總額

包含投保單位裡身分別為「2」一般及「6」育嬰之被保險人。
24
第四節 資料前置處理

擷取本章第一節所述之健保倉儲資料中的三個資料表後,因擷取條件各有不

同,且本次研究所使用之屬性需從不同資料表整併取得,故以投保單位代號作為

資料整併的共同值互相串聯,整併後再作資料離散化處理,並以隨機取樣(Ramdon

Sampling)方式取得樣本資料,作為建立模型所用。

一、 資料離散化

(1) 規模別

利用保險對象資訊檔,以投保單位歸戶,計算 2015 年每個月投保單位

在保中的被保險人人數,再計算單位全年平均被保險人人數,並依上一節資

料變項定義作資料離散化處理。

(2) 負責人年齡

利用投保單位主檔中的負責人 ID 與保險對象資訊檔的被保險人健保 ID

串聯,藉此可擷取負責人的出生日期,再用函數運算負責人截至 2015 年 12

月 31 日之年齡,寫入「年齡」欄位,再依上一節資料變項定義作資料離散

化處理。

(3) 投保單位營運期間長短

利用投保單位主檔中成立生效日以及註銷生效日之時間差距,作為投保

單位營運時間,如註銷生效日為空值,表示至保費年月 2015 年 12 月為止,

投保單位營運仍存續中,則以成立生效日與 2015 年 12 月 31 日之時間差距

作為投保單位營運時間(以年為單位)。得到投保單位營運時間(年)之後,再

依上一節資料變項定義作資料離散化處理。

(4) 單位受僱者平均投保金額

利用保險對象資訊檔,以投保單位歸戶,並篩選身分別為一般及育嬰之

保險對象(皆屬於在保中的受僱者),並計算被保險人之投保金額平均值,得

到 2015 年 1 到 12 月各月受僱者投保金額平均值資料後,再將各月平均投保

25
金額加總計算全年平均值,作為該投保單位受僱者平均投保金額,每個投保

單位只有 1 個值。

二、 隨機抽樣(Random Sampling)

依據下表 12「投保單位欠費情形摘要表」,以全體投保單位繳納資料來看,有

欠費的單位佔全部投保單位不超過 5%,故投保單位產生欠費係屬於稀有事件。

本研究在建立模型前,採用(有欠費單位數:未欠費單位數)=(1:2)隨機抽樣方式擷

取研究樣本。
表 12 投保單位欠費情形摘要表
欠費註記 屬性(變數) 家數 佔率(%)
7
未欠費 受僱者投保金額 760,152 96.93
營運期間 877,403 96.19
負責人年齡層 877,403 96.19
規模別 877,403 96.19
行業別 877,403 96.19
有欠費 受僱者投保金額 24,094 3.07
營運期間 34,776 3.81
負責人年齡層 34,776 3.81
規模別 34,776 3.81
行業別 34,776 3.81
有欠費的投保單位為 25,600 家,依 1:2 隨機抽樣方式,擷取未欠費單位

51,200 家,全部樣本數為 76,800 家。

___________________________________

7
受僱者投保金額所計算之家數不包含無受僱者(只有負責人在保)之一人投保單位。
26
第五節研究方法

本研究使用 Quilan 建立的決策樹 C4.5 演算法及羅吉斯迴歸兩種方式來估計

特徵方程式,並比較決策樹與羅吉斯迴歸兩者之配適與預測能力,利用誤分類率、

ROC 曲線以及累積增益圖作為模型衡量指標。以下分別介紹決策樹、羅吉斯迴歸

以及本研究採用之模型衡量指標。

一、 決策樹

(1) 概念

決策樹是用來處理分類問題的樹狀結構,使用方法為:選出分類能力最好

的屬性做為樹的內部節點,將內部節點的所有不同資料產生出對應的分支,遞

迴重複上面的過程直到滿足終止條件,ID3、C4.5 、C5.0、CHAID 及 CART 是決

策樹演算法的代表。

(2) 決策樹圖示

圖 5 決策樹示意圖(來源:維基百科)

1. 每個內部節點表示一個評估欄位

27
2. 每個分枝代表一個可能的欄位輸出結果

3. 每個樹葉節點代表對應從根節點到該葉節點歷經的「路徑」所表示之對

象的「值」

(3) 欄位屬性

1. 分類樹:分析是當預計結果可能為離散類型(例如三個種類的花,輸贏

等)使用的概念。可分割出不同值域的分支,每個分支的表示亦可以以

子集合的型態表示。

2. 迴歸樹:分析是當值域結果可能為實數(例如房價,患者住院時間等)

使用的概念。可採用離散化的方式,將資料分割成許多區間,但是仍需

要保持資料的順序性。

3. CART 分析結合上述二者的概念。CART 是分類及迴歸樹(Classification

And Regression Trees)的縮寫。

(4) 常用的屬性選擇指標

1. 資訊增益 (Information Gain):使用的演算法有 ID3、C4.5、C5.0。

2. 吉尼係數 (Gini Index) :使用的演算法有 CART。

本研究使用決策樹中C4.5演算法,由J.Ross Quinlan設計的C4.5演算法,是

利用資訊增益率(Information Gain Ratio)作為決定分枝變數的準則,為多元枝

決策樹,常用於處理類別型資料。首先,考量子資料庫(或稱子資料集合)切割時

所產生的切割資訊量(Split Information),其定義如下:

(i)=–

分岔準則的目的是用以檢視使用某變數作為分岔變數時,母節點與子節點總

和的純淨度變化量,能使純淨度提升越多的變數就是有效變數,基於這項目的,

資訊增益率(InformationGainRatio)的公式定義如下:

28
InformationGainRatio(A)=

假設給定一個節點A,依據上列公式計算的結果,徹底搜尋並選擇具有最大資

訊增益率的分枝變數,節點的資訊增益率>0,則繼續分枝,直到所有節點的資訊

增益率<0。

二、 羅吉斯迴歸

(1) 概念

羅吉斯迴歸類似線性迴歸模式。迴歸分析是描述一個依變數與一個或多個預

測變數之間的關係,然而一般迴歸分析時,依變數與自變數通常均為連續變數,

但羅吉斯迴歸所探討結果的依變數是離散型,特別是其分類只有二類(例如“是與

否”、“同意與不同意”、“成功與失敗”)時。利用羅吉斯迴歸的目的是在於建

立一個最精簡和最能配適(fit)的分析結果,而且在實用上合理的模式,建立模式

後可用來預測依變數與一組預測變數之間的關係。

(2) 模型假設

羅吉斯迴歸的基本假設與其他多變量分析之假設不同,因為它不需要假設分

配類型,在羅吉斯分配中,自變數對於依變數之影響方式是以指數的方式來變動,

即此意味著羅吉斯迴歸無需具有符合常態分配的假設,但是如果預測變數為常態

分配的話,結果會比較可靠。在羅吉斯迴歸分析中,自變數可以是類別變數

(Category Variable),也可以是連續變數。

(3) 羅吉斯迴歸模型

令 p 表示某種事件發生的機率(介於 0~1 之間),它受因素 x 的影響,即 p 與

x之關係以及示意圖形如圖 6:P=

29
圖 6 羅吉斯迴歸示意圖

當 P 接近 0 時表示事件發生的機會很小,接近 1 時表示事件發生的機會很

大 。

𝑝
羅吉斯迴歸的關鍵來自於勝算(Odds)( )的觀念,亦即「自變項增加
1−𝑝

一個單位,依變項有發生狀況(習慣稱為 Event)相對於沒有發生狀況(Non-event)

的比值」,這個比值就是「勝算」。
𝑝
令 p 為發生事件的機率,(1-p) 為不發生事件的機率。勝算為( )= ,
1−𝑝

兩邊取自然對數後可得到羅吉斯迴歸式:

𝒑
𝒍𝒏(𝟏−𝒑)= f(x) =

勝算比(Odds Ratio)則為兩個變數的勝算相除後的比值。

本研究利用所選擇的單位屬性作為自變項,是否產生欠費為依變項,計算勝

算比,找出對於事件具有顯著影響的屬性。

三、 模型比較

(1) 誤分類率(Error Rate)

誤分類率是指模型錯誤預測有欠費(Positive)和未欠費(Negative)資料的比

率,在 P 值=0.5 的情況下,如果測試集的狀態是已欠費,模型預測是未欠費(p<0.5)

則說明模型對這項數據的預測是錯誤的,已欠費數據也是同理。模型對已欠費和

30
未欠費預測錯誤的數量與所有預測數量的比率就是誤分類率,可用下表 13 混淆矩

陣(Confusion Matrix)來說明真實狀況與預測的結果。還有一種計算方法就是(1-

準確率)即等於誤分類率。以下為具體的計算公式:

𝐅𝐏+𝐅N
誤分類率(Error Rate)=TP+FP+TN+FN =1-準確率(Accuracy)

表 13 混淆矩陣

預 測 結 果 (Predict)

真 陽性(True) 陰性(False)

狀 真陽性 偽陰性
況 陽性
(TP) (FN)
(Actual)

偽陽性 真陰性
陰性
(FP) (TN)

名詞解釋︰

TP
1. 敏感度(sensitivity): (正確判斷出結果的機率)
TP+FN

T𝐍
2. 特異度(specificity):T𝐍+F𝐏

𝐅𝐏
3. 偽陽性率(False Positive Rate;FPR):T𝐍+F𝐏(沒發生被判斷為有發生的機

率;類型Ⅰ誤差)

𝐅𝐍
4. 偽陰性率(False Negative Rate;FNR):TP+FN(有發生被判斷為沒發生的機

率;類型Ⅱ誤差)

TP+TN
5. 準確度(Accuracy):TP+FP+TN+FN(事件被正確判斷為有發生或沒發生

的機率和)

(2) ROC 曲線(ROC Curve)

ROC 曲線圖 形 的 縱 軸 (y-axis)為 真 陽 性 率 , 又 稱 為 敏 感 度 ; 橫 軸

31
(x-axis)為 偽 陽 性 率 , 以 (1-特 異 度 )表 示 , 而 敏 感 度 為 將 結 果 正 確 判 斷

為陽性的機率,特異度係將結果正確判斷為負向或陰性的機率。當指定

一 個 分 界 點 (cut-point)來 區 分 檢 驗 的 陽 性 與 陰 性 時,這 個 分 界 點 會 影 響

到診斷工具的敏感度及特異度。在醫學上,敏感度表示有病者被判為陽

性的機率,而特異度表示無病者被判為陰性的機率。在曲線上的任何一

個 點 都 會 對 應 到 一 組 敏 感 度 與 (1-特 異 度 ), 而 敏 感 度 與 特 異 度 會 受 到 分

界點移動的影響。

ROC 曲線在判別時,會以對角線為一個參考線,若是 預測模型的 ROC 曲

線剛好落在對角的參考線上,則表示 此模型對於結果的預測沒有鑑別性。

若是 ROC 曲線愈往左上方移動,表示 此模型對於結果的敏感度愈高,且偽

陽性率愈低,亦即此模型的鑑別力較佳,而最靠近左上角的的點 (0,1) 是

錯誤歸類最少的切點,其敏感度是最大的 ,且偽陽性率(1–特異度)是最小

的。

ROC 曲線結合了敏感度和特異度兩個指標,除了判別某一 預測模型的準

確度外,還可更進一步地建議 預測模型的最佳切點(best cut-off point),

一般常用尋找切點的方法爲 Youden index,即將每一個切點的敏感度與特

異度相加,並取最大值,即為最佳切點。

一 般在判別 預測模型 的好壞 時,除了看曲 線的圖形之外,也可 以利用

曲線下的面積(Area Under Curve; AUC)來判別 ROC 曲線的鑑別力,AUC 數

值的範圍從 0 到 1,數值愈大愈好。以下為 AUC 數值一般的判別規則:

AUC=0.5 (no discrimination 無鑑別力)

0.7≦AUC≦0.8 (acceptable discrimination 可接受的鑑別力)

0.8≦AUC≦0.9 (excellent discrimination 優良的鑑別力)

0.9≦AUC≦1.0 (outstanding discrimination 極佳的鑑別力)


32
(3) 累積增益圖 (Cumulative Lift Chart)

𝑃(𝐶𝑙𝑎𝑠𝑠𝑖 |𝑠𝑎𝑚𝑝𝑙𝑒)
增益=
𝑃(𝐶𝑙𝑎𝑠𝑠𝑖 |𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛)

P(classi|sample):抽取樣本中 i 類別所佔的百分比

P(classi|Population):全部母體中 i 類別所佔的百分比

其中 i 類別所佔的百分比,指的是選出 i 類別的個數與全部 i 類別個數的比

值,也就是說增益值是使用分類器模型預測出來的目標客群與隨機抽到目標客群

的機率的比值,當沒有使用模型時,增益值等於 1(沒有增益),當增益值大於 1

時,代表預測結果比隨機發生更好。

累積增益圖(範例如圖 7)的 X 軸為依信賴度降冪排序(如 score、回復率等較

高者依序排列)的樣本累積百分比,Y 軸為平均增益值,在比較不同模型之預測效

果時,可設定同樣百分比下,預測出來的結果與隨機模型的比值何者較高。

圖 7 累積增益圖示意圖

33
第四章 研究結果

本研究針對全民健保第一類投保單位之基本資料及營運狀況與是否產生欠

費之間找出影響因素,以資料探勘及統計方式利用健保資料庫中的資料進行分析。

結果分述以下四節:第一節為摘要統計,第二節為決策樹分析,第三節為羅吉斯

迴歸分析,第四節為模型比較。

第一節 摘要統計

本研究選擇影響投保單位有關之類別變項為規模別、行業別、營運期間長短

以及負責人年齡層,經次數分配,統計結果整理於表 14 第一類投保單位屬性摘

要統計一覽表(n=76,800)。

就規模別而言,以全部樣本來分析,「5 人以下」小型單位佔多數(80.36%);

在欠費單位樣本中,「5 人以下」亦佔多數(87.57%)。就行業別而言,以全部樣本

來分析,「批發及零售業」佔多數(34.83%);在欠費單位樣本中,「批發及零售業」

亦佔多數(41.46%)。就營運時間長短來而言,「10 年以上」佔最多數(41.19%);

在欠費單位樣本中,「3~10 年」則佔多數(41.91%)。就負責人年齡層而言,「45-64

歲」佔多數(57.92%);在欠費單位樣本中,「45-64 歲」亦佔多數(48.36%)。

綜上,有欠費的投保單位以單位規模在 5 人以下,營運期間 3~10 年,負責

人年齡介於 45-64 歲且行業別為批發及零售業之投保單位佔多數。

34
表 14 第一類投保單位屬性摘要統計一覽表

未欠費樣本 有欠費樣本 全部樣本


屬性(變項)

家數 佔率(%) 家數 佔率(%) 家數 佔率(%)


規模別 n=51200 n=25600 n=76800
5 人以下 39300 76.76 22419 87.57 61719 80.36
大規模 541 1.06 29 0.11 570 0.74
小規模 9938 19.41 2988 11.67 12926 16.83
中規模 1421 2.78 164 0.64 1585 2.06
行業別
不動產及住宅服務業 1041 2.03 596 2.33 1637 2.13
公共行政及國防;強制性社
328 0.64 5 0.02 333 0.43
會安全
支援服務業 801 1.56 760 2.97 1561 2.03
用水供應及污染整治業 257 0.5 251 0.98 508 0.66
住宿及餐飲業 1376 2.69 1232 4.81 2608 3.4
批發及零售業 16134 31.51 10613 41.46 26747 34.83
其他 1 0 1 0 2 0
其他服務業 14249 27.83 2854 11.15 17103 22.27
金融及保險業 562 1.1 165 0.64 727 0.95
專業、科學及技術服務業 2541 4.96 1461 5.71 4002 5.21
教育業 1299 2.54 507 1.98 1806 2.35
出版、影音製作、傳播及資
753 1.47 602 2.35 1355 1.76
通訊服務業
農、林、漁、牧業 384 0.75 409 1.6 793 1.03
運輸及倉儲業 707 1.38 292 1.14 999 1.3
電力及燃氣供應業 19 0.04 6 0.02 25 0.03
製造業 5596 10.93 2131 8.32 7727 10.06
營建工程業 3225 6.3 3342 13.05 6567 8.55
醫療保健及社會工作服務業 1691 3.3 118 0.46 1809 2.36
藝術、娛樂及休閒服務業 193 0.38 204 0.8 397 0.52
礦業及土石採取業 43 0.08 51 0.2 94 0.12
營運期間長短
10 年以上 23691 46.27 7940 31.02 31631 41.19
1~3 年 9416 18.39 6409 25.04 15825 20.61
3~10 年 16313 31.86 10728 41.91 27041 35.21
未達 1 年 1780 3.48 523 2.04 2303 3
負責人年齡層
25-44 歲 12939 25.27 11591 45.28 24530 31.94
45-64 歲 32101 62.7 12380 48.36 44481 57.92
65 歲以上 5959 11.64 1194 4.66 7153 9.31
未滿 25 歲 201 0.39 435 1.7 636 0.83

35
第二節 決策樹分析

一、研究工具及參數設定

本研究使用 SAS Visual Analytics 軟體中,資料探勘模式進行決策樹分析。

建立模型所輸入的預測工具有 5 個變項:行業別、規模別、負責人年齡層、營運時

間長短以及受僱者投保金額。回應的結果為欠費註記(owe_mark)Y(有欠費)。其中

行業別、規模別、負責人年齡層、營運時間長短為類別型變項,受僱者投保金額

為數字型變項,受僱者投保金額因有些投保單位只有負責人 1 個人加保,並無受

僱者,故此欄位為空值,而決策樹分析並不受遺漏值影響,但為了與羅吉斯迴歸

模型作比較,故建立決策樹模型仍排除 15,360 筆有遺漏值之單位資料,只針對

61,440 筆樣本進行分析。

建立模型的參數設定,本研究因每個變項都非二元的變數,又避免分支太多

過於複雜,所以指定分割節點時允許分支的最大數目為 3 支,決策樹的最大深度

有 5 個層級,至於每個節點的分葉大小為 10 筆資料,也就是分葉(終點)節點中允

許觀測的最小數目為 10,少於 10 筆不允許成為 1 個節點。而修剪純度(Pruning

Severity)設定為 80(最高為 100),提高修剪純度值,將獲得更小更簡潔的決策樹,

而且允許重複使用同一個變項作為分割節點的變項。

二、決策樹結果及規則

決策樹結果使用視覺化方式呈現(如圖 8),圖中綠色分葉表示該節點中的投

保單位,有欠費的單位佔所有單位比率超過 50%,為本研究之標的分葉,共有 5

個終點分葉符合結果,而藍色分葉表示該節點中的投保單位超過 50%為未欠費投

保單位。

分析此決策樹模型之規則,根節點為負責人年齡層,最大分支為 45-64 歲,

共 36,508 個單位。而在最終結果為有欠費單位超過 50%的情形下,其產生的節點

規則整理如下表 15。再根據以上規則,計算這 5 個節點中,有欠費及未欠費的單

位數及佔率,如下表 16,可發現有欠費單位占率最高的為負責人年齡層為 65 歲

36
以上,並且行業別為營建工程業及運輸及倉儲業,單位營運時間為 3 年以下(1~3

年及未達 1 年二個類別歸類在一起),佔所有符合以上條件投保單位的 76.92%;

而負責人年齡層為 44 歲以下(25-44 歲及未滿 25 歲二個類別歸類在一起),行業

別為批發及零售業,單位營運時間長短介於 1 年至 3 年間,且受僱者投保金額小

於 35,444 元,有欠費單位佔所有符合以上條件投保單位的 55.53%;負責人年齡

層為 44 歲以下,單位規模在 5 人以下,行業別為除了批發及零售業及其他服務業

外之所有投保單位,單位營運時間長短介於 1 年至 10 年間(1~3 年及 3~10 年二個

類別歸類在一起),則有欠費單位佔所有符合以上條件投保單位的 55.21%;負責

人年齡在 45-64 歲之間,行業別為營建工程業,且單位營運時間長短介於 1 年至

3 年之間,則有欠費單位佔所有符合以上條件投保單位的 53.64%。

圖 8 決策樹分析結果

37
表 15 決策樹模型規則
受僱者投保
序號 負責人年齡層 行業別 規模別 營運時間長短
金額

1 25-44 歲;未滿 25 歲 批發及零售業 1~3 年 <35,444

除批發及零售業及 1~3 年;
2 25-44 歲;未滿 25 歲 5 人以下
其他服務業外之行業 3~10 年

3 45-64 歲 營建工程業 1~3 年

運輸及倉儲業; 1~3 年;
4 65 歲以上
營建工程葉 未達 1 年

表 16 決策樹模型之欠費單位統計表
單位:家數(佔率%)
序號 有欠費 未欠費 總數
1 803(55.53%) 643(44.47%) 1446
2 2649(55.21%) 2149(44.79%) 4798
3 140(53.64%) 121(46.36%) 261
4 10(76.92%) 3(23.08%) 13

38
第三節 羅吉斯迴歸分析

一、參考組設定

羅吉斯迴歸估計時不可有遺漏值(Missing Value),但是在受僱者投保金額的

欄位中,如果投保單位只有負責人加保,並無受僱員工時,此欄位即為遺漏值。

本研究全部樣本數為 76,800 筆,有 15,360 筆資料因為有遺漏值,須排除在羅吉

斯迴歸分之樣本中,在此只針對 61,440 筆進行分析。

依據第一節摘要分析結果,可得出有欠費的單位中,屬性佔率最高分別為何,

並將該等屬性設定為本節羅吉斯迴歸模型的參考組如表 17:
表 17 羅吉斯迴歸模型參考組
變項名稱 參考組設定條件
反應變數(Y)
有欠費/未欠費 有欠費
解釋變數(X)
行業別 批發及零售業
規模別 5 人以下
負責人年齡層 45-64 歲
營運時間長短 3-10 年
二、檢定共線性
將所有樣本進行線性迴歸分析,檢定樣本中的數字型變項是否與反應變數(Y)

有共線性,如果存在共線性,須將該變數排除。而本研究利用變異數膨脹值

(Variance Inflation Factor ,VIF)作為檢定共線性的工具,當 VIF 大於 10 則表

示有共線性問題。在樣本中只有受僱者投保金額是數字變項,而受僱者投保金額

產生的 VIF 等於 1(如表 18),故無共線性問題。


表 18 線性迴歸分析表
參數 標準 變異數
變數 Pr > |t|
估計值 誤差 膨脹(VIF)
受僱者投保金額 -0.0000036 1.75E-07 <.0001 1

三、建立羅吉斯迴歸模型

本研究使用 SAS Enterprise Guide 以及 SAS Visual Analytics 建立羅吉斯迴

歸模型。首先設計虛擬編碼表(Dummy Code),將所有屬性轉換為 0 與 1 的數字組


39
成,例如:規模別變數的設計,大規模為「1000」,小規模為「0100」以此類推。虛擬

編碼表如表 19。
表19 羅吉斯迴歸模型虛擬編碼表
變數名稱 虛擬編碼
專業、科學及技術服務業 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
教育業 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
農、林、漁、牧業 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
運輸及倉儲業 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
電力及燃氣供應業 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
製造業 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
營建工程業 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
醫療保健及社會工作服務業 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
藝術、娛樂及休閒服務業 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
礦業及土石採取業 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
其他 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
不動產及住宅服務業 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
其他服務業 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
公共行政及國防;強制性社會安全 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
支援服務業 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
出版、影音製作、傳播及資通訊服務業 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
用水供應及污染整治業 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
住宿及餐飲業 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
金融及保險業 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
批發及零售業 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
65 歲以上 1 0 0
25-44 歲 0 1 0
未滿 25 歲 0 0 1
45-64 歲 0 0 0
10 年以上 1 0 0
1-3 年 0 1 0
未達 1 年 0 0 1
3-10 年 0 0 0
大規模 1 0 0
小規模 0 1 0
中規模 0 0 1
5 人以下 0 0 0

40
再來利用向後消去法(Backward Elimination)篩選變數,將未達95%顯著水準

之解釋變數剔除,反覆進行迴歸分析,直到模型內所有解釋變數均達到所要求的

顯著水準為止。篩選結果5個變項都達到顯著水準(如下表20)。以卡方值來判斷

變項的重要性,可看出行業別重要性最高,後面依序為營運時間長短、負責人年

齡層、規模別以及受僱者投保金額。
表20 羅吉斯迴歸屬性篩選結果

變數 自由度 Wald 卡方 Pr > ChiSq


***
受僱者投保金額 1 298.6527 <.0001
行業別 19 3562.418 <.0001***
負責人年齡層 3 790.9219 <.0001***
營運時間長短 3 849.0632 <.0001***
規模別 3 561.6606 <.0001***
***表示在顯著水準 0.01 下,變數為顯著 ** 表示在顯著水準 0.05下,變數為顯著
*表示在顯著水準 0.1 下,變數為顯著

依照羅吉斯迴歸建立之預測模型所計算出的勝算比(如表 21),再以各變項

與參考組相比,是否容易產生欠費,結果如下:

(1) 受僱者投保金額

此項屬性對於是否欠費之影響達顯著差異,但以參數估計值來看,受僱者投

保金額上升與欠費結果呈現些微的負相關。

(2) 行業別
教育業、專業、科學及技術服務業、運輸及倉儲業、電力及燃氣供應業以及
其他這 5 項行業別的變數在 95%信賴水準下未達顯著水準,表示這些行業相對於
參考組的行業(批發及零售業)影響欠費結果無顯著差異,而其他變數皆有顯著差
異。而專業、科學及技術服務業、農、林、漁、牧業、運輸及倉儲業、電力及燃
氣供應業、營建工程業、藝術、娛樂及休閒服務業、礦業及土石採取業、支援服
務業、出版、影音製作、傳播及資通訊服務業、用水供應及污染整治業及住宿及
餐飲業以上 11 個行業的勝算比大於 1,表示在規模別、負責人年齡層、營運時間
長短及受僱者投保金額不變下,增加一個單位會使欠費機率上升的倍數即為該勝
算比的值,且造成欠費的影響較批發及零售業大。
(3) 負責人年齡層

41
各項屬性對於是否欠費之影響皆達顯著差異,而負責人年齡層在 25-44 歲之

間以及未滿 25 歲的勝算比與 45-64 歲相比大於 1,負責人年齡層在 65 歲以上勝

算比小於 1,表示負責人在 44 歲以下的欠費風險較 45 歲以上高。

(4) 營運時間長短

各項屬性對於是否欠費之影響皆達顯著差異,而投保單位營運時間介於 1~3

年的勝算比大於 1,表示該種類的單位增加後,欠費風險較營運時間介於 3~10 年

的投保單位還高。

(5) 規模別

各項屬性對於是否欠費之影響皆達顯著差異,而與參考組之變項(單位規模 5

人以下)比較,在其他變數不變的條件下,增加一個單位會使欠費風險降低。

42
表 21 羅吉斯迴歸分析結果
估計值 Pr>ChiSq
參數 勝算比 95%信賴界線
(β)
***
Intercept 0.1385 0.0006
受僱者投保 ***
-0.00002 <.0001 1 0.976 1.161
金額
行業別 專業、科學及技術服務業 0.0624 0.1593 1.064 0.824 1.052
行業別 教育業 -0.0705 0.2569 0.932 1.585 2.21
***
行業別 農、林、漁、牧業 0.6262 <.0001 1.871 0.871 1.214
行業別 運輸及倉儲業 0.0296 0.7272 1.03 0.372 3.473
行業別 電力及燃氣供應業 0.1977 0.7234 1.219 0.8 0.916
***
行業別 製造業 -0.1554 <.0001 0.856 1.49 1.707
***
行業別 營建工程業 0.4667 <.0001 1.595 0.124 0.188
醫療保健及社會工作服 ***
行業別 -1.8736 <.0001 0.154 1.147 1.905
務業
***
行業別 藝術、娛樂及休閒服務業 0.3917 0.0025 1.48 1.11 3.081
**
行業別 礦業及土石採取業 0.6182 0.0172 1.856 0.084 55.168
行業別 其他 0.7661 0.591 2.151 0.748 0.966
**
行業別 不動產及住宅服務業 -0.1617 0.0134 0.851 0.243 0.273
***
行業別 其他服務業 -1.3557 <.0001 0.258 0.023 0.179
公共行政及國防; ***
行業別 -2.5702 <.0001 0.077 1.394 1.781
強制性社會安全
***
行業別 支援服務業 0.4548 <.0001 1.576 1.29 1.704
出版、影音製作、傳播 ***
行業別 0.3941 <.0001 1.483 1.362 2.063
及資通訊服務業
***
行業別 用水供應及污染整治業 0.5168 <.0001 1.677 1.048 1.267
***
行業別 住宿及餐飲業 0.142 0.0034 1.153 0.473 0.757
***
行業別 金融及保險業 -0.5088 <.0001 0.601 0.618 0.724
***
負責人年齡層 65 歲以上 -0.4022 <.0001 0.669 1.548 1.684
***
負責人年齡層 25-44 歲 0.4793 <.0001 1.615 2.84 4.29
***
負責人年齡層 未滿 25 歲 1.2482 <.0001 3.484 0.528 0.58
***
營運時間長短 10 年以上 -0.5913 <.0001 0.554 1.092 1.21
***
營運時間長短 1-3 年 0.1392 <.0001 1.149 0.61 0.776
***
營運時間長短 未達 1 年 -0.3729 <.0001 0.689 0.145 0.314
***
規模別 大規模 -1.5229 <.0001 0.218 0.568 0.628
***
規模別 小規模 -0.5156 <.0001 0.597 0.288 0.406
***
規模別 中規模 -1.0695 <.0001 0.343 1 1
***表示在顯著水準 0.01 下,變數為顯著 ** 表示在顯著水準 0.05下,變數為顯著

*表示在顯著水準 0.1 下,變數為顯著

43
第四節 模型比較

本節利用誤分類率、ROC 曲線以及累積增益圖作為決策樹及羅吉斯迴歸模型

兩種模型之評價標準,找出預測能力較佳的分類模型。

一、誤分類率

決策樹模型的混淆矩陣(Confusion Matrix)如表 22,可得到決策樹的誤分類率為

𝐅𝐏+𝐅N 𝟏𝟔,𝟗𝟔𝟏
= = 0.276;而羅吉斯迴歸模型的混淆矩陣如表 23,可
TP+FP+TN+FN 𝟔𝟏,𝟒𝟒𝟎

𝐅𝐏+𝐅N 𝟏𝟔,𝟓𝟔𝟖
得到羅吉斯迴歸的誤分類率為 = = 0.27。由上列計算
TP+FP+TN+FN 𝟔𝟏,𝟒𝟒𝟎

可得到羅吉斯迴歸模型的誤分類率小於決策樹模型,代表羅吉斯迴歸模型的準確

率略高於決策樹,預測的準確度較好。

表 22 決策樹模型混淆矩陣


實 測 有欠費 未欠費

3,602 2,916
有欠費 (TP) (FN)
14,045 40,877
未欠費 (FP) (TN)

表 23 羅吉斯迴歸模型混淆矩陣


實 測 有欠費 未欠費

5,245 4,162
有欠費 (TP) (FN)
12,402 39,631
未欠費 (FP) (TN)

44
二、ROC 曲線

決策樹模型的 ROC 曲線如圖 9,ROC 曲線與對角線之間的區域面積為 AUC,利

用 AUC 值的大小可判斷預測模型的準確率。決策樹的 AUC=0.69;而羅吉斯迴歸模

型的 ROC 曲線如圖 10,AUC=0.7268。以上可得出羅吉斯迴歸模型的 AUC 大於決策

樹模型的 AUC,表示模型預測結果較為準確。

圖 9 決策樹模型 ROC 曲線圖

圖 10 羅吉斯迴歸模型 ROC 曲線圖

45
三、累積增益圖

決策樹模型的累積增益圖如圖 11,在擷取 15%的樣本中,累積增益率為 1.8434,

表示使用決策樹模型預測的欠費單位準確率為隨機取樣的 1.8434 倍。羅吉斯迴歸

的累積增益圖如圖 12,同樣擷取 15%的樣本中,累積增益率為 1.952,表示羅吉

斯迴歸模型預測的欠費單位準確率為隨機取樣的 1.952 倍。以上可比較出羅吉斯

迴歸模型預測效果較決策樹模型更好。

圖 11 決策樹模型累積增益圖

圖 12 羅吉斯迴歸模型累積增益圖

46
第五章 結論與建議

依據本研究第四章的研究結果,可以知道羅吉斯迴歸模型對於 2015 年全民健

保第一類投保單位之欠費特性分析比決策樹模型的表現能力更好,但兩者相差並

不大,故可以結合這兩種模型對於投保單位欠費特性分析作以下結論:

一、 摘要統計中,以各個變項的欠費單位佔率來看,5 人以下的欠費單位佔全部

欠費單位約 85%最高,單位數量最多,而依據決策樹模型觀察到,批發及零

售業的投保單位在初創期(營運時間短)且負責人年齡低時確實有較高機率

產生欠費。除批發及零售業外,可歸納出負責人年齡偏低及營運時間較短,

或是 5 人以下中小企業或是小型商行,雖然每期保費應繳金額不高,但是因

為單位數量多,對於整體欠費率影響仍大,甚至可能形成呆帳無法收回。

二、 除了批發零售業外,利用羅吉斯迴歸模型也發現有許多行業的單位增加後,

產生欠費的機率比批發及零售業單位增加而產生欠費的機率更高,欠費的風

險更大,例如:承作營建工程的公司屬於「營建工程業」,當該類型公司承作

工程建案時會有大量員工加保,但因為承包工程風險較高,建造過程如果資

金週轉不靈,使的公司營運出現狀況,將會產生大量員工的健保費欠費,即

是一個明顯的例子。而以其他影響變數來看,許多行業在新設立時,員工數

不多,公司營運尚未穩定,如果不能盡快上軌道產生獲利,容易在成立 1 到

10 年間陷入營運困難,進而產生繳不出健保費的情形。

綜合上面所得到的研究結論,對於全民健保的第一類投保單位欠費管理,以

下建議可作為未來政府實務運作上之參考:

一、 輔導高風險投保單位使用約定帳戶扣款:如果投保單位符合本研究預測出來

之欠費高風險單位,可透過獎勵或專人輔導投保單位使用約定帳戶扣款繳納

健保費,提高單位按時繳納保費的機率。

47
二、 提高催繳頻率:欠費高風險單位在達到應催繳的條件時,即進行催繳作業,

不需等到每季例行性或專案催繳時程,如果催繳後仍未繳納,每個月都寄發

催繳單,以增加欠費收回成功率,達到催繳之目的。

三、 資料自動化處理:將本研究模型導入健保欠費管理系統,每月自動產出高風

險名單,並由系統監控其繳費情形,逾期繳納時即發送通知給健保署承辦人

員作後續處理。

四、 實地查核及輔導:欠費高風險單位在催繳後仍持續欠費達一定時間或一定金

額後,可由健保署專門人員進行實地查核,直接與投保單位面對面溝通,並

了解其營運情形,或現場輔導單位作分期繳納健保費或紓困基金貸款等健保

署規劃的無力繳納健保費協助措施。

過去政府機關在處理投保單位欠費時,因為資料量龐大,礙於人力與行政經

費,較難精準掌握投保單位欠費情形,只能被動等到單位欠費後作補救措施。期

能利用本研究之研究模型,使用少量的資料及資訊化系統,就可掌握到主管機關

需要關注的目標單位,增加行政效率並減省人力,產生正面積極的效果。

48
參考文獻

1、 江權富(2002),「建立全民健保應收保費預測模型-時間數列 ARIMA 模型之應

用」,中國醫藥學院醫務管理研究所。

2、 吳琮璠、劉順仁(1998),
「全民健康保險財務監理與稽核作業研究」,
《行政院

衛生署八十七年度委託研究計畫》,DOH87- HS-1002。

3、 呂麗珠(2003),
「全民健保保險費之呆帳率推估」,
《中央健康保險局數據處理

人員第 2 次培訓人員專題報告》, 69-92

4、 呂家鑾、魯炳炎(2004),
「我國全民健康保險財務收入面之研究―以健保雙漲

為例」,國立東華大學公共行政研究所。

5、 李淑華(2015),「影響健保財務缺口因素之研究」,國立成功大學財務金融研

究所碩士在職專班。

6、 林春鴻(1991),「全民健康保險之總體經濟分析」,中國文化大學經濟研究所。

7、 林美花(1998),
「全民健康保險呆帳提列及轉銷之研究」,
《行政院衛生署委託

研究計畫》,DOH87-NH-051。

8、 林國明(2001),
「全民健保呆帳形成原因分析及預防措施」,
《行政院衛生署八

十九下半年及九十年度委託研究計劃》,DOH89-NH-044。

9、 林季平(2008),
「影響加入台灣全民健保的社會經濟不均等要素」,
《社會政策

與社會工作學刊》,第 12 卷第 2 期,91-122。

10、黃錫深(2002),「全民健康保險保險費欠費因素之分析及建立防範機制之探討

」,義守大學管理科學研究所。

11、莊榮霖、紀慧媛、黃麗如(2003),「Data Mining 在鼓勵轉帳繳交健保費方案

上的應用」,《中央健康保險局南區分局研究報告》,2003。
49
12、莊瑞珠(2007),
「邏輯斯迴歸模型運用在女性信用卡評分制度之研究」,《輔

仁管理評論》。

13、陶宏麟、郭嘉祥(1998),
「失業率變動、薪資成長與全民健保保費收入」,
《勞

資關係論叢》,第 8 期,67-93。

14、曾惠明、張春雄、黃錫深(2003),
「全民健保局欠繳保費催收作業反應調查分

析-以民營公司行號為例」,《管理評論》,第 22 卷第 3 期:49-65。

15、黃仁德(2000),
「全民健保第一類被保險人投保金額的區域差異性分析」,
《行

政院衛生署委託研究計劃》。

16、黃旭男(2002),
「應收保險費收入預估模型之建立」,
《行政院衛生署委託研究

計畫》,DOH91-NH-1032。

17、黃錫深、張春雄、曾惠明(2002),
「全民健康保險保險費欠繳因素之分析及建

立防範機制之探討」,義守大學管理學院。

18、楊銘欽(2004),
「人口結構變化對健保制度的衝擊研究」,
《台灣藥物經濟記效

果研究學會行政院衛生署委託研究案主持》,DOH93-NH-1009。

19、楊志良(2001),「全民健康保險體檢小組報告摘要」。

20、賴美淑(2000),「全民健康保險財務現況與危機」。

21、中央健康保險署全球資訊網 http://www.nhi.gov.tw/

22、行政院主計總處 http://www.dgbas.gov.tw/mp.asp?mp=1

50

You might also like