Data Analysis and Credit Part 2
Khái niệm về biến phụ thuộc hạn chế
- Dữ liệu từ LendingClub với biến phụ thuộc là tình trạng khoản vay:
- Giá trị 0 nếu khoản vay đã được thanh toán hoàn toàn
- Giá trị 1 nếu khoản vay đã bị tính vào nợ xấu
- Biến độc lập DTI (Debt to Income): tỉ lệ giữa khoản thanh toán nợ và thu nhập
- Kiểm tra giả thuyết dùng DTI để dự đoán tình trạng khoản vay
Tỷ lệ cược (Odds Ratio)
- Khái niệm quen thuộc trong cờ bạc:
- Ví dụ: Trong đua ngựa, cược 3:1 có nghĩa là:
- Mỗi một lần thắng, sẽ thua ba lần.
- Hoặc từ bốn cuộc đua, sẽ thắng một lần.
- Tỉ lệ thắng = 25%
- Tỷ lệ cược là nghịch đảo của xác suất chơi cờ bạc.
- Ví dụ: Tỷ lệ cược là 1:3
- Trong dữ liệu LendingTree:
- 34,116 trường hợp đã được thanh toán hoàn toàn
- 5,670 trường hợp bị tính vào nợ xấu
- Tỷ lệ cược = 5,670 / 34,116
- Xác suất bị nợ xấu = 16.62%
Hàm Logistic và Hồi quy Logistic
- Tình trạng khoản vay chỉ có thể lấy giá trị 0 hoặc 1 -> Hồi quy tuyến tính không phù hợp
- Sử dụng hàm tự nhiên của tỷ lệ cược trong hồi quy
- Mô tả:
- ext{ln}igg( rac{P(y=1 | DTI)}{1 - P(y=1 | DTI)} igg) = a + b imes x
- Nơi x là tỷ lệ DTI
Kết quả hồi quy Logistic
- Hệ số cho ch intercept = -2.04
- Hệ số cho tỷ lệ DTI = 0.018
- Tốc độ dự đoán chính xác về tỷ lệ nợ xấu
- Phân tích hệ số:
- Điểm giao cắt cho biết kết quả khi DTI = 0 (P(y=1|DTI=0))
- ext{ln}igg( rac{P(y=1|DTI=0)}{1 - P(y=1|DTI=0)} igg) = -2.0401
- Exponential hóa:
- rac{P(y=1|DTI=0)}{1 - P(y=1|DTI=0)} = e^{-2.0401} = 0.13
- Tính toán xác suất nợ xấu khi DTI=0: P(y=1|DTI=0) = rac{0.13}{1.13} = 11.5%
Tăng tỷ lệ DTI và tác động lên xác suất nợ xấu
- Hệ số độ dốc cho biết xác suất tăng ra sao với mỗi % tăng DTI
- DTI = 1%, tính toán xác suất:
- P(y=1|DTI=1) = rac{0.1324}{1.1324} = 11.69 ext{%}
- So sánh:
- Từ 11.5% (DTI=0) tăng lên 11.69% (DTI=1)
Công thức tổng quát cho xác suất nợ xấu
- Tổng quát:
- P(y=1|DTI=x) = rac{e^{-2.04 + 0.018 imes x}}{1 + e^{-2.04 + 0.018 imes x}}
- Ví dụ với DTI = 20%:
- P(y=1|DTI=20)
ightarrow 15.72 ext{%} - Tăng khoảng 4.2% từ DTI 0% lên 20%
Phân tích hồi quy và cải thiện
- Kết quả từ hồi quy Logistic có thể được nâng cao bằng cách thêm biến độc lập khác
- Thuật toán tính điểm tín dụng:
- Thực hiện hồi quy Logistic trên một tập hợp dữ liệu
- Kiểm tra độ chính xác
- Sử dụng mô hình trong quyết định thực tế
- Tinh chỉnh thuật toán và lặp lại
Machine Learning trong công nghệ tín dụng
- Sử dụng machine learning để thực hiện các tác vụ lặp lại
- Xác định biến quan trọng cho chất lượng tín dụng
- Máy học từ kết quả và cải thiện thuật toán dựa trên thông tin trước đó.