Data Analysis and Credit Part 1
Tổng quan về FICO score
- FICO score đo lường khả năng thanh toán chậm 90 ngày trở lên trong vòng 24 tháng tới.
- Các cơ quan tín dụng thu thập thông tin từ hồ sơ tín dụng của cá nhân và sử dụng phân tích hồi quy để tính toán FICO score.
Giới thiệu về hồi quy
- Hồi quy là công cụ dùng để phân tích dữ liệu giữa hai biến có thể liên quan đến nhau.
- Ví dụ: Mối quan hệ giữa lãi suất và lạm phát trong tương lai.
Phân tích hồi quy tuyến tính
- Xác định xem lãi suất hiện tại có thể dự đoán lạm phát trong 12 tháng tới hay không.
- Dữ liệu được thể hiện qua đồ thị phân tán với:
- Trục x: Lãi suất trái phiếu kho bạc kỳ hạn một năm.
- Trục y: Tăng trưởng chỉ số giá tiêu dùng trong 12 tháng sau.
- Mối quan hệ tăng trưởng giữa lãi suất và lạm phát được thể hiện qua một đường hồi quy.
Kết quả hồi quy
- Hồi quy cho ra kết quả: ( ext{Lạm phát} = 1.08 + 0.53 imes ext{Lãi suất} \
- Ý nghĩa:
- Hằng số (intercept) 1.08 cho biết khi lãi suất là 0, lạm phát dự kiến là 1.08%.
- Hệ số độ dốc (slope coefficient) 0.53 cho biết mỗi lần tăng 1% lãi suất, lạm phát dự kiến tăng 0.53%.
- R² = 0.5 chỉ ra rằng 50% biến động của lạm phát tương lai được giải thích bởi lãi suất hiện tại.
Biến phụ thuộc giới hạn
- Trong trường hợp khảo sát tín dụng (FICO score), chỉ có hai kết quả: "trả chậm" hoặc "không trả chậm".
- Biến Y chỉ có hai giá trị: 1 nếu trả chậm, 0 nếu không.
- Điều này tạo ra một biến phụ thuộc giới hạn, không phù hợp với hồi quy tuyến tính.
Dữ liệu từ LendingClub
- LendingClub cung cấp nền tảng cho vay, cho phép người vay kết nối với người cho vay.
- Trạng thái của khoản vay được sử dụng để xác định biến chỉ báo tính phí hoặc không.
- Tương tự như trên, ta kết hợp chỉ số debt-to-income để phân tích.
Phân tích đồ thị
- Đồ thị phân tán cho thấy mối quan hệ giữa chỉ số deb-to-income và tình trạng khoản vay bao gồm chỉ báo tính phí.
- Hồi quy không thể hiện mối quan hệ với dữ liệu thực tế.
- R² = 0.0017 cho thấy rằng hồi quy tuyến tính không phù hợp vì không giải thích được biến động tình trạng tính phí.
Giải pháp
- Để xử lý biến phụ thuộc giới hạn, cần áp dụng phương pháp khác.
- Trong video tiếp theo sẽ thảo luận về hồi quy logistic, phương pháp phù hợp hơn cho loại dữ liệu này.