Data Analysis and Credit Part 2

  • Khái niệm về biến phụ thuộc hạn chế

    • Dữ liệu từ LendingClub với biến phụ thuộc là tình trạng khoản vay:
    • Giá trị 0 nếu khoản vay đã được thanh toán hoàn toàn
    • Giá trị 1 nếu khoản vay đã bị tính vào nợ xấu
    • Biến độc lập DTI (Debt to Income): tỉ lệ giữa khoản thanh toán nợ và thu nhập
    • Kiểm tra giả thuyết dùng DTI để dự đoán tình trạng khoản vay
  • Tỷ lệ cược (Odds Ratio)

    • Khái niệm quen thuộc trong cờ bạc:
    • Ví dụ: Trong đua ngựa, cược 3:1 có nghĩa là:
      • Mỗi một lần thắng, sẽ thua ba lần.
      • Hoặc từ bốn cuộc đua, sẽ thắng một lần.
      • Tỉ lệ thắng = 25%
    • Tỷ lệ cược là nghịch đảo của xác suất chơi cờ bạc.
    • Ví dụ: Tỷ lệ cược là 1:3
    • Trong dữ liệu LendingTree:
    • 34,116 trường hợp đã được thanh toán hoàn toàn
    • 5,670 trường hợp bị tính vào nợ xấu
    • Tỷ lệ cược = 5,670 / 34,116
    • Xác suất bị nợ xấu = 16.62%
  • Hàm Logistic và Hồi quy Logistic

    • Tình trạng khoản vay chỉ có thể lấy giá trị 0 hoặc 1 -> Hồi quy tuyến tính không phù hợp
    • Sử dụng hàm tự nhiên của tỷ lệ cược trong hồi quy
    • Mô tả:
    • ext{ln}igg( rac{P(y=1 | DTI)}{1 - P(y=1 | DTI)} igg) = a + b imes x
    • Nơi x là tỷ lệ DTI
  • Kết quả hồi quy Logistic

    • Hệ số cho ch intercept = -2.04
    • Hệ số cho tỷ lệ DTI = 0.018
    • Tốc độ dự đoán chính xác về tỷ lệ nợ xấu
    • Phân tích hệ số:
    • Điểm giao cắt cho biết kết quả khi DTI = 0 (P(y=1|DTI=0))
    • ext{ln}igg( rac{P(y=1|DTI=0)}{1 - P(y=1|DTI=0)} igg) = -2.0401
    • Exponential hóa:
      • rac{P(y=1|DTI=0)}{1 - P(y=1|DTI=0)} = e^{-2.0401} = 0.13
    • Tính toán xác suất nợ xấu khi DTI=0: P(y=1|DTI=0) = rac{0.13}{1.13} = 11.5%
  • Tăng tỷ lệ DTI và tác động lên xác suất nợ xấu

    • Hệ số độ dốc cho biết xác suất tăng ra sao với mỗi % tăng DTI
    • DTI = 1%, tính toán xác suất:
    • P(y=1|DTI=1) = rac{0.1324}{1.1324} = 11.69 ext{%}
    • So sánh:
    • Từ 11.5% (DTI=0) tăng lên 11.69% (DTI=1)
  • Công thức tổng quát cho xác suất nợ xấu

    • Tổng quát:
    • P(y=1|DTI=x) = rac{e^{-2.04 + 0.018 imes x}}{1 + e^{-2.04 + 0.018 imes x}}
    • Ví dụ với DTI = 20%:
    • P(y=1|DTI=20)
      ightarrow 15.72 ext{%}
    • Tăng khoảng 4.2% từ DTI 0% lên 20%
  • Phân tích hồi quy và cải thiện

    • Kết quả từ hồi quy Logistic có thể được nâng cao bằng cách thêm biến độc lập khác
    • Thuật toán tính điểm tín dụng:
    • Thực hiện hồi quy Logistic trên một tập hợp dữ liệu
    • Kiểm tra độ chính xác
    • Sử dụng mô hình trong quyết định thực tế
    • Tinh chỉnh thuật toán và lặp lại
  • Machine Learning trong công nghệ tín dụng

    • Sử dụng machine learning để thực hiện các tác vụ lặp lại
    • Xác định biến quan trọng cho chất lượng tín dụng
    • Máy học từ kết quả và cải thiện thuật toán dựa trên thông tin trước đó.