Statistic & Machine Learning
-
[Yongggg's] LIME(Locally Interpretable Model-agnostic Explainations)Statistic & Machine Learning 2021. 1. 30. 17:29
안녕하세요. 오늘 설명드릴 내용은 LIME(Locally Interpretable Model-agnostic Explainations)입니다! 예측 성능이 높은 모델이 해석력까지 갖춘다면 정말 좋은 모델이 될 것입니다. 논문에서는 모형에 대한 신뢰성을 두가지로 나누었다. 1. 개별 예측에 대한 신뢰성 : 개별 Sample에 대해 진단을 내린 결정적인 Feature은 무엇인지, 즉 어떤 Feature가 예측을 하는 데에 결정적인 역할을 한 것인지를 알 수 있다면, 모델의 사용자가 그 결과를 신뢰할지 않을지 판단하는 것에 도움을 받을 수 있다. 2. 모형에 대한 신뢰성 : 모델을 구축하여 범용화하기 전, 실생활에서도 잘 작동하는지 평가해야 한다. 일반적으로 검증 데이터 셋과 특정 평가척도를 사용하여 이를 판..
-
[Yongggg's] Partial Dependence Plot의 이해Statistic & Machine Learning 2021. 1. 28. 14:39
안녕하세요 Yonggg's Blog입니다! 오늘 설명드리고자 하는 것은 Partial Dependence Plot 입니다. 1. 목적 저번 시간 다루었던 Feature Importance와 비슷하게 Partial Dependence Plot 또한 변수의 중요도를 파악하는 개념이다. 2. 개념 특정 변수 부분집합과 예측 사이의 함수 관계를 나타냄으로써 알아낼 수 있다. Target 값에 영향을 주는지 안 주는지 알고 싶은 변수의 부분집합을 특정값으로 고정시킨 후(ex: 부분집합 변수가 1개일 때, $ X_{s} $ = {50}), $ f(X_{s}, X_{c}) $에서 $ X_{c} $에 해당하는 Feature의 모든 샘플(obs)에 대해 기대값을 취하여 $ \hat{f}_{X_{c}}(x_{c}) $값(..
-
[Yongggg's] Feature Importance의 이해Statistic & Machine Learning 2021. 1. 27. 20:06
안녕하세요 Yonggg's Blog입니다! 오늘은 Tree기반 모델의 Feature Importance에 대해 알아보겠습니다! Feature Importance (Tree models) 1. 목적 Tree 기반 모델링을 진행하여 예측 값을 산출하는 것 이외에 우리가 관심있는 Target 값에 영향을 주는 중요한 Feature를 찾고자 Feature Importance라는 개념이 생겼다. 2. 개념 기본적으로 Entropy와 Gini 계수를 바탕으로 각 노드의 중요도를 구할 수 있고, 자식노드를 생성할 때 사용했던 Feature의 중요도를 구한 뒤, 모든 Feature의 중요도를 Normalization함으로 써 Feature들 중의 중요한 변수를 알 수 있다. 3. 원리 Tree 모델에서 Feature ..
-
[Yongggg's] Matrix Factorization의 이해Statistic & Machine Learning 2021. 1. 26. 17:04
안녕하세요 Yonggg's Blog입니다! 오늘은 Matrix Factorization에 대해 알아보겠습니다. 1. 목적 Matrix Factorization(MF)의 목적은 다음과 같다. [그림 1]과 같은 결측을 갖는 Matrix에 대하여 고유값 분해를 이용해 이를 해결한다. 2. 개념 [그림 1] 처럼 $ R $ Matrix를 단순히 $ n $명의 User, $ p $개의 items에 의해 rating된 행렬 $ R \in R^{n \times p} $라고 가정하자. $ R $ Matrix에 MF으로 행렬을 분해 하면, $ U \in R^{m \times k}, I \in R^{p \times n} $으로 분해가 가능하다. $ U $와 $ I $ Matrix로 변환하여 [그림 2]와 같이 나타낼 수..