데이터 전처리
1. PassengerId 변수 'group','group_number'으로 분할
2. Cabin 변수 'deck','deck_number','side'으로 분할
3. 수치형 변수의 결측값 중앙값으로 보간
4. 범주형 변수의 결측값 최빈값으로 보간
5. 범주형 변수 라벨 인코딩
6. 칼럼 간 상관관계 확인 후 target 변수와 상관계수가 0.01인 'ShoppingMall','Name' 변수 drop
모델링
1. 랜덤 포레스트와 로지스틱 회귀 모델을 사용했을 때, 랜덤 포레스트의 정확도 값이 더 높음
인사이트
1. 랜덤포레스트 모델에서 피처 중요도 확인 후 VIP 변수의 중요도가 매우 낮음을 확인.
but, 변수 삭제 후 모델 학습했을 때, 정확도 떨어짐
-> VIP 변수 데이터 크기가 더 정확도에 영향을 미치기 때문으로 예상
2. 더 많은 방법론을 사용해보기 위해 'Spaceship Titanic Competition End To End Project' Notebook 꼼꼼히 살펴보기
-> feature engineering 전까지
EDA 결과, True와 False의 비율이 50:50으로 매우 비슷하다.
EDA결과, 18세 이하는 False보다 True가 높고, 18세 ~ 32세는 False가 True가 높다
PassengerId 변수 'group','group_number'으로 분할
1. 혼자 여행하는 사람 매우 많다
2. 혼자 여행하는 사람이 운송율이 더 높다.
[SDGs] 네옴시티 (0) | 2024.04.24 |
---|---|
[SDGs] 11번 지속가능한 도시와 공동체 (0) | 2024.04.24 |
[파이썬 머신러닝 완벽 가이드] 04 분류 (4) 결정 트리 실습 (1) | 2024.04.18 |
[파이썬 머신러닝 완벽 가이드] 04 분류 (3) 결정트리 과적합 (0) | 2024.04.18 |
[파이썬 머신러닝 완벽 가이드] 04 분류 (2) 결정 트리 시각화 (0) | 2024.04.18 |