상세 컨텐츠

본문 제목

[Kaggle] Spaceship 0416 : 0.77507

학습기록

by green010809 2024. 4. 22. 17:22

본문

데이터 전처리
1. PassengerId 변수 'group','group_number'으로 분할
2. Cabin 변수 'deck','deck_number','side'으로 분할
3. 수치형 변수의 결측값 중앙값으로 보간
4. 범주형 변수의 결측값 최빈값으로 보간
5. 범주형 변수 라벨 인코딩
6. 칼럼 간 상관관계 확인 후 target 변수와 상관계수가 0.01인 'ShoppingMall','Name' 변수 drop

모델링
1. 랜덤 포레스트와 로지스틱 회귀 모델을 사용했을 때, 랜덤 포레스트의 정확도 값이 더 높음

 

인사이트

1. 랜덤포레스트 모델에서 피처 중요도 확인 후 VIP 변수의 중요도가 매우 낮음을 확인. 
but, 변수 삭제 후 모델 학습했을 때, 정확도 떨어짐
-> VIP 변수 데이터 크기가 더 정확도에 영향을 미치기 때문으로 예상

2. 더 많은 방법론을 사용해보기 위해 'Spaceship Titanic Competition End To End Project' Notebook 꼼꼼히 살펴보기
-> feature engineering 전까지 

 

Spaceship Titanic Competition End To End Project에서 얻은 힌트

EDA

  • 일반적으로 범주 수가 너무 많은 feature의 경우 drop ( 예. Name ) but, PassengerId, Cabin의 경우엔 새로운 feature를 만들수 있음 -> 살린다 -> 많은 양의 데이터는 모델의 예측력을 좋게 하기 때문

 

EDA 결과, True와 False의 비율이 50:50으로 매우 비슷하다.

EDA결과, 18세 이하는 False보다 True가 높고, 18세 ~ 32세는 False가 True가 높다

  • age 칼럼을 이용해 age_categorie 칼럼을 새로 생성할 수 있다 
    • transported 비율을 기준으로 카테고리를 나누어..

Feature Engineering

PassengerId 변수 'group','group_number'으로 분할

  • group_number : 그룹 내 총 구성원 수
    • group_number == 1 이면 혼자 여행하는 사람
      • Traveling Solo 칼럼 생성 : 혼자 여행 유무 칼럼

1. 혼자 여행하는 사람 매우 많다

2. 혼자 여행하는 사람이 운송율이 더 높다.

 

 

관련글 더보기