ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Kaggle] 캐글 시작하기 (타이타닉 문제)
    ML 2021. 1. 15. 20:41
    반응형

    캐글의 입문 문제로 타이타닉 문제를 많이 쓰더라고요 저도 캐글을 시작하면서 타이타닉 문제를 풀어봤습니다. (머신러닝 초보라 성능이나 분석 부분에서 미흡한 부분이 많습니다.)

     

    먼저 들어가기에 앞서 저처럼 캐글을 잘 모르시는 분을 위해 설명하자면 캐글에 회원가입 후 Titanic을 검색하면 맨 위에 같은 문제가 나올 겁니다. 여기서 Data에는 학습과 테스트에 필요한 데이터가 있고 Notebooks에는 참가자들이 자기 코드와 설명, 분석법 등을 올려놓는 곳이고 Discussion은 토론? 하는 곳 같은데 Notebooks에 올린 자기 글을 태그 하는 게 많아 보입니다. Leaderboard는 순위를 볼 수 있는 곳입니다.

     


    1. 데이터 관찰 및 전처리

    train 데이터에는 위와 같이 인덱스가 존재하고 +로 Name까지 존재합니다.

     

    여기서 일단 유의미한 데이터는 남겨두고 불필요한 데이터는 제거하고 추가적으로 만들 수 있는 데이터는 만들어줘야합니다. 그러기 위해서 시각화하면서 각 데이터를 분석하면서 해야 하는데 첫 시도이기도 해서 좀 대충 했습니다..... 임의로 제가 보기에 무의미해 보이는 데이터로 Name을 제거했고 Ticket이 처리하기 어려워 보여 제거했고 Cabin은 빈 데이터가 많고 Embarked와 겹치기 때문에 제거했습니다.

     

     

    Age의 누락값은 평균으로, Embarked의 누락 값은 비중이 큰 'S'로 해주었습니다.

     

    라벨링 작업을 해주고 테스트데이터에서 빈 데이터도 채워주었습니다.

     

    데이터의 표준화도 해주었구요

     

     

    2. 모델

    모델은 svm만 사용해봤습니다. 원래는 여러 모델을 사용해서 비교해보는 게 맞지만 캐글 경험하는 데에 의의를 뒀기 때문에...

     

    3. 결과

    confusion_matrix를 사용해서 시각화해봤습니다. 테스트 데이터에 대하여 라벨 값을 제공을 안 해주었기 때문에 이 정확도는 학습 데이터만 가지고 뽑았기 때문에 정확히는 우리가 원하는 정확도가 아닙니다.

     

    캐글에 제출하는 양식에 맞춰 csv파일을 만들고 제출해봤습니다.

     

    0.75점 받았네요 ㅠㅠ 순위표를 보면 그다지 높은 순위가 아니지만 그래도 처음이라고 위안하며.... Notebooks에 보시면 정말 자세히 자신이 구현한 것을 설명해놓은 좋은 코드들이 많습니다. 이런 거 참고해서 학습하면 좋을 것 같네요

    반응형

    댓글

Designed by Tistory.