ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [파이썬] 판다스 단일 열 다루기
    Pandas 2021. 1. 6. 17:56
    반응형

    DataFrame을 다루다 보면 원하는 열만 가지고와 사용할 때가 있습니다. 그러기 위해서 어떻게 하는지 알아보겠습니다.

     

    1. 단일 열 불러오기

     

    import pandas as pd
    movie = pd.read_csv('data/movie.csv')
    movie.head()

    위와 같은 데이터프레임에서 감독의 이름(director_name) 열만 가져와보겠습니다.

     

    movie['director_name']
    # movie.director_name

    두 가지 방법으로 호출할 수 있는데요 결과는 똑같습니다.

    이렇게 불러온 데이터의 타입은 Series인데요 필요에 따라 DataFrame으로 바꿔야 하는 경우가 생깁니다. 한번 바꿔보겠습니다.

    director = movie['director_name']
    
    direcor.to_frame()

    type()을 사용해 타입을 확인할 수도 있지만 출력되는 결과를 보고도 타입이 DataFrame인지 Series인지 알 수 있습니다. 위와 같이 표로 나온다면 DataFrame이고 그렇지 않다면 Series타입이죠.

     


    2. value_counts()

    불러온 데이터에서 항목별로 같은게 몇 개인지 알아볼 수 있는 함수가 value_counts()인데요

    예를 들어 남자와 여자가 몇명인지, 어떤 연령이 가장 많은지 등을 확인하는 곳에 활용할 수 있겠습니다. 여기서는 영화 데이터이기에 감독별로 몇 개의 영화가 들어있는지 보겠습니다.

     

    director.value_counts()
    
    # director.value_counts(normalize=Ture)

     

    인자로 정규화를 해주게 되면 전체의 퍼센티지로 출력하게 됩니다. 여러 활용도가 있으니 잘 외워두시면 좋겠네요

     


    3. 데이터 통계

    평균이나 분산 등 수치에서 사용되는 통계데이터를 한 번에 보여줄 수 있는 함수로 describe() 메서드를 사용합니다. 꼭 수치가 아니어도 데이터 타입에 따라 변형되어 사용된다는 점 유의해주세요

    actor_1_fb_likes = movie['actor_1_facebook_likes']
    
    actor_1_fb_likes_describe()

     

    반응형

    댓글

Designed by Tistory.