ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [파이썬] 판다스 DataFrame에서 열 선택하기
    Pandas 2021. 1. 8. 17:47
    반응형

    단일 열을 선택할 때는 열의 이름을 주면 됩니다.

     

    import pandas as pd
    
    movie = pd.read_csv('data/movie.csv') #경로
    director = movie['director_name'] # 읽고 싶은 열 이름

    열 이름을 이용해 단일 열을 읽어올 경우 Series 타입으로 불러옵니다. 위에는 Series 그대로 출력한 것이고 아래는 DataFrame으로 변환해서 출력한 모습입니다.


    여러 개의 열을 불러올 때도 크게 다르지 않습니다. 열 이름이 담긴 열을 전달하면 됩니다.

     

    actor_director = movie[['actor_1_name', 'director_name']] # 열 이름이 담긴 리스트 입력
    actor_director.head()

     

    두 개의 열을 불러온 모습입니다. 하지만 다른 점이 있습니다. 객체 타입인데요 이번에는 to_frame() 메서드를 사용하지 않았는데도 불구하고 바로 DataFrame으로 출력이 되었습니다. 

     


    이번에는 열의 데이터 타입에 따라 원하는 것을 불러보겠습니다.

    판다스의 value_counts()를 사용하면 값에 따른 개수를 볼 수 있는데요 열의 데이터 타입에 따라 몇 개의 열이 나눠지는지 보겠습니다.

     

    movie.dtypes.value_counts()

    정수형이 3개 있네요. 정수형 데이터 열만 읽어보겠습니다.

     

    movie.select_dtypes(include=['int64']).head()
    # select_dtype()

    select_dtype() 메서드를 사용했고 int형만 불러와봤습니다. 여기에 number를 사용하게 되면 모든 수치 데이터 열을 불러오게 됩니다.

     


    이번에는 열 이름에 특정 단어나 문자가 포함되는 경우에 대해 다뤄보겠습니다.

     

    movie.filter(like='facebook').head()
    # movie.filter(regex='\d').head()

    열 이름에 'facebook'이 들어가는 경우를 출력해봤습니다. like 인자가 아니라 regex 인자를 사용하게 되면 정규식을 사용할 수 있습니다. 만약 열 이름에 숫자가 들어가 있는 경우를 원하는 경우 주석 처리한 코드를 사용하면 됩니다.

    반응형

    댓글

Designed by Tistory.