-
[파이썬] 판다스 단일 열 다루기Pandas 2021. 1. 6. 17:56반응형
DataFrame을 다루다 보면 원하는 열만 가지고와 사용할 때가 있습니다. 그러기 위해서 어떻게 하는지 알아보겠습니다.
1. 단일 열 불러오기
import pandas as pd movie = pd.read_csv('data/movie.csv') movie.head()
위와 같은 데이터프레임에서 감독의 이름(director_name) 열만 가져와보겠습니다.
movie['director_name'] # movie.director_name
두 가지 방법으로 호출할 수 있는데요 결과는 똑같습니다.
이렇게 불러온 데이터의 타입은 Series인데요 필요에 따라 DataFrame으로 바꿔야 하는 경우가 생깁니다. 한번 바꿔보겠습니다.
director = movie['director_name'] direcor.to_frame()
type()을 사용해 타입을 확인할 수도 있지만 출력되는 결과를 보고도 타입이 DataFrame인지 Series인지 알 수 있습니다. 위와 같이 표로 나온다면 DataFrame이고 그렇지 않다면 Series타입이죠.
2. value_counts()
불러온 데이터에서 항목별로 같은게 몇 개인지 알아볼 수 있는 함수가 value_counts()인데요
예를 들어 남자와 여자가 몇명인지, 어떤 연령이 가장 많은지 등을 확인하는 곳에 활용할 수 있겠습니다. 여기서는 영화 데이터이기에 감독별로 몇 개의 영화가 들어있는지 보겠습니다.
director.value_counts() # director.value_counts(normalize=Ture)
인자로 정규화를 해주게 되면 전체의 퍼센티지로 출력하게 됩니다. 여러 활용도가 있으니 잘 외워두시면 좋겠네요
3. 데이터 통계
평균이나 분산 등 수치에서 사용되는 통계데이터를 한 번에 보여줄 수 있는 함수로 describe() 메서드를 사용합니다. 꼭 수치가 아니어도 데이터 타입에 따라 변형되어 사용된다는 점 유의해주세요
actor_1_fb_likes = movie['actor_1_facebook_likes'] actor_1_fb_likes_describe()
반응형'Pandas' 카테고리의 다른 글
[파이썬]Pandas DataFrame만들기 (0) 2021.02.04 [파이썬] DataFrame에서 누락값 처리하기 (0) 2021.01.15 [파이썬] 판다스 DataFrame에서 열 선택하기 (0) 2021.01.08 [파이썬] 판다스 인덱스 바꾸기 (0) 2021.01.06 [파이썬] 판다스 csv 파일 읽기.read_csv() (0) 2021.01.06