Pandas
-
[파이썬]Pandas groupby를 이용해 같은 항목을 묶어보자Pandas 2021. 2. 4. 04:23
groupby¶ 파이썬 데이터프레임에서 같은 셀을 가지는 항목끼리 묶어서 사용할 수 있는 groupby함수를 사용해보도록 하겠습니다 In [61]: import pandas as pd df = pd.read_csv('titanic.csv') df Out[61]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85..
-
[파이썬]Pandas 행,열 생성 및 수정하기Pandas 2021. 2. 4. 03:45
행, 열 생성 / 수정¶ 열 생성¶ In [39]: import pandas as pd people = [ {'name': 'Kim', 'midterm': 90, 'final': 85}, {'name': 'Lee', 'midterm': 80, 'final': 75}, {'name': 'Choi', 'midterm': 65, 'final':100} ] df = pd.DataFrame(people) In [40]: df Out[40]: name midterm final 0 Kim 90 85 1 Lee 80 75 2 Choi 65 100 I..
-
[파이썬]Pandas 행과 열 선택하기Pandas 2021. 2. 4. 03:09
행, 열 선택/필터 하기¶ In [7]: import pandas as pd people = [ {'name': 'Kim', 'age': 15, 'job':'student'}, {'name': 'Lee', 'age': 34, 'job':'doctor'}, {'name': 'Choi', 'age': 21, 'job':'warrior'} ] df = pd.DataFrame(people) In [8]: df Out[8]: name age job 0 Kim 15 student 1 Lee 34 doct..
-
[파이썬]Pandas DataFrame만들기Pandas 2021. 2. 4. 02:42
데이터프레임만들기¶ In [1]: import pandas as pd 먼저 개인적으로 가장 직관적이라 생각되는 방법부터 알려드리겠습니다. 데이터로 사용할 내용을 리스트와 딕셔너리를 이용해 만들어줍니다. 여기서 키는 열의 이름을 나타냅니다. In [2]: people = [ {'name': 'Kim', 'age': '15', 'job':'student'}, {'name': 'Lee', 'age': '34', 'job':'doctor'}, {'name': 'Choi', 'age': '21&..
-
[파이썬] DataFrame에서 누락값 처리하기Pandas 2021. 1. 15. 19:24
데이터를 처리하다 보면 비어있는 데이터가 있는 경우가 많습니다. 예를 들면 df = pd.DataFrame({'Name': ['Choi', 'Kim', 'Lee', "Park"], 'Age': [25, 11, np.nan, 30]}) df 이런 경우가 됩니다. 예시에서는 데이터가 적기 때문에 직접 행과 열을 지목해서 대입해줄 수도 있겠지만 실제 데이터는 양이 어마어마하기 때문에 일일이 바꿔주기란 사실상 불가능합니다. 이러한 누락 값을 처리하기 위해 도움이 되는 메서드들을 알아보겠습니다. 1. 누락값 개수 체크 일단 데이터에 누락값이 어느 열에 존재하는지, 얼마나 존재하는지 확인해보겠습니다. 1-1. count() Pandas의 count() 메서드는 각 열에 대해 NaN값이 아닌 것들의 합이 리턴됩니다...
-
[파이썬] 판다스 DataFrame에서 열 선택하기Pandas 2021. 1. 8. 17:47
단일 열을 선택할 때는 열의 이름을 주면 됩니다. import pandas as pd movie = pd.read_csv('data/movie.csv') #경로 director = movie['director_name'] # 읽고 싶은 열 이름 열 이름을 이용해 단일 열을 읽어올 경우 Series 타입으로 불러옵니다. 위에는 Series 그대로 출력한 것이고 아래는 DataFrame으로 변환해서 출력한 모습입니다. 여러 개의 열을 불러올 때도 크게 다르지 않습니다. 열 이름이 담긴 열을 전달하면 됩니다. actor_director = movie[['actor_1_name', 'director_name']] # 열 이름이 담긴 리스트 입력 actor_director.head() 두 개의 열을 불러온 모습입..
-
[파이썬] 판다스 인덱스 바꾸기Pandas 2021. 1. 6. 18:06
디폴트로 데이터 프레임은 0,1,2,...으로 정해지는데요 원하는 인덱스로 바꾸는 방법을 알아보겠습니다. movie = pd.read_csv('data/movie.csv') movie2 = movie.set_index('movie_title') movie2 # movie = pd.read_csv('data/movie.csv', index_col = 'movie_title') 영화 제목으로 인덱스가 변경되었습니다. read_csv에서 인자로 바로 전달해줄 경우 코드를 줄이면서 할 수 있습니다. 이렇게 정해진 인덱스 이름도 직접 원하는 데로 변경이 가능합니다. idx_rename = {'Avatar': 'Rataba'} col_rename = {'director_name': 'Director Name'} m..
-
[파이썬] 판다스 단일 열 다루기Pandas 2021. 1. 6. 17:56
DataFrame을 다루다 보면 원하는 열만 가지고와 사용할 때가 있습니다. 그러기 위해서 어떻게 하는지 알아보겠습니다. 1. 단일 열 불러오기 import pandas as pd movie = pd.read_csv('data/movie.csv') movie.head() 위와 같은 데이터프레임에서 감독의 이름(director_name) 열만 가져와보겠습니다. movie['director_name'] # movie.director_name 두 가지 방법으로 호출할 수 있는데요 결과는 똑같습니다. 이렇게 불러온 데이터의 타입은 Series인데요 필요에 따라 DataFrame으로 바꿔야 하는 경우가 생깁니다. 한번 바꿔보겠습니다. director = movie['director_name'] direcor.to..