Pandas(3)
-
[pandas] column에서 그룹별로 데이터의 개수를 알고 싶을때
pandas로 데이터를 가공하다보면 column에서 그룹별로 묶인 다른 column의 데이터의 개수를 알고 싶을때가 있다. 예를 들어 아래와 같은 학년과 반이 있는 데이터가 있다. 학년 반 이름 1 1 김바다 2 1 김하늘 2 2 김산 1 1 김구름 2 1 김해 나는 학년별로 반에 속하는 학생이 몇명이 있는지를 알고 싶다. 이 표 상에서는 1학년 1반에 2명, 2학년 1반에 2명, 2학년 2반에 1명의 학생이 있다. 데이터가 이렇게 단순할 경우 그냥 세어도 되지만 보통의 데이터는 row와 column이 많기 때문에 일일이 세는 것은 어렵다. 이러한 경우, pandas를 이용해서 데이터를 처리하는 경우 다음과 같이 해볼 수 있다. #dx_2별 dx의 고유값 확인 df2 = pd.DataFrame(df, c..
2022.05.17 -
[Python pandas] 2. 데이터 전처리 - unique(), nunique(), value_counts()
1. pd.Series.unique() unique()는 데이터의 고유값이 무엇이 있는지 알고 싶을 때 사용한다. 당뇨병 데이터를 사용하여 Pregnancies의 고유값을 알아보자. import numpy as np import pandas as pd df = pd.read_csv('G:/python/myproject/diabetes.csv',sep=',') df.head() df.Pregnancies.unique() #df['Pregnancies'].unique() #이렇게 표현할 수도 있다. 결과는 다음과 같다. array([ 6, 1, 8, 0, 5, 3, 10, 2, 4, 7, 9, 11, 13, 15, 17, 12, 14], dtype=int64) Pregnancies에는 17개의 고유값이 존재..
2022.01.05 -
[Python Pandas] 1. 데이터 다루기 - 데이터 불러오기, 확인
1. 필요한 라이브러리 불러오기 Pandas와 Numpy, 그리고 전처리에 사용할 re를 불러왔다. re 함수는 import numpy as np import pandas as pd import re 2. 파일 불러오기 df = pd.read_csv('G:/diabetes.csv',sep=',') #여기서는 csv파일을 불러왔다 df.head() csv 파일을 불러올때는 pd.read_csv, sql은 pd.read_sql, txt파일은 read_table로 불러올 수 있다. 당뇨병 예제 csv 데이터를 불러와 보았다. 구분자는 ','로 되어 있어서 sep=','를 넣었고, 위에서 불러온 데이터는 컬럼명과 데이터가 영문으로 되어 있어서 따로 쓰지는 않았지만, 만약 한글로 되어있는 컬럼명이나 데이터가 포함..
2022.01.04