Python(6)
-
[pandas] column에서 그룹별로 데이터의 개수를 알고 싶을때
pandas로 데이터를 가공하다보면 column에서 그룹별로 묶인 다른 column의 데이터의 개수를 알고 싶을때가 있다. 예를 들어 아래와 같은 학년과 반이 있는 데이터가 있다. 학년 반 이름 1 1 김바다 2 1 김하늘 2 2 김산 1 1 김구름 2 1 김해 나는 학년별로 반에 속하는 학생이 몇명이 있는지를 알고 싶다. 이 표 상에서는 1학년 1반에 2명, 2학년 1반에 2명, 2학년 2반에 1명의 학생이 있다. 데이터가 이렇게 단순할 경우 그냥 세어도 되지만 보통의 데이터는 row와 column이 많기 때문에 일일이 세는 것은 어렵다. 이러한 경우, pandas를 이용해서 데이터를 처리하는 경우 다음과 같이 해볼 수 있다. #dx_2별 dx의 고유값 확인 df2 = pd.DataFrame(df, c..
2022.05.17 -
[python] list를 사용하여 dictionary 만들기, dictionary를 Numpy로 변환하기
지난번 포스팅에 이어서 이번엔 list를 사용해서 dictionary를 생성해보려고 한다. 원 데이터는 dictionary 형태로 되어있고, key값만 가져와서 c_list라는 list에 담아놓고, values는 따로 뽑아서 nan이 아닌 values를 따로 CN이라는 list에 넣고 numpy로 변환하였다. 이 과정이 궁금하다면 이전 두 포스팅을 참고하면 된다. https://cinnamon-roll.tistory.com/8 [python] dictionary에서 key 또는 value값만 가져오기 1. dictionary에서 key 가져오기 dictionary는 {key : value}의 구조로 되어 있다. 사용한 데이터는 이렇게 생겼다. key는 int값으로, values는 numpy의 형태로 들어..
2022.01.21 -
[python] dictionary에서 nan이 아닌 values 값만 가져오기
지난번 포스팅에 이어 이번엔 dictionary에서 nan이 아닌 데이터만 가져와서 리스트에 저장하는 것을 해보려 한다. 지난번 포스팅은 여기에 https://cinnamon-roll.tistory.com/8 [python] dictionary에서 key 또는 value값만 가져오기 1. dictionary에서 key 가져오기 dictionary는 {key : value}의 구조로 되어 있다. 사용한 데이터는 이렇게 생겼다. key는 int값으로, values는 numpy의 형태로 들어있다. 이 중에서 key값만 가져오고 싶을때는.. cinnamon-roll.tistory.com 사용하고자 하는 데이터는 dictionary 형태로 되어 있고, key값은 int로, values 값은 numpy로 들어있다...
2022.01.20 -
[python] dictionary에서 key 또는 value값만 가져오기
1. dictionary에서 key 가져오기 dictionary는 {key : value}의 구조로 되어 있다. 사용한 데이터는 이렇게 생겼다. key는 int값으로, values는 numpy의 형태로 들어있다. 이 중에서 key값만 가져오고 싶을때는 다음과 같은 코드를 사용하면 된다. cases.keys() 이렇게 뽑아낸 값은 dict_keys라는 type이다. 생긴건 list같지만, 이걸 그대로 분석에 사용하기는 어렵다. 그래서 위의 결과값을 list에 넣어주었다. c_list =[] for key in cases.keys(): c_list.append(key) print(c_list) 결과는 다음과 같이 나온다. ※ 빈 list를 만들 때, 이름을 그냥 list = [ ] 이렇게 해버리면 뒤에서 오..
2022.01.19 -
[Python pandas] 2. 데이터 전처리 - unique(), nunique(), value_counts()
1. pd.Series.unique() unique()는 데이터의 고유값이 무엇이 있는지 알고 싶을 때 사용한다. 당뇨병 데이터를 사용하여 Pregnancies의 고유값을 알아보자. import numpy as np import pandas as pd df = pd.read_csv('G:/python/myproject/diabetes.csv',sep=',') df.head() df.Pregnancies.unique() #df['Pregnancies'].unique() #이렇게 표현할 수도 있다. 결과는 다음과 같다. array([ 6, 1, 8, 0, 5, 3, 10, 2, 4, 7, 9, 11, 13, 15, 17, 12, 14], dtype=int64) Pregnancies에는 17개의 고유값이 존재..
2022.01.05 -
[Python Pandas] 1. 데이터 다루기 - 데이터 불러오기, 확인
1. 필요한 라이브러리 불러오기 Pandas와 Numpy, 그리고 전처리에 사용할 re를 불러왔다. re 함수는 import numpy as np import pandas as pd import re 2. 파일 불러오기 df = pd.read_csv('G:/diabetes.csv',sep=',') #여기서는 csv파일을 불러왔다 df.head() csv 파일을 불러올때는 pd.read_csv, sql은 pd.read_sql, txt파일은 read_table로 불러올 수 있다. 당뇨병 예제 csv 데이터를 불러와 보았다. 구분자는 ','로 되어 있어서 sep=','를 넣었고, 위에서 불러온 데이터는 컬럼명과 데이터가 영문으로 되어 있어서 따로 쓰지는 않았지만, 만약 한글로 되어있는 컬럼명이나 데이터가 포함..
2022.01.04