Python/Pandas

판다스 pandas (8) - unique(), nunique()

얆생 2023. 5. 2. 23:52

데이터 분석하다가 유일값 찾고 싶을 때

예제데이터는 데이콘 대회 중 이미 끝난 '제주도 도로 교통량 예측 AI 경진대회'에서 가져왔다.

https://dacon.io/competitions/official/235985/data

 

제주도 도로 교통량 예측 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 

train = pd.read_csv('./jeju_traffic/train.csv')
test = pd.read_csv('./jeju_traffic/test.csv')
train

 

1. unique( )

- 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수

  • 도로의 차량 평균 속도와 상관있을 것 같은 피처들 살펴보기
print(train['road_rating'].unique())
print(train['lane_count'].unique())
print(train['maximum_speed_limit'].unique())
print(train['road_type'].unique())
print(train['base_hour'].unique())
[106 103 107]
[1 2 3]
[60. 80. 50. 70. 30. 40.]
[3 0]
[17 21  7 13  8  0 16 15  2 11 10 22 12 23 14  6  9 19  1  4 20 18  3  5]

데이터 개수가 너무 많아서 한번에 뭐가 있는지 파악이 안될 때, 무슨무슨 고유값이 있는지 파악 가능

 

 

2. nunique()

- 데이터에 고유값들의 수를 출력해주는 함수

print(train['road_rating'].nunique())
print(train['lane_count'].nunique())
print(train['maximum_speed_limit'].nunique())
print(train['road_type'].nunique())
print(train['base_hour'].nunique())
3
3
6
2
24