데이터 분석하다가 유일값 찾고 싶을 때
예제데이터는 데이콘 대회 중 이미 끝난 '제주도 도로 교통량 예측 AI 경진대회'에서 가져왔다.
https://dacon.io/competitions/official/235985/data
train = pd.read_csv('./jeju_traffic/train.csv')
test = pd.read_csv('./jeju_traffic/test.csv')
train
1. unique( )
- 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수
- 도로의 차량 평균 속도와 상관있을 것 같은 피처들 살펴보기
print(train['road_rating'].unique())
print(train['lane_count'].unique())
print(train['maximum_speed_limit'].unique())
print(train['road_type'].unique())
print(train['base_hour'].unique())
[106 103 107]
[1 2 3]
[60. 80. 50. 70. 30. 40.]
[3 0]
[17 21 7 13 8 0 16 15 2 11 10 22 12 23 14 6 9 19 1 4 20 18 3 5]
데이터 개수가 너무 많아서 한번에 뭐가 있는지 파악이 안될 때, 무슨무슨 고유값이 있는지 파악 가능
2. nunique()
- 데이터에 고유값들의 수를 출력해주는 함수
print(train['road_rating'].nunique())
print(train['lane_count'].nunique())
print(train['maximum_speed_limit'].nunique())
print(train['road_type'].nunique())
print(train['base_hour'].nunique())
3
3
6
2
24
'Python > Pandas' 카테고리의 다른 글
판다스 pandas (7) - lambda, apply, map (0) | 2023.04.30 |
---|---|
판다스 pandas (6) - isna( ), fillna( ) (0) | 2023.04.30 |
판다스 pandas (5) - aggregation, groupby (0) | 2023.04.30 |
판다스 pandas (4) - indexing, iloc, loc, boolean (0) | 2023.04.30 |
판다스 pandas (3) - Index 객체, reset_index (0) | 2023.04.30 |