Pandas는 Numpy의 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다. 데이터 갯수 세기가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이나.
데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.
카테고리 값 세기Series의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 매서드로 각각의 값이 나온 횟수를 셀 수 있다.
DataFrame에는
정렬데이터를 정렬하려면 앞서
NaN값이 있는 경우에는 정렬하면 NaN값은 마지막에 위치한다.
큰 수에서 작은 수로 반대방향 정렬하려면
DataFrame에서
행/열 합계행과 열의 합계를 구할 때는
행과 열의 합을 행/열에 추가해보자.
apply 변환행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는
예를 들어 각 열의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 람다 함수를 넣는다.
마찬가지로 행에 대해 적용하고 싶다면
각 열에 대해 어떤값이 얼마나 사용되고 있는지 알고 싶다면
NaN 값은 fillna 매서드를 사용하여 원하는 값으로 바꿀 수 있다. astype 매서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.
실수 값을 카테고리 값으로 변환실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.
정말 쉽게 데이터를 정의한 카테고리기준으로 분류 하였다!
성적을 비유하여 생각해보면 출처 : 데이터사이언스 스쿨(datascienceschool.net) |