프로그래밍/파이썬

판다스 기본 사용법

do121 2023. 11. 13. 16:27

https://dandyrilla.github.io/2017-08-12/pandas-10min/

 

판다스(pandas) 기본 사용법 익히기

데이터 분석을 위한 파이썬 라이브러리인 판다스(pandas) 의 기본 사용법을 소개해 놓은 ‘10 Minutes to pandas’ 를 번역해 놓은 글입니다. pandas 의 기본 사용법을 익히시려는 분들에게 실습을 천천히

dandyrilla.github.io

쉽게 정리된 곳이 있어 나중을 위해 요약해봄

 

- 데이터 선택하기

  특정 칼럼 선택할 경우 : df[컬럼명]

  특정 행을 전체 선택한 경우 : 인덱스로 해도 되고 이름을 지정해도 됨

                                                 df[시작인덱스:끝인덱스+1], df[시작인덱스명:끝인덱스명]

  *[]안에 ":"없이 단일 이름을 사용하면 컬럼명으로 탐색하게 된다.

  * 날짜 인덱스는 '19000101'로 해도 되고 '1900-01-01'로 해도됨

 

  vba의 range("a1").value와 같은 기능이 필요하면 df.loc['인덱스명','컬럼명'] 사용

  vba의 range("a1:b1").value와 같은 기능이 필요하면 df.loc['인덱스명',['컬럼명1', '컬럼명2' ] ]사용

  vba의 range("a1:b2").value와 같은 기능이 필요하면 df.loc['인덱스명1': '인덱스명2' ,['컬럼명1', '컬럼명2' ] ]사용

 

 인덱스 번호로 행렬을 선택하고 싶다면 df.iloc[3:6. 0:3], 인덱스가 0부터 시작하고 끝지정값은 가져오지 않으므로 4~6 행, 1~3열의 값을 가져옴

 

 인덱스가 날짜인 경우 특정 월만 가져오려면 df.loc[df.index.month == 3]와 같이 사용

 

- 칼럼 최대값 구하기

 아래와 같은 테이블이 있을 때 각 행별로 열의 최대값을 구하는 방법

    A  B
0  1 -2
1  2  8
2  3  1

df["C"] = df[["A", "B"]].max(axis=1)
    A  B  C
0  1 -2  1
1  2  8  8
2  3  1  3

 axis=1은 열기준으로 최대값을 계산하는 방식이고 axis=0을 하면 행기준의 최대값을 계산함

df[["A", "B"]].max(axis=0)
A    3
B    8