본문 바로가기

Python

[Seaborn] Distribution Plots 1. Distribution Plots distribution plots는 데이터의 분포를 보기 위한 데이터 시각화 그래프이다. seaborn의 distribution plots는 histplot, kdeplot, ecdfplot, rugplot, displot 다섯가지가 있다. 데이터의 평균, 중위수, 범위, 분산, 편차 등을 이해할 수 있다. 2. Distribution Plots의 그래프 종류 2-1. Hist Plot histplot은 히스토그램으로 변수의 분포를 구간별로 나누어 막대그래프로 나타낸다. 구간은 bins를 이용하여 직접 정할 수 있다. sns.histplot(data=penguins, x="flipper_length_mm", bins=30) hue를 사용하여 변수 하나를 더 추가해 .. 더보기
[Seaborn] Relational Plots 1. Relational Plots relational plots는 변수간의 상관관계를 찾기 위해 사용하는 데이터 시각화 그래프이다. seaborn의 relational plots는 relplot, scatterplot, lineplot 세가지가 있다. 변수간의 상관관계를 찾는 그래프이므로 수치형 데이터에 최적화 되어있다. 2. Relational Plots의 그래프 종류 2-1. Scatter Plot scatterplot은 산점 분포도로 x와 y의 상관관계를 나타낸다. sns.scatterplot(data=tips, x="total_bill", y="tip") hue를 사용하여 변수 하나를 더 추가해 다른 색으로 구분지을 수 있다. 주로 범주형 변수를 추가할 때 사용하며, groupby와 같은 효과를.. 더보기
[Seaborn] 들어가기 1. Seaborn이란? matplotlib 기반 파이썬 시각화 라이브러리로 high-level interface라는 장점이 있고 화려한 시각화뿐만 아니라 통계적인 연산도 가능하다. *high-level interface: 기술이 잘 감춰져 있어 사용하기 쉽다. 2. Seaborn의 시각화 종류 seaborn은 크게 3가지 형태의 데이터 plot, 2가지 형태의 통계분석 plot, 3가지 multi-plot Grid을 지원합니다. 2-1. 데이터 plot [relational plots] rel plot - scatter plot - line plot # 상관관계를 시각화하는데 최적화 [distribution plots] dis plot - hist plot - kde plot - ecdf plot - .. 더보기
Pandas(1) Pandas란? 판다스는 Series() 클래스의 종류로 다른 종류의 데이터로 구성된 1차원 데이터인 시리즈 객체를 생성, 처리하거나 2차원 데이터인 DataFrame() 클래스 객체를 생성, 처리하는 모듈 Pandas 시작하기 Pandas 불러오기 import pandas as pd DataFrame 만들기 빈 DataFrame 만들기 df = pd.DataFrame() 딕셔너리로 DataFrame 만들기 df = pd.DataFrame({'과일' : ['사과', '바나나', '수박', '오렌지'], '가격' : [3000, 2500, 5000, 2500]}, index=[ ]) *index 인자를 사용하여 index 설정도 가능 DataFrame column 추가하기 df['col'] = [ 1, 2.. 더보기