λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

Python/ML

[ML] μ™œλ„μ™€ 첨도

πŸ€” μ™œλ„μ™€ 첨도λ₯Ό μ•Œμ•„μ•Όν•˜λŠ” 이유

μ™œλ„μ™€ 첨도가 무엇인가λ₯Ό μ•ŒκΈ° 전에 μ™œλ„μ™€ 첨도λ₯Ό μ™œ μ•Œμ•„μ•Όν•˜λŠ”κ°€μ—μ„œ λΆ€ν„° μ‹œμž‘ν•΄λ³΄μž. μš°λ¦¬κ°€ 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ λͺ¨λΈλ§μ„ ν•˜μ˜€μ„ λ•Œ λͺ¨λΈμ΄ 더 μ •ν™•ν•˜κ²Œ λΆ„μ„ν•˜μ—¬ 높은 μ„±λŠ₯을 λ‚˜νƒ€λ‚΄λ €λ©΄ λ°μ΄ν„°μ˜ 뢄포가 μ •κ·œλΆ„ν¬ ν˜•νƒœμΌ λ•Œκ°€ κ°€μž₯ λ² μŠ€νŠΈμ΄λ‹€. ν•˜μ§€λ§Œ λ§Žμ€ 데이터듀은 μ •κ·œλΆ„ν¬κ°€ μ•„λ‹Œ 데이터일 κ°€λŠ₯성이 맀우 λ†’λ‹€. κ²°κ΅­ μš°λ¦¬κ°€ μ™œλ„μ™€ 첨도λ₯Ό μ•Œμ•„μ•Ό ν•  μ΄μœ λŠ” μ •κ·œλΆ„ν¬λ₯Ό λ§Œλ“€κΈ° μ „ μ–΄λ–€ ν˜•νƒœλ‘œ 데이터가 λΆ„ν¬λ˜μ–΄ μžˆλŠ”μ§€λ₯Ό μ•ŒκΈ° μœ„ν•΄μ„œμ΄λ‹€.

 

πŸ“ μ™œλ„(Skewness)

  • μ™œλ„λŠ” ν™•λ₯ λ³€μˆ˜μ˜ ν™•λ₯ λΆ„포가 λΉ„λŒ€μΉ­μ„±μ„ λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œμ΄λ‹€.
  • μ™œλ„κ°€ 음수일 κ²½μš°μ—λŠ” μ™Όμͺ½μœΌλ‘œ 꼬리가 κΈΈλ©°(μ™Όμͺ½κ·Έλž˜ν”„) 였λ₯Έμͺ½μ— 데이터가 많이 뢄포해 μžˆλ‹€.
  • μ™œλ„κ°€ 음수일 κ²½μš°μ—λŠ” 였λ₯Έμͺ½μœΌλ‘œ 꼬리가 κΈΈλ©°(였λ₯Έμͺ½κ·Έλž˜ν”„) μ™Όμͺ½μ— 데이터가 많이 뢄포해 μžˆλ‹€.
  • 평균과 쀑앙값이 κ°™μœΌλ©΄ μ™œλ„λŠ” 0이 λœλ‹€.
  • νŒŒμ΄μ¬μ—μ„œ skew()λ₯Ό μ‚¬μš©ν•˜μ—¬ μ•Œ 수 μžˆλ‹€.

 

πŸ“ 첨도(Kurtosis)

  • μ²¨λ„λŠ” ν™•λ₯ λΆ„ν¬μ˜ λΎ°μ‘±ν•œ μ •λ„μ˜ 척도λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œμ΄λ‹€.
  • 뢄포가 평균값에 μ–Όλ§ˆλ‚˜ λͺ¨μ—¬μžˆλŠ”μ§€λ₯Ό μ˜λ―Έν•œλ‹€.
  • 첨도값(K)이 3에 κ°€κΉŒμš°λ©΄ 산포도가 μ •κ·œλΆ„ν¬μ— 가깝닀.
  • 3보닀 μž‘μ„ κ²½μš°μ—λŠ”(K<3) μ •κ·œλΆ„ν¬λ³΄λ‹€ 더 μ™„λ§Œν•˜κ²Œ λ‚©μž‘ν•œ λΆ„ν¬λ‘œ νŒλ‹¨ν•  수 있으며,
  • 첨도값이 3보닀 큰 μ–‘μˆ˜μ΄λ©΄(K>3) μ‚°ν¬λŠ” μ •κ·œλΆ„ν¬λ³΄λ‹€ 더 λΎ°μ‘±ν•œ λΆ„ν¬λ‘œ 생각할 수 μžˆλ‹€.
  • νŒŒμ΄μ¬μ—μ„œ kurt()λ₯Ό μ‚¬μš©ν•˜μ—¬ μ•Œ 수 μžˆλ‹€.

β€» fisher의 μ •μ˜λ₯Ό μ‚¬μš©ν•˜λ©΄ κ²°κ³Όμ—μ„œ 3.0을 λΉΌμ„œ μ •κ·œλΆ„ν¬μ— λŒ€ν•΄ 0.0이 λœλ‹€.

 

πŸ“ μ •κ·œλΆ„ν¬(Normal Distribution)

  • μ •κ·œλΆ„ν¬λŠ” 평균을 κΈ°μ€€μœΌλ‘œ μ’Œμš°κ°€ λŒ€μΉ­μΈ κ·Έλž˜ν”„μ΄λ‹€.
  • μ™œλ„μ™€ 첨도가 0이며 κ²°κ΅­ 이 ν˜•νƒœλ₯Ό λ§Œλ“€κΈ° μœ„ν•΄ μ™œλ„μ™€ 첨도λ₯Ό μ•Œμ•„μ•Ό ν•˜λŠ” 것이닀.
  • μ •κ·œλΆ„ν¬κ°€ μ•„λ‹Œ κ·Έλž˜ν”„λ₯Ό μ •κ·œλΆ„ν¬μ— κ°€κΉκ²Œ λ§Œλ“€μ–΄μ£ΌκΈ° μœ„ν•΄ μ‚¬μš©ν•˜λŠ” 방법이 둜그λ₯Ό μ·¨ν•΄μ£ΌλŠ” 것이닀.

'Python > ML' μΉ΄ν…Œκ³ λ¦¬μ˜ λ‹€λ₯Έ κΈ€

[ML] λ¨Έμ‹ λŸ¬λ‹ - TIL(11μ›” 21일)  (0) 2022.11.21
[ML] House Prices  (0) 2022.11.16
[ML] ν”Όμ²˜ μ—”μ§€λ‹ˆμ–΄λ§(Feature Engineering)  (0) 2022.11.10
[ML] Bike Sharing Demand  (0) 2022.11.08
[ML] One-Hot-Encoding  (0) 2022.11.03