본문 바로가기

Python/ML

[ML] 머신러닝 - TIL(11월 22일 오후) 목차 1. Support Vector Machine 2. Nonlinear SVM 3. SVM Regression 1. Support Vector Machine 1-1. Support Vector Machine - 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 머신러닝 방법론 - 딥러닝 이전 시대까지 널리 사용된 방법론 - 복잡한 분류 문제를 잘 해결, 상대적으로 작거나 중간크기를 가진 데이터에 적합 - 최적화 모형으로 모델링 후 최적의 분류 경계 탐색 특징 - 두 클래스 사이에 가장 넓이가 큰 분류 경계선을 찾음 - Support Vector 라고 하는 것은 각각의 클래스에서 분류 경계선을 지지하는 관측치들 - 스케일에 민감하기 때문에 변수들 간의 스케일을 잘 맞춰주는 것이 중요 1-2.. 더보기
[ML] 머신러닝 - TIL(11월 22일 오전) 목차 1. 최적화와 모형학습 2. 경사하강법 개요 3. 경사하강법 심화 1. 최적화와 모형학습 - 머신러닝의 최적화는 Loss(손실)을 최소화하는 모델을 찾는 것이다. - 대부분의 데이터들은 3차원 이상의 복잡한 Loss function을 가지고 있다. - 그에 맞는 함수를 사용하는 적합한 모델을 찾는 것도 중요하다. 2. 경사하강법 개요 경사하강법(Gradient Descent)은 처음에 random의 w로 시작하여 미분값이 0이되는 지점으로 한발자국씩 나아가간다. 미분값이 0이라는 것은 손실값이 0이라는 것인데 사실상 손실값 0 은 불가능에 가깝기 때문에 최대한으로 근접을 한 w값을 찾는 것이다. 3. 경사하강법 심화 3-1. Learning rate learning rate는 미분값이 0인 곳으로 .. 더보기
[ML] 머신러닝 - TIL(11월 21일) 목차 1. Introduction to Machine Learning 1-1. 인공지능과 머신러닝 개요 1-2. 머신러닝 학습 개념 1-3. 머신러닝 프로세스 및 활용 1-1. 인공지능과 머신러닝 개요 인공지능이란? 인공지능을 전통적인 인공지능(Traditional AI)과 현대의 인공지능(State of the art AI)으로 분류하여 설명을 해보면 전통적인 인공지능은 사람이 직접 최적의 함수를 구해 데이터와 함수를 같이 컴퓨터로 학습을 시키는 과정이다. 하지만 현대의 인공지능은 데이터를 가지고 컴퓨터가 직접 학습을 하여 최적의 함수를 찾은 후에 이를 바탕으로 직접 테스트도 하는 과정이다. 이를 머신러닝이나 딥러닝이라고 부른다. 머신러닝이란? 머신러닝은 컴퓨터 알고리즘에 대한 학습 과정으로 자동으로 .. 더보기
[ML] House Prices https://www.kaggle.com/c/house-prices-advanced-regression-techniques/ House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 1. House Prices 개요 아이오와주 에임스에 있는 주거용 주택의 모든 측면을 설명하는 79개의 피처가 있는 이 대회는 주택의 최종 가격을 예측하는데 도전한다. 79개의 특성들을 활용하여 주택 가격을 예측하는 이 대회는 많은 피처들을 전처리해야한다. 즉, EDA 실력 향상에 큰 도움이 되는 대회이다. 2. 데이터 종류 3. 데이터 확인하기 이번 대회에서는 concat을 활용하여 train 셋과 test 셋을 합쳐서 한번에 전처리 하는 방법으로 실습을 .. 더보기
[ML] 왜도와 첨도 🤔 왜도와 첨도를 알아야하는 이유 왜도와 첨도가 무엇인가를 알기 전에 왜도와 첨도를 왜 알아야하는가에서 부터 시작해보자. 우리가 데이터를 분석하여 모델링을 하였을 때 모델이 더 정확하게 분석하여 높은 성능을 나타내려면 데이터의 분포가 정규분포 형태일 때가 가장 베스트이다. 하지만 많은 데이터들은 정규분포가 아닌 데이터일 가능성이 매우 높다. 결국 우리가 왜도와 첨도를 알아야 할 이유는 정규분포를 만들기 전 어떤 형태로 데이터가 분포되어 있는지를 알기 위해서이다. 📝 왜도(Skewness) 왜도는 확률변수의 확률분포가 비대칭성을 나타내는 지표이다. 왜도가 음수일 경우에는 왼쪽으로 꼬리가 길며(왼쪽그래프) 오른쪽에 데이터가 많이 분포해 있다. 왜도가 음수일 경우에는 오른쪽으로 꼬리가 길며(오른쪽그래프) 왼쪽.. 더보기
[ML] 피처 엔지니어링(Feature Engineering) 📢 피처 엔지니어링이란? 피처 엔지니어링은 데이터에 대한 지식을 바탕으로 특성(feature)을 생성, 변경, 삭제 등 조작하여 사용하기에 더욱 유용한 형태로 만드는 과정이다. 피처 엔지니어링은 탐색적 데이터 분석(EDA)를 한 후에 모델의 성능을 올리기 위해 작업을 하는 경우가 많지만 피처 엔지니어링을 거쳐야 EDA를 할 수 있는 상황이나 EDA를 하는 도중 새로운 값을 알기 위해 피처엔지니어링을 하는 상황등이 발생하기도 한다. 그래서 딱 정해진 순서가 있는 것은 아니다. 피처 엔지니어링의 분류 특성 선택(Feature Selection) - 해당 분야의 전문가의 지식이나, 특성의 중요도에 따라 일부 특성을 버리거나 선택하는 것 특성 추출(Feature Extraction) - 특성들의 조합으로 아예 .. 더보기