Python/ML 썸네일형 리스트형 [ML] Bike Sharing Demand https://www.kaggle.com/competitions/bike-sharing-demand Bike Sharing Demand | Kaggle www.kaggle.com 1. Bike Sharing Demand 개요 bike sharing demand는 캐글에서 진행했던 데이터 분석 경진 대회의 한 주제이다. 워싱턴 D.C에서 자전거를 대여한 데이터로 우리나라의 따릉이 자전거 데이터와 비슷하고 목표는 매시간 빌려진 자전거의 수를 예측하는 문제(종속변수)이다. tip) 경진대회 이름에 demand가 들어가면 대부분 수요예측 문제이다. 2. 데이터 종류 3. 데이터 확인하기 info()를 사용하여 결측값이 없다는 것을 확인하였고 datetime을 이용하여 시계열 데이터를 만들었다. 이를 histog.. 더보기 [ML] One-Hot-Encoding One-Hot-Encoding 머신러닝을 돌릴 때 object 타입이 있으면 오류가 난다. 그래서 object 타입의 값들을 수치형으로 변환시켜줘야 머신러닝이 잘 돌아간다. 이때 object 타입을 0과 1로 구분지어 컴퓨터가 인식할 수 있도록 하는 인코딩을 One-Hot-Encoding이라고 한다. One-Hot-Encoding 함수 및 라이브러리 Pandas에서는 One-Hot-Encoding을 get_dummies 메서드로 지원하고 있다. Sklearn에서는 One-Hot-Encoding을 OneHotEncoder 객체로 지원하고 있다. 주로 pandas에 get_dummies를 사용하는데 이유는 수치형 데이터와 범주형 데이터를 같이 넣어주어도 수치형 데이터는 그대로 두고 범주형 데이터에 대해서만 .. 더보기 [ML] GridSearchCV, RandomizedSearchCV GridSearchCV 와 RandomizedSearchCV는 최적의 하이퍼파라미터 값을 찾아주는 튜닝 방법이다. 여기서 하이퍼파라미터는 어떻게 설정하냐에 따라 모델의 성능이 달라진다. 모델 성능을 더 개선하고 싶을 때 사용한다. 1. GridSearchCV - 시도해볼 파라미터를 지정하면, 모든 조합에 대해 교차검증 후 가장 좋은 성능을 내는 하이퍼파라미터 조합을 찾는다. - 단, 하이퍼파라미터 값들이 많아지면 시간이 오래걸린다는 단점이 있다. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html sklearn.model_selection.GridSearchCV Examples using sk.. 더보기 [ML] Machine Learning 들어가기 Machin Learning 머신러닝은 인공지능(AI)의 하위 집합이다. 학습과 개선을 위해 명시적으로 컴퓨터를 프로그래밍하는 대신, 컴퓨터가 데이터로 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 둔다. 머신러닝에서 알고리즘은 대규모 데이터 세트에서 패턴과 상관관계를 찾고 분석을 토대로 최적의 의사결정과 예측을 수행하도록 훈련된다. Scikit Learn - scikit learn은 python을 대표하는 머신러닝 라이브러리이다. - 오픈소스로 공개되어 있으며, 누구나 무료로 사용가능하다. scikit learn을 대표하는 6가지 기능 Classification(분류) : 범주화, 카테고리를 나누는 것 Regression(회귀) : 수치형 데이터 예측(선형인지 비선형인지), 가설에 미치는 다양한 .. 더보기 [ML] 모델 평가 모델 평가 머신러닝에서 우리가 모델을 잘 예측했는지 확인하기 위해 여러가지 평가 방법들을 사용한다. 크게 분류와 회귀에서 사용하는 평가 방법들로 나눠볼 수 있다. 분류 모델 평가 분류에서는 예측값이 정답값과 맞다 틀리다고 비교할 수 있기 때문에 정확도(accuracy)로 확인한다. accuracy로 확인하는 방법은 여러가지가 있다. (여기서 y_predict는 X_test를 이용하여 만든 예측값이고 y_test는 정답값이다.) 1. 직접 수식을 작성해보기 (y_predict == y_test).mean() 2. 미리 구현된 알고리즘 사용하기 from sklearn.metrics import accuracy_score accuracy_score(y_predict, y_test) 3. model.score로.. 더보기 이전 1 2 다음