Python 썸네일형 리스트형 [ML] Machine Learning 들어가기 Machin Learning 머신러닝은 인공지능(AI)의 하위 집합이다. 학습과 개선을 위해 명시적으로 컴퓨터를 프로그래밍하는 대신, 컴퓨터가 데이터로 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 둔다. 머신러닝에서 알고리즘은 대규모 데이터 세트에서 패턴과 상관관계를 찾고 분석을 토대로 최적의 의사결정과 예측을 수행하도록 훈련된다. Scikit Learn - scikit learn은 python을 대표하는 머신러닝 라이브러리이다. - 오픈소스로 공개되어 있으며, 누구나 무료로 사용가능하다. scikit learn을 대표하는 6가지 기능 Classification(분류) : 범주화, 카테고리를 나누는 것 Regression(회귀) : 수치형 데이터 예측(선형인지 비선형인지), 가설에 미치는 다양한 .. 더보기 [ML] 모델 평가 모델 평가 머신러닝에서 우리가 모델을 잘 예측했는지 확인하기 위해 여러가지 평가 방법들을 사용한다. 크게 분류와 회귀에서 사용하는 평가 방법들로 나눠볼 수 있다. 분류 모델 평가 분류에서는 예측값이 정답값과 맞다 틀리다고 비교할 수 있기 때문에 정확도(accuracy)로 확인한다. accuracy로 확인하는 방법은 여러가지가 있다. (여기서 y_predict는 X_test를 이용하여 만든 예측값이고 y_test는 정답값이다.) 1. 직접 수식을 작성해보기 (y_predict == y_test).mean() 2. 미리 구현된 알고리즘 사용하기 from sklearn.metrics import accuracy_score accuracy_score(y_predict, y_test) 3. model.score로.. 더보기 [Python] groupby와 pivot_table groupby와 pivot_table은 테이블을 원하는 데이터만 뽑아 그룹화 하여 보여주는 대표적인 pandas 기능이다. 두 함수의 기능은 비슷하기 때문에 기본적인 연산을 하기 위한 목적이면 뭐를 쓰는 크게 상관이 었다. 차이점은 반환값이 groupby는 컬럼이 series 형태라면 series로 반환하고 pivot_table은 항상 데이터프레임을 반환한다. 1. 두 함수를 비교해서 설명 df.groupby(by=['col1', 'col2'])['col3'].count() 에서 ['col1', 'col2'] 는 그룹화를 하기 위한 컬럼들이고 ['col3']는 그룹화를 하여 보고싶은 value이다. 마지막은 꼭 집계함수가들어가야한다. df.pivot_table(index=['col1', 'col2'], .. 더보기 [Python] Streamlit과 Github 실습 수업시간에 배운 데이터 분석한 결과를 대쉬보드로 보여주는 Streamlit과 이를 github로 연동하는 방법을 실습해 보았다. 데이터는 sns의 내장 데이터인 titanic을 활용하였다. Visual Studio를 사용하여 titanic 데이터를 활용해 분석하고 시각화를 한 파이썬 파일을 만들었다. 그리고 Streamlit run titanic.py를 이용하여 Streamlit에 대쉬보드로 시각화 해주었다. titanic 파이썬 파일에 대한 코드는 다음과 같다. import pandas as pd import numpy as np import seaborn as sns from matplotlib import pyplot as plt import koreanize_matplotlib import str.. 더보기 [Pandas] 데이터 수집 - 웹스크래핑(Json) 네이버 금융에서 ETF 리스트 스크래핑하기(크롬에서 가능) 1. 데이터 수집하기 네이버 금융에서 ETF 사이트에 들어갑니다. https://finance.naver.com/sise/etf.nhn 개발자도구(f12)에 들어가 Network 탭에서 '전체' 항목의 url을 찾아줍니다. url에서 callback은 불필요하므로 지워줍니다. callback을 지우고 url의 정보를 봐보면 json인 것을 확인할 수 있습니다. 필요한 라이브러리를 불러오고 requests.get을 이용하여 url을 가져옵니다. import pandas as pd import numpy as np import requests url = 'https://finance.naver.com/api/sise/etfItemList.nhn?et.. 더보기 [Pandas] 데이터 수집 - 웹스크래핑 네이버 금융 홈페이지에서 종목 뉴스 스크래핑하기(크롬에서 가능) 1. 데이터 수집하기 네이버 금융 홈페이지에서 원하는 종목을 검색하여 들어갑니다. https://finance.naver.com/item/news.naver?code=005930 개발자 도구(f12)에 들어가 Network 탭에서 종목뉴스에 관한 URL을 찾아줍니다. 필요한 라이브러리를 불러오고 pd.read_html()을 사용하여 url 안에 내용을 불러옵니다. import pandas as pd import numpy as np item_name = '삼성전자' item_code = '005930' page_no = 1 url = f'https://finance.naver.com/item/news_news.naver?code={item_.. 더보기 이전 1 ··· 7 8 9 10 11 다음