본문 바로가기

멋사 AI SCHOOL에서

[AI SCHOOL] Mini_Project_2 (주제: 서울시 편의점 데이터 분석)

1. 주제 선정

이번 두번째 미니프로젝트는 EDA 활용을 중점으로 한 프로젝트이다. 주제를 골라 지금까지 배웠던 EDA를 활용하여 데이터를 분석하는 것이다. 저번이랑 동일하게 팀원분들 각자 주제 하나씩 선정하여 가져와 투표하는 방식으로 하였다. 그렇게 선정된 주제는 '서울시 편의점 데이터 분석'이다. 주제의 목적은 서울시에 있는 편의점들의 데이터를 가져와 자치구별로 편의점 데이터를 분석하여 편의점의 갯수가 인구수와 어떤 상관관계가 있는지 찾는 것이었다. 그래서 우리는 각자 자치구 5개씩 나눠 맡아 데이터 분석을 하기로 했다.

 

2. 진행과정

2-1. 데이터 수집 과정

https://data.seoul.go.kr/dataList/OA-16095/S/1/datasetView.do

서울 열린 데이터광장에서 편의점이 포함되어 있는 공공데이터를 찾았다. 서울시 휴게음식점 인허가 정보라는 데이터인데 이는 주로 다류, 아이스크림류 등을 조리하여 판매하거나 패스트푸드점 또는 공항 등에서 음식류를 조리하여 판매하며, 음주행위가 허용되지 않는 업소정보이다. 다양한 데이터를 포함하고 있어 시간만 있으면 다른 주제로도 해보고싶다는 생각을 했다. 그리고 이번 데이터도 서울 열린 데이터 광장에서 자치구단위 서울생활인구 일별 집계표를 가져왔다. 이 데이터는 서울 생활인구의 일별 집계 정보. 기준일, 시군구코드, 시군구명, 총생활인구수, 내국인생활인구수, 장기체류외국인인구수, 단기체류외국인인구수, 일최대인구수, 일최소인구수, 주간인구수, 야간인구수, 일최대이동인구수 등을 제공하고 있다.

 

2-2. 라이브러리 불러오기

내가 데이터를 분석하기 위해 필요한 라이브러리들을 불러오고 시각화 도구들도 같이 불러왔다.

 

2-3. 데이터 불러오기

데이터를 불러오는 과정에서 애를 먹었다. 서울시 휴게음식점 인허가 정보 데이터가 가져와지지 않았다. encoding 문제인가 싶어 여러 인코딩으로 불러보았지만 가져오질 못했다. 그래서 결국 csv 파일을 엑셀 파일로 변경하여 거의 대부분이 결측치인 데이터 컬럼을 삭제하고 csv파일로 다시 저장을 해서 불러와보니 다행히 불러와졌다. 

2-4. 데이터 확인하기

주제가 편의점 데이터 분석이기에 업태구분명에서 편의점만 인덱싱하여 데이터를 가져왔다.

2-5. 데이터 전처리 - 결측치 제거

데이터의 결측치를 확인해보니 꽤 많은 결측치가 있었다. 여기서 나는 아래와 같은 이유들을 고려하여 결측치를 처리해줬다.

다음과 같은 결측치 제거 과정을 통해 모든 결측치들을 제거하였다.

 

2-6. 데이터 전처리 - 컬럼 추가하기

데이터에 날짜가 있으면 아주 중요한 정보라 생각한 나는 인허가일자를 보고 map함수를 사용하여 제일 먼저 시계열 데이터를 만들었다.

그다음 지번주소에 split을 활용하여 자치구를 구분한 후에 내가 분석하고자 하는 자치구를 따로 뽑아냈다.

마지막으로 반복문을 활용하여 편의점 종류를 대략적으로 확인한 후에 편의점 종류를 분류하여 편의점명 컬럼을 만들어주었다.

2-7 데이터 통계 및 시각화

describe를 통해 수치형, 변수형 통계값을 확인하였다.

편의점 점포 갯수를 시각화 해보니 gs가 가장 많고 다음으로 cu, 세븐이 많은 것을 한눈에 확인해 보았다.

연도별 편의점을 확인해보니 gs와 cu가 급격하게 성장하였음을 확인할 수 있었다.

다음은 자치구별 편의점별 갯수인데 영등포구에 gs가 많고 금천구에는 cu가 많은 것을 알 수 있었고 영등포 강서구 순으로 편의점의 갯수가 많은 것을 확인할 수 있었다.

이건 자치구별 편의점별 상세영업상태명인데 빨간색 그래프가 영업중이고 파란색 그래프가 폐업한 편의점이다. 보면 영등포구에 gs가 영업한 것도 많지만 폐업한 수도 많아 위의 그래프에서 gs가 독보적으로 많은 이유임을 알 수 있었다.

마지막으로 인구수 데이터에서 인구수를 시각화하여 비교해본 결과이다. 인구수 데이터를 좀 더 활용해 보고 싶었지만 데이터들 활용하기에는 아직 나의 인사이트 능력이 부족했다.

3. 마무리

서울시 공공데이터에서 휴게음식점 인허가 정보를 다운받아 편의점을 추출하여 편의점에 대한 데이터를 전처리 하였다. 그리고 찾고자하는 자치구를 선정하고 편의점 인허가일자를 인덱싱하여 년 월 일로 시계열 데이터를 만들었고 편의점 사업장명을 contains하여 편의점 별로 구분하였다. 그렇게 전처리한 데이터를 편의점 별, 날짜별로 여러가지 시각화를 해보며 주로 어느 지역에 어떤 편의점이 많은지를 알 수 있었고 서울시 인구수 데이터를 가져와 비교해보며 인구수와 편의점 점포 갯수가 상관이 있는지를 알아봤다. 나름 깔끔한 전처리를 했다고 생각하여 뿌듯했고 아쉬웠던 점은 서울시 인구수 데이터와 편의점 갯수의 다양한 상관관계를 보고 싶어 데이터를 합치고 싶었지만 데이터를 병합하기를 실패하고 결국 따로따로 시각화하여 눈대중으로 확인하였다. 그리고 도메인 지식이 좀 더 있었더라면 더 다양한 인사이트를 도출했을 것 같은 아쉬움도 남았다.