프로젝트 최종 PPT
Github repository : ‣
마켓컬리 7번) 2021 농산물 가격 예측 AI 경진대회 - 데이콘
https://dacon.io/competitions/official/235801/overview/description
마켓컬리: 상품별 적정가를 예측하고, 유지(갱신/모니터링)하는 모델
구분 | 평가 항목 | 채점 기준 |
---|---|---|
준비 | 비즈니스 현황과 분석 배경을 명확하게 인식했는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) |
데이터 분석 목표와 방향을 명확하게 설정했는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
적절한 분석 방법을 올바르게 정의했는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
분석에 필요한 데이터는 실제 활용 가능하며 적절한가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
실행 | 데이터 분석 모델링을 위해 올바른 절차대로 진행하였는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) |
다양한 시각화 및 통계 분석을 통해 데이터의 특성을 충분히 파악하였는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
적절한 분석 방법을 적용하고 올바르게 해석했는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
정해진 시간 안에 설정된 분석 과정을 모두 수행했는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
결과 | 분석 목표에 맞는 올바른 분석 결과가 도출되었는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) |
새로운 가치 및 일하는 방식의 변화 관점에서 의미 있는 효과를 제시했는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) | |
비즈니스 관점의 정량화된 기대 효과를 합리적으로 산출하였는가? | 미흡(0점) 보완(1점) 만족(2점) 우수(3점) |
기획기간 | 0905 월: 첫 미팅 | 0906 화 | 0907 수 | 0908 목 | 0909 금: 추석 연휴 | 주말 |
---|---|---|---|---|---|---|
공통 과업 | - 마켓컬리 기업 분석 |
| | 정주훈 | - 매니징: 협업 틀 제안 | - 프로젝트 방향 설정 (농산물 가격 변인 탐색)
농넷 dacon data_set 탐색 | (공통과제) | - 패캠 [ARIMA] 학습
유튜브 시계열(time series) 코드구현 실습 영상 탐색/선별 | | | | 조현영 | 전자공시시스템 재무제표 확인, 홈페이지등으로 농산물 매입바업 내용을 확인, 신문 기사 확인 | 마켓컬리 유사기업 조사, 농산물 유통과정 논문조사 | (공통과제) | 시계열 기본 이론 학습 | | | | 최윤아 | 마켓컬리 기업 분석 | 마켓컬리 내 신선식품 리스트 추출 (논문 및 기사 참고) 신선식품 관련 데이터 수집 | (공통과제) | 선정한 프로젝트 데이터로 실제 모델 구현시도 → 시계열에 대한 기본 개념 공부 | | | | 기획기간 | 0912 월: 추석 연휴 | 0913 화 | 0914 수 | 0915 목 | 0916 금 | 주말 | | 공통 과업 | | - 시계열 예측값 도출 시연
10시반: 강사님 상담
1시: David 멘토링 | - 기획발표 내용 채우기
PROPHET (Part1_ARIMA) | - 기획발표 초안
**PROPHET (Part2_PROPHET)
회의 : 정확한 업무 분담 (1~4시)** | - 기획발표 PPT - PROPHET (Part2 PROPHET) | - PPT 제작 및 발표 준비 | | 권태하 | | | | | - 패스트캠퍼스 PROPHET 강의 학습
PROPHET보강 블로그 개념학습중 | | | 박찬샘 | | | | | **축! 인재 영입!
기획 주간 자료 보기 -** PROPHET 코드구현
패스트캠퍼스 PROPHET 강의 학습 | - 패스트캠퍼스 PROPHET 강의 학습 | | 정주훈 | | - PROPHET 코드구현 모방/해석 | | - 발표자료 초안 작성 | - 발표자료 작성 / 스크립트 작성 | | | 조현영 | | - Prophte, Lstm 코드구현 학습 | | - 발표자료 PPT 제작 | - 발표 PPT 제작 | | | 최윤아 | | - Prophet, LSTM 프로젝트 데이터에 적용 | - 기획발표 PPT 초안 작성
패스트캠퍼스 시계열 강의 part1 듣고 노션 정리 | - 기획발표 PPT 초안 작성
패스트캠퍼스 시계열 강의 part1 듣고 노션 정리 | - PROPHET 강의 내용 복습을 위해 프로젝트 데이터로 모델 학습 중(2016년 1년치 데이터) | - 노션 프로젝트 기록 정리 | | 기획보완 | 0919 월: 기획 발표 | 0920 화: 기획 발표 | 0921 수 | 0922 목 | 0923 금 | 주말 | | 공통 과업 | - 오늘 발표 토대로 상담전 멘토님께 자료 송부 | - 시계열 예측모델 구현/적용 | - 4 ~ 5시 30분: David 멘토링 | **- (회의) : 2 ~ 3시, 4 ~ 4시 30분
데이콘 raw data(201601 - 202009) EDA**
3 ~ 4시: David 멘토링 | - 데이콘 raw data(201601 - 202009) EDA | | | 권태하 | - PROPHET 패캠강의와 윤아님께서 공유해주신 복습자료를통한 학습
새롭게 제공된 시계열 패캠강의 학습
Geopandas 대한 적용가능여부판단과 학습 진행 | - 새롭게 제공된 시계열 패캠강의 학습
Geopandas 대한 적용가능여부판단과 학습 진행 | | - Geojson 데이터 구축 (실현가능성 낮음)
머신러닝과 딥러닝 시계열 패캠 강의 학습 -향우 저희 모델링에 관한 논의
DACON 농산물 데이터 EDA진행 | - DACON 농산물 데이터 EDA진행
[현영님 추천]인공신경망 채소류 가격․단수 예측 모형 연구 논문 학습 public_data/train_AT_TSALET_ALL/csv 파일 병합 | - DACON 농산물 데이터 EDA진행
휴식???
남은 시간에 머신러닝/딥러닝 시계열 강의 학습 | | 박찬샘 | - 패스트캠퍼스 PROPHET 강의 학습
시계열 데이터 예측 모델 찾아보기(lightGbm, xgboost,rf ,..) | - data 전처리/EDA
linear regression 모델로 예측 | - 시계열 데이터 예측 모델 구현 해보기(lightGbm, xgboost,randomforest ) | -LSTM 네트워크를 활용한 농산물 가격 예측 모델 논문에서 참고할 사항 보기 -멘토링 | - 데이콘 전처리 전 데이터파일 손실없이 병합하기 -EDA | | | 정주훈 | - 데이콘 data 품목별 시각화 → 계절성확인 for 시계열모델 | - 데이콘 data 전처리/EDA | | OUT | | | | 조현영 | -가격 예측 유사사례(아파트 실거래가)탐색중[패캠강의 ‘파이썬을 활용한 데이터 전처리(전 코딩테스트 조에서 요청해서 받은 강의)] | - 데이콘 파일 EDA
농산물 도매시장 관련 내용 정리(참고자료 참조) | - 프로젝트 당근 데이터로 시계열데이터 예측하기{LSTM) | - 멘토링
향후 일정 및 진행방향 회의 | - 데이콘 train.csv(21개 품목 축약본) 가격 및 거래량 추세를 보기위한 EDA | | | 최윤아 | - PROPHET part3 강의 (모델 개선 궁금해서) → 프로젝트 데이터에 적용
[EDA] : 이상치 탐색, 품종별 궁금한거 시각화 | - 시계열 분석 A-Z 올인원 패키지 강의 수강 (ARIMA모델 위주)
데이터 EDA 진행 | - 주훈님이 올려주신 EDA 파일 확인
prophet hyper-parameter(프로젝트 데이터 당근 품목, 전 구간 사용) | - 마켓컬리 인기상품 ( 바나나, 콩나물, 애호박, 팽이버섯 ) / 궁금한 작물 ( 대파, 배추, 무, 양파, 마늘, 사과, 복숭아 ) EDA | - 마켓컬리 인기상품 ( 바나나, 콩나물, 애호박, 팽이버섯 ) / 궁금한 작물 ( 대파, 배추, 무, 양파, 마늘, 사과, 복숭아 ) EDA | | | 1차수행기간 | 0926 월 | 0927 화 | 0928 수 | 0929 목 | 0930 금 | 주말 | | 공통 과업 | **- EDA를 통한 인사이트로 품목 정하기
2시 ~ 3시 30분 : 멘토링 (피드백)
(회의) : 3시 30분 ~ 4시** | **- 품종 리스트 : 사과, 무, 배추, 대파, 건고추, 마늘(공통), 양파 +) 바나나, 애호박, 팽이버섯
외부 변수 데이터 탐색** | **- 외부 변수 데이터 수집
EDA 종합 및 정리** | - 4시 45분 ~ 5시 50분 : 강사님 | **- baseline model 구현
5시 ~ 5시 45분 : 강사님** | | | 권태하 | -RF학습에 관련한 멘토링 -데이터로드 방법 멘토링 -데이터 EDA | - 건고추, 마늘 EDA -외부요인 분석 | - 강원도 원주 혁신 도시 데이터 분석(사무직) 한국 관광 공사 면접 | - 마늘, 건고추 EDA | | | | 박찬샘 | 데이터 EDA 진행 | - 사과, 마늘 EDA
외부데이터 수집(유가) | - 예비군 | - 외부 데이터 병합, 전처리 | -모델링 | | | 조현영 | 데이터 EDA 및 멘토링 받음 | - 대파, 양파, 마늘 EDA | - 유가 EDA
외부데이터 수집(생산량, 재배면적) | - 외부데이터 | | | | 최윤아 | - ['양파', '무', '배추', '마늘', '대파', '건고추', '사과', '딸기'] EDA | - 무, 배추, 마늘 EDA
산지관련 columns EDA | - 산지 관련 columns 날씨 데이터와 일치하게 전처리 진행
날씨 관련 데이터 수집 | - 기상 데이터 전처리
전 품목 EDA | - 품목별 주산지 top1 확인
품종별 EDA 진행
국내 주산지 top1으로 baseline model 진행 | | | 1차수행기간 | 1003 월: 개천절 | 1004 화 | 1005 수 | 1006 목 | 1007 금: 중간 발표 | 주말 | | 공통 과업 | | | **- 중간발표 초안
3시 ~ 4시 : 멘토링** | - 중간발표 PPT | | | | 권태하 | | 모델링에 대한 이해력 부족 패스트캠퍼스 강의복습과 구글링으로 모델구현 연습 | | | | | | 박찬샘 | | -모델링 -피처 선정 | -중간발표 준비 -baseline, 모델링 함수화 | - 발표준비 -lstm 모델링 | -발표 진행! | | | 조현영 | | - 새로운 데이터로 EDA | - 중간발표 준비
LSTM 모델로 전품목 가격 예측 모델 만들기 | -중간 발표 자료 만들기 | - 중간발표 자료 제출
양파, 마늘 변수 다중공선성 | | | 최윤아 | | - 산지 결측치에 대해 drop하고 모델링 진행
품종별 EDA + 특성 확인
이상치 제거 및 품종별 예측할 가격대 지정을 위해 이상치 판단 | - 전품종 prophet baseline modeling 진행
PPT에 추가하고 싶은 내용 정리 | - ML model (LR, Lasso, Ridge, LGBM, XGBoost, RF) baseline modeling 진행
중간 발표 자료 만들기 | - AutoML(pycaret) - Regression 사과 품종
사과, 무 품종 모델링 진행 | | | 2차수행기간 | 1010 월: 한글날 | 1011 화 | 1012 수 | 1013 목 | 1014 금 | 주말 | | 공통 과업 | | | - 10시 30분 ~ 12시 : 멘토링 | | **- 11시 ~ 12시 : 멘토링
2시 ~ 2시 30분 : 기업 미팅** | | | 권태하 | | | | | | | | 박찬샘 | | | | | | | | 조현영 | | - 이동평균선 사용 모델 수정(1주일후 가격 예측으로)
전 품 무역 데이터 csv 파일로 변환 | - 가격과 상관관계 높은 외부 변수 조사 | - 프로젝트 목표 선정 및 내일 문의사항 정리를 위한 자료 정리 | - 이상치 관련 회의 | | | 최윤아 | | - 데이콘 코드 필사 → time series cross validation, Optuna 사용
Prophet 모델 사과 hyper-parameter tuning 진행 | - 품종별 AutoML, Autoviz 사용 | - feature selection을 위해 feature 경우의 수를 따져서 모델링 진행 | - 품종별 가격 분포 (1~99%) 데이터만 사용 후 모델링
회의로 시계열 관련 feature 정하기 | | | 2차수행기간 | 1017 월 | 1018 화 | 1019 수 | 1020 목 | 1021 금 | 주말 | | 공통 과업 | - 회의를 통해 feature selection, engineering | | | | | | | 권태하 | | | | | | | | 박찬샘 | | | | | | | | 조현영 | | - 환율, 금리 데이터 가공 | -발표자료제작 | -발표자료제작 | -발표자료 제작 | | | 최윤아 | - 금리, 환율과 같은 경제지표 활용해서 모델링 | - 품목의 품종별 가격대 확인 후 다른 가격대의 품종 drop
품목별 가격대 확인 후 모델링 | - 품종마다 LightGBM Optuna 활용하여 hyper-parameter tuning
이상치 제거한 parquet 파일 공유 | - 품종별 여러 가지 모델링 진행 | - 발표자료 제작 | |
| 최종 발표 | 1024 월: 최종 발표 | 1025 화: 최종 발표 | 1026 수 | 1027 목 | 1028 금: 우수조 시상 | |
| 이후 일정 | 1차 인재 매칭 기간 | 10/28(금) ~ 11/11(금) | 2차 인재 매칭 기간 | 10/28(금) ~ 11/11(금) | | |