📑 목차
제주시 농업·기후 데이터로 감귤 생산 예측 모델 만들기
제주도는 감귤이 지역 경제와 농가 소득의 핵심 작물로 자리 잡은 섬이다.
감귤 생산량은 품종·생육기·수확기뿐 아니라 기상 변수(기온, 강수, 일조, 저온 피해), 토양 수분·비료 투입·병해충 발생, 재배면적 및 노동력 등 복합 요인에 의해 좌우된다.
공공데이터(기상청 기상관측, 농림축산검역본부·농촌진흥청의 품목별 생산·출하 데이터, 제주도 농업기술원 토양·병해 데이터)를 결합하면 감귤 생산량을 과학적으로 예측할 수 있다.
정확한 예측은 농민의 출하기 조정, 저장·유통 계획 수립, 가격 안정화, 병해충 대응에 직접 도움이 된다.
이 글은 제주시 수준의 데이터로 현실성 있는 감귤 생산 예측 모델을 만드는 방법을 단계별로 안내한다.

1. 데이터 수집과 기초정리(What to collect & why)
필수 데이터셋
- 일·주·월 단위 기상 데이터: 평균·최고·최저기온, 일교차, 강수량, 일조시간, 상대습도, 풍속, 최저기온(저온피해 지표).
- 토양 관련 데이터: 토양수분, pH, 전기전도도(가능하면 관측소별).
- 재배 정보: 품종별 재배면적, 수령(나무 나이), 재배 방식(노지/하우스), 비료·관수 이력(시군·농가 단위 가능).
- 병해충·방제 이력: 발생 시기·강도, 방제 시행 여부.
- 출하·생산 통계: 연·월·단위의 생산량(kg), 평균 과중(개당 무게), 착과율, 폐기율, 출하일자 분포.
- 원격탐사·위성 데이터(선택): NDVI·EVI 등 식생지수, 토지피복 정보(생육상태 보완).
데이터 출처로는 기상청, 농촌진흥청(농업기상DB), 제주특별자치도 농업기술원, 공공데이터포털 등이 있으며, 수집은 API·CSV 다운로드·FTP 형태로 자동화해야 실시간 운영이 가능하다.
데이터 정합성 체크
- 결측치(센서 고장·보고 누락) 파악 및 보간(선형보간·시간적 평균·계절성 고려한 Prophet 보간).
- 이상치 탐지: z-score 또는 IQR 기반으로 외부 요인(극단적 폭우·태풍)에 대한 라벨링 필요.
- 시계열 정렬: 생산량은 계절성·지연효과가 크므로 시간축 정렬(주·월 단위 집계)과 라그(lag) 특성 생성이 중요.
2. 특징공학(Feature engineering) — 성패를 좌우한다
핵심 아이디어는 기상·환경요인과 생리적 반응의 시간지연을 반영하는 것. 주요 피처 예시:
- 누적 지표: 성장기간(예: 꽃눈형성~수확 전) 동안 누적일사량·누적유효적산온도(DD, degree days), 누적강수(7·14·30일).
- 라그 피처: 전주·전월 기온·강수(생육에 지연효과 반영).
- 기상 변동성: 최근 7일간 일교차 표준편차(열스트레스 지표).
- 이상기상 지표: 연속 저온 일수(저온피해 위험), 태풍 영향 여부(바람·강수 기록으로 플래그).
- 토양·관리 지표: 관수 빈도, 시비량(있다면 강력한 설명변수).
- 원격탐사 합성지수: NDVI 변화율(생육 상태), 고해상도 시군별 시계열.
범주형 변수(품종, 재배방식)는 원-핫 인코딩, 위치(읍면동)는 공간적 상호작용(위도·경도·해발고도) 고려.
피처 선택 팁
- 상관관계 분석(피어슨/스피어만)로 후보를 좁히되, 도메인 지식을 우선 적용.
- 다중공선성(VIF) 체크: 일부 누적 지표는 강한 상관을 가지므로 PCA나 변수 제거 고려.
3. 모델 설계(모델 후보와 학습 전략)
모델 유형별 장단점 및 추천 조합:
- 통계적 시계열 모델: SARIMA/ETS — 계절성·추세를 설명하기 쉬우나 다변량(다수 외생변수) 취급에 한계.
- 프로페트(Prophet): 비계절성·휴일·성장기 효과를 손쉽게 모델링, 외생변수 추가 가능.
- 머신러닝 회귀: RandomForest, XGBoost, LightGBM — 비선형 관계와 상호작용 포착에 강함. 설명력과 변수 중요도 제공.
- 딥러닝 시계열: LSTM/Seq2Seq — 긴 시계열 의존성(라그가 많은 경우) 포착에 유리. 다만 데이터량·튜닝 비용 필요.
실무 추천: 하이브리드 앙상블 — Prophet으로 계절성·추세를 캡처하고, 잔차를 XGBoost/LGBM으로 보정하는 방식(Residual modeling).
학습전략: 시계열 교차검증(TimeSeriesSplit), 계절성 유지한 홀드아웃(최근 1~2년을 검증), 평가 지표는 RMSE·MAE·MAPE(농업 관점에서는 MAPE 중요).
하이퍼파라미터 튜닝: Bayesian Optimization(Optuna) 권장.
불확실성 추정: 예측 신뢰구간(Quantile Regression, Bayesian methods) 제공하면 농가 의사결정에 유용.
4. 모델 평가와 해석
평가지표
- MAE: 예측 오차의 절대적 규모 파악(kg 수준).
- MAPE: 상대적 오차(작황이 적은 해 문제 검토).
- RMSE: 큰 오차(극단적 실패)를 민감하게 반영.
- 히트맵·잔차 시계열 플롯: 계절별·지역별 편향 확인.
설명 가능성(Explainability)
- SHAP 값으로 개별 피처의 영향력 시각화(어떤 기상 요인이 수량 증가/감소에 영향).
- Partial Dependence Plot(PDP)으로 누적일사·강수의 비선형 영향 파악.
농업적 인사이트 예시
- 누적 유효적산온도가 특정 임계값 초과 시 착과율 개선하지만, 동기간 강우가 많으면 품질 저하로 이어짐 — 이같은 상호작용을 모델로 확인·정책에 반영.
5. 배포·운영(실전 적용)과 활용 사례
배포 구조
- 데이터 파이프라인: Airflow/Cron으로 원천 데이터 주기적 수집·전처리.
- 모델 서빙: FastAPI로 예측 서비스 제공, Docker·Kubernetes로 확장.
- 대시보드: Streamlit/Plotly Dash로 시각화(생산 예측, 신뢰구간, 피처 영향도).
- 알림: 생산위험(예: 예측 하락 20% 이상) 발생 시 농가·유통업자에 SMS·앱 푸시 알림.
활용 시나리오
- 출하기 조정: 예측 생산량이 평년 대비 과잉이면 저장·가공 유도, 부족하면 수입·가격안정 정책 가동.
- 병해충 대비: 기상조합에 따른 병해 위험 예보를 결합한 방제 권고.
- 금융·보험 연계: 수확보험의 위험평가 지표로 사용, 금융상품 설계 지원.
데이터 거버넌스
- 농가 개인정보 보호 준수(익명화), 데이터 업데이트·검증 체계 마련, 모델 성능 모니터링(Retrain 주기: 계절성·기후변화 반영).
결론
제주시의 농업·기후 데이터를 활용한 감귤 생산 예측 모델은 단순한 통계가 아니라 현장 의사결정을 바꾸는 실무 도구다.
핵심은 적절한 데이터 수집·정제, 생리학적 지식 기반의 피처공학, 계절성·라그를 반영한 모델 설계, 그리고 농가가 신뢰할 수 있는 불확실성 정보 제공이다.
실무적으로는 Prophet + LightGBM 앙상블, SHAP 기반 해석, 실시간 파이프라인·대시보드 배포를 권장한다.
이 시스템이 운영되면 감귤의 출하기 최적화, 병해충 선제 대응, 유통 계획 수립 등 전주기적 농업 관리가 가능해져 제주 감귤의 경쟁력과 농가 소득 안정에 실질적으로 기여할 것이다.
'로컬 공공데이터 활용법' 카테고리의 다른 글
| 전남 여수시 해양관광 데이터로 계절별 방문객 동선 분석하기 (0) | 2025.11.06 |
|---|---|
| 광명시 공공주차장 데이터로 도심 교통혼잡 개선 방안 찾기 (0) | 2025.11.06 |
| 창원시 산업 에너지 사용 데이터로 공장별 탄소 배출 패턴 분석하기 (0) | 2025.11.05 |
| 수원시 CCTV·범죄 데이터로 생활 안전지수 시각화하기 (0) | 2025.11.04 |
| 대전시 스타트업 지원 데이터로 지역 창업 생태계 분석하기 (0) | 2025.11.04 |