강현구임

같은 팀의 아이디어가 train과 test의 위도,경도 데이터가 일치하는 부분이 많으니 그걸 토대로 검색 모델을 만들었다. 물론 완벽히 이해하진 못했다.

근데 코드를 보면서 곰곰이 생각해봤는데 test데이터를 토대로 train 데이터를 필터링하면 안되는거 아닌가? (잘 모름)

사실 코드를 완벽히 이해하지 못해서 필터링을 한건지도 모르겠음.

뭐 이런 생각을 하다가 train의 데이터셋의 위도경도만 가지고 룰에 어긋나지 않으면서 뭐 어케 할수 없나? 여러 생각을 해봤다.

그냥 해당 test에 위도 경도만 보고 거기서 가장 가까운 위도경도면 바로 옆집이니까 옆집의 deposit을 따라 쓰면 비슷하지 않을까?

근데 최소한 절반이라도 deposit이 차있으면 모를까. 아예 비어있어서 안 되려나?

그래서 그냥 train의 위도,경도가 나와있으니까 각 데이터 포인트에 대해, 같은 train 내에서 가장 가까운 위도/경도를 가진 다른 데이터 포인트의 deposit을 찾고 가장 가까운 이웃의 deposit을 예측하는 방식을 학습하는 모델을 만들면 괜찮지 않을까? 이건 룰에 안 어긋나겠지?

해서 내긴 했는데 잘모르겠다. hold어쩌구 뒤에 있는 코드 다 안써가지고 내일 다시 검토해봐야할듯.

잘 되면 아래거 차근차근 추가해보고.

검색 코드 최적화

BallTree 파라미터 튜닝 다양한 거리 메트릭 실험 (예: Minkowski distance)

시간적 요소 강화

계약년월에 따른 가중치 부여 방식 구현 시간 경과에 따른 가격 변동 추세 반영

특성 중요도 분석 및 반영

각 특성의 상대적 중요도 평가 중요도에 따른 가중치 적용 방식 구현

최종 제출 모델 구현

최적의 파라미터 및 특성 조합 선정 전체 학습 데이터를 사용한 최종 모델 훈련 및 테스트 데이터 예측

관련 게시물

학교 데이터 다루기

공원 데이터 다루기1

PPG 논문 고도화