공원 데이터 다루기1
공원의 크기와 집값이 비례할까?
지하철이나 학교 근처는 집값이 비쌀거같긴 한데 공원도 과연 비례할까? 해서 대충 몇개 눌러서 공원의 사진들을 흝어보았는데 공원이 내 생각보다 작은 곳이 많았다. 정자하나가 있는 곳도 있고 놀이터가 있는 곳도 모두 parkinfo라고 묶여있는 것 같았다. 정확한 기준은 모르겠다. 나중에 찾아봐야 할듯
그래서 모든 공원을 집값에 영향을 미친다는 건 해봐야 알겠지만 틀린 말일듯.
서울이 경기인천보다 집값이 비싼것에 대해서(안 읽어도 댐, 중요하지 않음)
그리고 피어세션하면서 알게된 건데 train data에도 위도 경도가 있었다. 난 당연히 없는 줄 알았는데
근데 다시 생각해보니 없으면 너무 어려울 것 같기도 하고.
근데 내가 처음에 데이터를 자세히 안 보고 없을 거라고 생각한 게 있으면
이게 어차피 수도권 데이터고, 그럼 서울 경기 인천 이쪽인데 위도 경도가 있다는 건 위치를 짐작 할 수 있다는 거고, 그러면 그냥 서울가까운 위도 경도에 더 높은 값을 부여하면 되는거 아닌가? 라는 의문이 있었다.
당연히 안되는 말이지만 결국에 나중에 실험하면서 주장과 근거를 끼워맞추기하기 편하지않나.. 라는 그런 생각이 들었다.
예를 들면 어딘지 모르는 A라는 지역의 집값이 올라야 하는 요인들을 대거 관측했다면 그걸 위주로 실험을 하겠지만 과연 ‘경기’라는 지역의 집값이 올라야 하는 요인들을 대거 관측해도 우린 이미 알잖아? 이쪽은 결국에 집값이 서울쪽보다 낮다는걸? 그러면 나는 이 결과를 알고도 열의를 갖고 실험을 할까? 솔직히 안 할거 같은데.
아니면 B쪽 데이터가 생각보다 MAE가 너무 다르게 예측되네? 너무 높게 예측했나? 낮게 예측했나? 에서 B가 강남쪽이라면 아, 너무 낮게 예측했나(물론 아닐 확률도 많음)으로 무의식에 생각을 해버리지 않을까 라는 그런 생각.
도걸이형이 가장 좋은 해결방법을 제시해주긴 했다. 지도를 머리속에 지워버리라는 거였다. 혹은 나는 한국지리를 모르는 외국인이라고 가정하거나. 물론 그러면 가장 좋다. 위도 경도가 나와있어도 어디가 비싼지 모른다는걸 전제로 프로젝트를 진행하는 거니까.
근데 걱정되는건 50명 모두가 그럴 수 있을까 라는 걱정. 아 너무 N인가.