주어진 뉴욕 택시 데이터의 EDA를 통해, 비교적 높은 Fare_amount를 갖는 택시 기사를 유심히 살펴본 결과 공항에서 출발하거나 공항에 도착하는 장거리 운행이 비교적 많았다. 공항버스 사업을 통해 이러한 승객들이 공항버스를 이용한다면 좋을 것이라는 생각을 하였다. 이를 배경으로 공항버스 사업을 확대하기 위해, 공항버스 정류장의 위치와 요금에 대한 분석을 R Hadoop을 이용하여 진행하기로 한다.
먼저 택시 데이터의 이상치 제거를 위해 데이터 정제 과정을 거친다. 요금이 뉴욕 택시의 기본 요금인 2.5달러 미만인 경우, 승객 수가 0명이거나 지나치게 많은 경우, 승하차 좌표가 뉴욕시를 벗어난 경우, trip_time이 0이거나 지나치게 큰 경우 이상치로 판단하여 데이터 정제를 한다.
다음 과정은 데이터 분석이다. 버스 정류장 예측을 위해 kmeans 클러스터링을 사용한다. kmeans 클러스터링은 클러스터의 개수인 k값을 알아야 하는데, k값을 구하기 위해 silhouette 분석을 사용한다. 공항버스의 노선이 보통 5개 이상인 것을 생각해, 최소 k의 값을 5로 설정하여 가장 큰 silhouette 분석값을 가지는 k값을 사용한다. 이후 3개의 공항(존 F. 케네디 국제 공항, 뉴욕 라과디아 공항,뉴어크 리버티 국제공항)이 승하차 지점인 데이터만을 사용해 클러스터링하여 각 클러스터의 중심점을 버스 정류장으로 정한다.
또한 trip_distance와 fare_amount 선형 회귀 분석 결과와 각 공항의 평균 탑승 인원을 계산하여 버스 요금을 정한다.