import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, KFold
from sklearn.metrics import mean_absolute_error as mae
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')


data = pd.read_csv("USA_cars_datasets.csv")
data


del data['Unnamed: 0']
del data['vin']
del data['lot']


data.describe()


data = data[(data.price >= 1000) & (data.year >= 2012) & (data.mileage <= 350000)]


data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348 entries, 2 to 2498
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         2348 non-null   int64  
 1   brand         2348 non-null   object 
 2   model         2348 non-null   object 
 3   year          2348 non-null   int64  
 4   title_status  2348 non-null   object 
 5   mileage       2348 non-null   float64
 6   color         2348 non-null   object 
 7   state         2348 non-null   object 
 8   country       2348 non-null   object 
 9   condition     2348 non-null   object 
dtypes: float64(1), int64(2), object(7)
memory usage: 201.8+ KB


data['condition'].unique() # see all unique entries

array(['2 days left', '22 hours left', '20 hours left', '19 hours left',
       '3 days left', '21 hours left', '17 hours left', '2 hours left',
       '3 hours left', '34 minutes', '16 hours left', '18 hours left',
       '1 days left', '32 minutes', '14 hours left', '6 days left',
       '5 hours left', '10 days left', '4 days left', '9 days left',
       '7 days left', '5 days left', '9 minutes', '1 minutes',
       '7 hours left', '16 minutes', '6 hours left', '1 hours left',
       'Listing Expired', '13 days left', '24 hours left', '8 days left',
       '23 hours left', '15 hours left', '53 minutes', '27 minutes',
       '12 days left', '15 days left', '30 minutes', '29 minutes',
       '28 minutes', '48 minutes', '11 days left', '4 hours left',
       '47 minutes', '12 hours left', '36 minutes'], dtype=object)


# replace "Listing Expired" with "0 hours left" to have one format to work with
data['condition'].replace('Listing Expired', '0 hours left',inplace=True)

# create new column
data['hours_left'] = 0.0

# fill in new column
for i, row in data.iterrows():
    s = row['condition']
    number = s.split()[0]
    time_type = s.split()[1]
    val = 0
    if (time_type == 'minutes'):
        val = round(float(number)/60,6)
    elif (time_type == 'hours'):
        val = round(float(number),6)
    else:
        val = round(float(number)*24,6)
    data['hours_left'][i] = val

# delete old column
del data['condition']

data['hours_left'].describe()

count    2348.000000
mean       55.735619
std        61.833545
min         0.000000
25%        21.000000
50%        48.000000
75%        48.000000
max       360.000000
Name: hours_left, dtype: float64


data['color'].value_counts()

white                                      669
black                                      491
gray                                       375
silver                                     287
red                                        177
blue                                       141
no_color                                    58
charcoal                                    18
green                                       17
orange                                      16
gold                                        13
brown                                       12
magnetic metallic                            6
yellow                                       6
shadow black                                 5
beige                                        5
color:                                       4
oxford white                                 4
ingot silver metallic                        4
billet silver metallic clearcoat             3
super black                                  3
triple yellow tri-coat                       3
black clearcoat                              2
white platinum tri-coat metallic             2
off-white                                    2
bright white clearcoat                       2
ruby red metallic tinted clearcoat           2
tuxedo black metallic                        2
cayenne red                                  2
morningsky blue                              1
tan                                          1
glacier white                                1
purple                                       1
burgundy                                     1
jazz blue pearlcoat                          1
competition orange                           1
kona blue metallic                           1
royal crimson metallic tinted clearcoat      1
phantom black                                1
ingot silver                                 1
guard                                        1
pearl white                                  1
ruby red                                     1
turquoise                                    1
lightning blue                               1
toreador red                                 1
Name: color, dtype: int64


for i, row in data.iterrows():
    color = row['color']
    if ("black" in color):
        data['color'][i] = "black"
    elif ("off-white" in color):
        data['color'][i] = "beige"
    elif ("silver" in color):
        data['color'][i] = "silver"
    elif ("yellow" in color):
        data['color'][i] = "yellow"
    elif ("white" in color):
        data['color'][i] = "white"
    elif ("red" in color):
        data['color'][i] = "red"
    elif ("tan" in color):
        data['color'][i] = "brown"
    elif ("blue" in color):
        data['color'][i] = "blue"
    elif ("crimson" in color):
        data['color'][i] = "red"
    elif ("burgundy" in color):
        data['color'][i] = "red"
    elif ("charcoal" in color):
        data['color'][i] = "gray"
    elif ("orange" in color):
        data['color'][i] = "orange"
    elif ("turquoise" in color):
        data['color'][i] = "blue"
    elif ("metallic" in color):
        data['color'][i] = "silver"
    elif ("color:" in color or "guard" in color):
        data['color'][i] = "no_color"


data['color'].value_counts()

white       679
black       504
gray        393
silver      301
red         185
blue        146
no_color     63
green        17
orange       17
gold         13
brown        13
yellow        9
beige         7
purple        1
Name: color, dtype: int64


data_ml = data.copy()
data_ml


data_ml['brand'] = data_ml['brand'].astype('category')
data_ml['brand'] = data_ml['brand'].cat.codes

data_ml['model'] = data_ml['model'].astype('category')
data_ml['model'] = data_ml['model'].cat.codes

data_ml['title_status'] = data_ml['title_status'].astype('category')
data_ml['title_status'] = data_ml['title_status'].cat.codes

data_ml['color'] = data_ml['color'].astype('category')
data_ml['color'] = data_ml['color'].cat.codes

data_ml['state'] = data_ml['state'].astype('category')
data_ml['state'] = data_ml['state'].cat.codes

data_ml['country'] = data_ml['country'].astype('category')
data_ml['country'] = data_ml['country'].cat.codes

data_ml


fig = plt.figure(figsize=(12,8))
sns.boxplot(data = data, x = "year", y = "mileage").set_title('Model Year vs Mileage')

Text(0.5, 1.0, 'Model Year vs Mileage')


fig = plt.figure(figsize=(12,8))
sns.barplot(data = data, y = "brand", x = "price").set_title('Price vs Brand')

Text(0.5, 1.0, 'Price vs Brand')


fig = plt.figure(figsize=(12,8))
sns.lineplot(data = data, x = "year", y = "price", hue = "title_status").set_title('Price over time with effect of title status')

Text(0.5, 1.0, 'Price over time with effect of title status')


fig = plt.figure(figsize=(14,8))
sns.countplot(data = data, x = "brand", order = data['brand'].value_counts().iloc[:10].index) # see top 10

<AxesSubplot:xlabel='brand', ylabel='count'>


fig = plt.figure(figsize=(12,8))
g = sns.relplot(data = data, y = "color", x = "price")
g.fig.suptitle("Price vs Color")

Text(0.5, 0.98, 'Price vs Color')

<Figure size 864x576 with 0 Axes>


fig = plt.figure(figsize=(12,8))
sns.lineplot(data = data, x = "hours_left", y = "price").set_title('Price vs auction time remaining')

Text(0.5, 1.0, 'Price vs auction time remaining')


df = data.groupby(by=["state"]).mean().reset_index()
df = df.sort_values(["price"]).reset_index(drop=True)

fig = plt.figure(figsize=(12,8))
sns.barplot(data = df, x = "state", y = "price")

<AxesSubplot:xlabel='state', ylabel='price'>


X = data_ml.drop(["price"], axis = 1)
X = StandardScaler().fit_transform(X)
y = data_ml.price
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)


# Create Linear Regressor
lr = LinearRegression()
# fit
lr.fit(X_train, y_train)
# predict
pred = lr.predict(X_test)

print("Mean: " + str(data_ml['price'].mean()))
print("Mean absolute error: " + str(mae(y_test, pred)))
print("r^2: " + str(lr.score(X_test,y_test)))

Mean: 19783.816865417375
Mean absolute error: 7649.118911510767
r^2: 0.30466295151847744


# Create Logistic Regressor
lr = LogisticRegression()
# fit
lr.fit(X_train, y_train)
# predict
pred = lr.predict(X_test)

print("Mean: " + str(data_ml['price'].mean()))
print("Mean absolute error: " + str(mae(y_test, pred)))
print("r^2: " + str(lr.score(X_test,y_test)))

Mean: 19783.816865417375
Mean absolute error: 9099.872340425532
r^2: 0.01702127659574468


# Create KNN Regressor
knn = KNeighborsRegressor()
# fit
knn.fit(X_train, y_train)
# predict
pred = knn.predict(X_test)

print("Mean: " + str(data_ml['price'].mean()))
print("Mean absolute error: " + str(mae(y_test, pred)))
print("r^2: " + str(knn.score(X_test,y_test)))

Mean: 19783.816865417375
Mean absolute error: 5881.34170212766
r^2: 0.49945672152215004


# Create GB Regressor
gb = GradientBoostingRegressor(random_state = 1)
# fit
gb.fit(X_train, y_train)
# predict
pred = gb.predict(X_test)

print("Mean: " + str(data_ml['price'].mean()))
print("Mean absolute error: " + str(mae(y_test, pred)))
print("r^2: " + str(gb.score(X_test,y_test)))

Mean: 19783.816865417375
Mean absolute error: 5227.092008745825
r^2: 0.6216778914826813


# Create Random Forest Regressor
rf = RandomForestRegressor(random_state = 1)
# fit
rf.fit(X_train, y_train)
# predict
pred = rf.predict(X_test)

print("Mean: " + str(data_ml['price'].mean()))
print("Mean absolute error: " + str(mae(y_test, pred)))
print("r^2: " + str(rf.score(X_test,y_test)))

Mean: 19783.816865417375
Mean absolute error: 4414.9401276595745
r^2: 0.6829084942628927


# Create Random Forest Classifier
rf = RandomForestRegressor()

# parameters for GridSearch
param_grid = {'max_depth' : [15,20,25,30],
              'n_estimators' : [100,150,170],
              'random_state': [1]}

# Grid Search
rf_gscv = GridSearchCV(rf, param_grid)

# fit data
rf_gscv.fit(X_train, y_train)

# print best params
print("Optimal parameters using GridSearch: " + str(rf_gscv.best_params_))

Optimal parameters using GridSearch: {'max_depth': 30, 'n_estimators': 170, 'random_state': 1}


pred = rf_gscv.predict(X_test)
print("Mean: " + str(data_ml['price'].mean()))
print("Mean absolute error: " + str(mae(y_test, pred)))
# score
rf_gscv.score(X_test,y_test)

Mean: 19783.816865417375
Mean absolute error: 4380.687312265332

0.686376151395311


# word count requirment:
import io
from IPython.nbformat import current

with io.open("Final Project.ipynb", 'r', encoding='utf-8') as f:
    nb = current.read(f, 'json')

word_count = 0
for cell in nb.worksheets[0].cells:
    if cell.cell_type == "markdown":
        word_count += len(cell['source'].replace('#', '').lstrip().split(' '))
print("Word count: " + str(word_count))

code_line_count = 0
for cell in nb.worksheets[0].cells:
    if cell.cell_type == "code":
        lines = cell['input'].splitlines()
        for l in lines:
            if not l.startswith("#"): # not a comment
                code_line_count += 1
print("Code line count: " + str(code_line_count))

Word count: 1622
Code line count: 189

	Unnamed: 0	price	brand	model	year	title_status	mileage	color	vin	lot	state	country	condition
0	0	6300	toyota	cruiser	2008	clean vehicle	274117.0	black	jtezu11f88k007763	159348797	new jersey	usa	10 days left
1	1	2899	ford	se	2011	clean vehicle	190552.0	silver	2fmdk3gc4bbb02217	166951262	tennessee	usa	6 days left
2	2	5350	dodge	mpv	2018	clean vehicle	39590.0	silver	3c4pdcgg5jt346413	167655728	georgia	usa	2 days left
3	3	25000	ford	door	2014	clean vehicle	64146.0	blue	1ftfw1et4efc23745	167753855	virginia	usa	22 hours left
4	4	27700	chevrolet	1500	2018	clean vehicle	6654.0	red	3gcpcrec2jg473991	167763266	florida	usa	22 hours left
...	...	...	...	...	...	...	...	...	...	...	...	...	...
2494	2494	7800	nissan	versa	2019	clean vehicle	23609.0	red	3n1cn7ap9kl880319	167722715	california	usa	1 days left
2495	2495	9200	nissan	versa	2018	clean vehicle	34553.0	silver	3n1cn7ap5jl884088	167762225	florida	usa	21 hours left
2496	2496	9200	nissan	versa	2018	clean vehicle	31594.0	silver	3n1cn7ap9jl884191	167762226	florida	usa	21 hours left
2497	2497	9200	nissan	versa	2018	clean vehicle	32557.0	black	3n1cn7ap3jl883263	167762227	florida	usa	2 days left
2498	2498	9200	nissan	versa	2018	clean vehicle	31371.0	silver	3n1cn7ap4jl884311	167762228	florida	usa	21 hours left

	price	year	mileage
count	2499.000000	2499.000000	2.499000e+03
mean	18767.671469	2016.714286	5.229869e+04
std	12116.094936	3.442656	5.970552e+04
min	0.000000	1973.000000	0.000000e+00
25%	10200.000000	2016.000000	2.146650e+04
50%	16900.000000	2018.000000	3.536500e+04
75%	25555.500000	2019.000000	6.347250e+04
max	84900.000000	2020.000000	1.017936e+06

	price	brand	model	year	title_status	mileage	color	state	country	hours_left
2	5350	dodge	mpv	2018	clean vehicle	39590.0	silver	georgia	usa	48.0
3	25000	ford	door	2014	clean vehicle	64146.0	blue	virginia	usa	22.0
4	27700	chevrolet	1500	2018	clean vehicle	6654.0	red	florida	usa	22.0
5	5700	dodge	mpv	2018	clean vehicle	45561.0	white	texas	usa	48.0
7	13350	gmc	door	2017	clean vehicle	23525.0	gray	california	usa	20.0
...	...	...	...	...	...	...	...	...	...	...
2494	7800	nissan	versa	2019	clean vehicle	23609.0	red	california	usa	24.0
2495	9200	nissan	versa	2018	clean vehicle	34553.0	silver	florida	usa	21.0
2496	9200	nissan	versa	2018	clean vehicle	31594.0	silver	florida	usa	21.0
2497	9200	nissan	versa	2018	clean vehicle	32557.0	black	florida	usa	48.0
2498	9200	nissan	versa	2018	clean vehicle	31371.0	silver	florida	usa	21.0

	price	brand	model	year	title_status	mileage	color	state	country	hours_left
2	5350	7	70	2018	0	39590.0	11	7	1	48.0
3	25000	8	27	2014	0	64146.0	2	38	1	22.0
4	27700	5	0	2018	0	6654.0	10	6	1	22.0
5	5700	7	70	2018	0	45561.0	12	35	1	48.0
7	13350	9	27	2017	0	23525.0	5	3	1	20.0
...	...	...	...	...	...	...	...	...	...	...
2494	7800	24	108	2019	0	23609.0	10	3	1	24.0
2495	9200	24	108	2018	0	34553.0	11	6	1	21.0
2496	9200	24	108	2018	0	31594.0	11	6	1	21.0
2497	9200	24	108	2018	0	32557.0	1	6	1	48.0
2498	9200	24	108	2018	0	31371.0	11	6	1	21.0

CMSC320 Final Project: Predicting Car Prices¶

Neel Tejwani¶

1. Introduction¶

2. Imports¶

3. Data Collection¶

4. Data Processing¶

5. Exploratory Data Analysis¶

6. Machine Learning & Analysis¶

7. Conclusion¶