added unit tests

ExpandingMan · ExpandingMan · commit 8bffee714426 · 2020-11-05T16:38:53.000-05:00
diff --git a/Project.toml b/Project.toml
@@ -7,6 +7,16 @@ version = "0.1.0"
 DecisionTree = "7806a523-6efd-50cb-b5f6-3fa6f1930dbb"
 MLJModelInterface = "e80e1ace-859a-464e-9ed9-23947d8ae3ea"
 
+[extras]
+CategoricalArrays = "324d7699-5711-5eae-9e2f-1d82baa6b597"
+MLJBase = "a7f614a8-145f-11e9-1d2a-a57a1082229d"
+MLJModels = "d491faf4-2d78-11e9-2867-c94bc002c0b7"
+Random = "9a3f8284-a2c9-5f02-9a11-845980a1fd5c"
+Test = "8dfed614-e22c-5e08-85e1-65c5234f0b40"
+
+[targets]
+test = ["CategoricalArrays", "MLJBase", "MLJModels", "Random", "Test"]
+
 [compat]
 julia = "1"
 DecisionTree = "0.10"
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -0,0 +1,109 @@
+using Test
+import CategoricalArrays
+import CategoricalArrays.categorical
+using MLJBase
+using Random
+Random.seed!(1234)
+
+# load code to be tested:
+import MLJModels
+import DecisionTree
+using MLJModels.DecisionTree_
+
+# get some test data:
+X, y = @load_iris
+
+baretree = DecisionTreeClassifier()
+
+baretree.max_depth = 1
+fitresult, cache, report = MLJBase.fit(baretree, 2, X, y);
+baretree.max_depth = -1 # no max depth
+fitresult, cache, report =
+    MLJBase.update(baretree, 1, fitresult, cache, X, y);
+
+# in this case decision tree is a perfect predictor:
+yhat = MLJBase.predict_mode(baretree, fitresult, X);
+@test yhat == y
+
+# but pruning upsets this:
+baretree.post_prune = true
+baretree.merge_purity_threshold=0.1
+fitresult, cache, report =
+    MLJBase.update(baretree, 2, fitresult, cache, X, y)
+yhat = MLJBase.predict_mode(baretree, fitresult, X);
+@test yhat != y
+yhat = MLJBase.predict(baretree, fitresult, X);
+
+# check preservation of levels:
+yyhat = predict_mode(baretree, fitresult, MLJBase.selectrows(X, 1:3))
+@test MLJBase.classes(yyhat[1]) == MLJBase.classes(y[1])
+
+info_dict(baretree)
+
+# # testing machine interface:
+# tree = machine(baretree, X, y)
+# fit!(tree)
+# yyhat = predict_mode(tree, MLJBase.selectrows(X, 1:3))
+using Random: seed!
+seed!(0)
+
+n,m = 10^3, 5;
+raw_features = rand(n,m);
+weights = rand(-1:1,m);
+labels = raw_features * weights;
+features = MLJBase.table(raw_features);
+
+R1Tree = DecisionTreeRegressor(min_samples_leaf=5, merge_purity_threshold=0.1)
+R2Tree = DecisionTreeRegressor(min_samples_split=5)
+model1, = MLJBase.fit(R1Tree,1, features, labels)
+
+vals1 = MLJBase.predict(R1Tree,model1,features)
+R1Tree.post_prune = true
+model1_prune, = MLJBase.fit(R1Tree,1, features, labels)
+vals1_prune = MLJBase.predict(R1Tree,model1_prune,features)
+@test vals1 !=vals1_prune
+
+@test DecisionTree.R2(labels, vals1) > 0.8
+
+model2, = MLJBase.fit(R2Tree, 1, features, labels)
+vals2 = MLJBase.predict(R2Tree, model2, features)
+@test DecisionTree.R2(labels, vals2) > 0.8
+
+
+## TEST ON ORDINAL FEATURES OTHER THAN CONTINUOUS
+
+N = 20
+X = (x1=rand(N), x2=categorical(rand("abc", N), ordered=true), x3=collect(1:N))
+yfinite = X.x2
+ycont = float.(X.x3)
+
+rgs = DecisionTreeRegressor()
+fitresult, _, _ = MLJBase.fit(rgs, 1, X, ycont)
+@test rms(predict(rgs, fitresult, X), ycont) < 1.5
+
+clf = DecisionTreeClassifier(pdf_smoothing=0)
+fitresult, _, _ = MLJBase.fit(clf, 1, X, yfinite)
+@test sum(predict(clf, fitresult, X) .== yfinite) == 0 # perfect prediction
+
+info_dict(R1Tree)
+
+# --  Ensemble
+
+rfc = RandomForestClassifier()
+abs = AdaBoostStumpClassifier()
+
+X, y = MLJBase.make_blobs(100, 3; rng=555)
+
+m = machine(rfc, X, y)
+fit!(m)
+@test accuracy(predict_mode(m, X), y) > 0.95
+
+m = machine(abs, X, y)
+fit!(m)
+@test accuracy(predict_mode(m, X), y) > 0.95
+
+X, y = MLJBase.make_regression(rng=5124)
+rfr = RandomForestRegressor()
+m = machine(rfr, X, y)
+fit!(m)
+@test rms(predict(m, X), y) < 0.4