jleetutorial
diff --git a/‎5_structured/Hanhan-Spark-Python-master/temp_range_sql.py
+68 b/‎5_structured/Hanhan-Spark-Python-master/temp_range_sql.py
+68
diff --git a/‎5_structured/Hanhan-Spark-Python-master/tfidf_cv_lowestRMSE.py
+100 b/‎5_structured/Hanhan-Spark-Python-master/tfidf_cv_lowestRMSE.py
+100
diff --git a/‎5_structured/Hanhan-Spark-Python-master/tfidf_cv_lowestRMSE_normalized.py
+99 b/‎5_structured/Hanhan-Spark-Python-master/tfidf_cv_lowestRMSE_normalized.py
+99
diff --git a/‎5_structured/Hanhan-Spark-Python-master/word2vec.py
+74 b/‎5_structured/Hanhan-Spark-Python-master/word2vec.py
+74
@@ -0,0 +1,68 @@
+__author__ = 'hanhanw'
+
+import sys
+from pyspark import SparkConf, SparkContext
+from pyspark.sql.context import SQLContext
+from pyspark.sql.types import StructType, StructField, StringType, DoubleType
+
+
+conf = SparkConf().setAppName("temp range sql")
+sc = SparkContext(conf=conf)
+sqlContext = SQLContext(sc)
+assert sc.version >= '1.5.1'
+
+inputs1 = sys.argv[1]
+output = sys.argv[2]
+
+
+def get_range(recordings):
+    recordings.registerTempTable('Recordings')
+
+    dfrange = sqlContext.sql("""
+    SELECT r1.DateTime, r1.StationID, (r1.DataValue-r2.DataValue) AS Range FROM
+    (SELECT StationID, DateTime, Observation, DataValue FROM Recordings
+     WHERE Observation='TMAX') r1
+     JOIN
+     (SELECT StationID, DateTime, Observation, DataValue FROM Recordings
+     WHERE Observation='TMIN') r2
+     ON (r1.StationID = r2.StationID AND r1.DateTime = r2.DateTime)
+    """)
+    dfrange.registerTempTable('RangeTable')
+
+    df_maxrange = sqlContext.sql("""
+    SELECT DateTime, MAX(Range) AS MaxRange FROM RangeTable
+    GROUP BY DateTime
+    """)
+    df_maxrange.registerTempTable('MaxRange')
+
+    df_result = sqlContext.sql("""
+    SELECT t1.DateTime as DateTime, t1.StationID as StationID, t2.MaxRange as MaxRange FROM
+    RangeTable t1
+    JOIN MaxRange t2
+    ON (t1.DateTime = t2.DateTime AND t1.Range = t2.MaxRange)
+    """)
+    return df_result
+
+
+def main():
+    temp_schema = StructType([
+    StructField('StationID', StringType(), False),
+    StructField('DateTime', StringType(), False),
+    StructField('Observation', StringType(), False),
+    StructField('DataValue', DoubleType(), False),
+    StructField('MFlag', StringType(), True),
+    StructField('QFlag', StringType(), True),
+    StructField('SFlag', StringType(), True),
+    StructField('OBSTime', StringType(), True),
+    ])
+
+    df = sqlContext.read.format('com.databricks.spark.csv').options(header='false').load(inputs1, schema=temp_schema)
+    df = df.filter(df.QFlag == '')
+
+    dfrange = get_range(df)
+    result = dfrange.rdd.map(lambda r: str(r.DateTime)+' '+str(r.StationID)+' '+str(r.MaxRange))
+    outdata = result.sortBy(lambda r: r[0]).coalesce(1)
+    outdata.saveAsTextFile(output)
+
+if __name__ == "__main__":
+    main()
@@ -0,0 +1,100 @@
+__author__ = 'hanhanw'
+
+import sys
+from pyspark import SparkConf, SparkContext
+from pyspark.sql.context import SQLContext
+from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD
+from pyspark.mllib.linalg import SparseVector
+from pyspark.mllib.feature import Normalizer
+import re
+import operator
+import math
+
+conf = SparkConf().setAppName("733 A2 Q2 with cross validation")
+sc = SparkContext(conf=conf)
+assert sc.version >= '1.5.1'
+
+training_inputs = sys.argv[1]
+testing_inputs = sys.argv[2]
+output = sys.argv[3]
+
+def parse_point(line):
+    ptn1 = "\(([\d\.]*),\sSparseVector\((.*?)\)\)"
+    ptn2 = "(\d+),\s+\{(.*?)\}"
+    m = re.search(ptn1, line)
+    if m:
+        label = float(m.group(1))
+        features_str = m.group(2)
+        mx = re.search(ptn2, features_str)
+        num = float(mx.group(1))
+        fs = mx.group(2)
+        idx_set = []
+        tfidf_scores = []
+        if fs != '':
+            fs_split = fs.split(', ')
+            for f in fs_split:
+                idx_set.append(f.split(': ')[0])
+                tfidf_scores.append(f.split(': ')[1])
+        sp = SparseVector(num, idx_set, tfidf_scores)
+        LP = LabeledPoint(label, sp)
+        return LP
+    return None
+
+
+# Find the best step_size through cross validation, using RMSE as the error measurement
+def get_best_stepsize(step_sizes, training_lp, iterations, cv_trails):
+    best_stepsize = 0
+    lowest_RMSE = float("inf")
+    num_folds = 4
+    fold_set = [1]*num_folds
+    cv_data = training_lp.randomSplit(fold_set) # 4 folds
+    for step_size in step_sizes:
+        total_RMSE = 0.0
+        for i in range(num_folds):
+            cv_testing = cv_data[i]
+            cv_training = training_lp.subtract(cv_testing)
+            model = LinearRegressionWithSGD.train(cv_training, iterations=iterations, step=step_size)
+            values_and_preds = cv_testing.map(lambda p: (p.label, model.predict(p.features)))
+            MSE = values_and_preds.map(lambda (v, p): (v-p)**2).reduce(operator.add)
+            RMSE = math.sqrt(MSE)
+            total_RMSE += RMSE
+        avg_RMSE = total_RMSE/cv_trails
+        if avg_RMSE < lowest_RMSE:
+            lowest_RMSE = avg_RMSE
+            best_stepsize = step_size
+
+    return best_stepsize
+
+
+# Get the lowest RMSE after getting the best step size through cross validation
+def get_best_result(best_step_size, training_lp, testing_lp, iterations):
+    model = LinearRegressionWithSGD.train(training_lp, iterations=iterations, step=best_step_size)
+    values_and_preds = testing_lp.map(lambda p: (p.label, model.predict(p.features)))
+    MSE = values_and_preds.map(lambda (v, p): (v-p)**2).reduce(operator.add)
+    RMSE = math.sqrt(MSE)
+
+    result_str = 'best step size got by cross validation cv: ' + str(best_step_size) + ', lowest RMSE: ' + str(RMSE)
+    return result_str
+
+
+def main():
+    training_data = sc.textFile(training_inputs)
+    testing_data = sc.textFile(testing_inputs)
+
+    training_LP = training_data.map(parse_point).filter(lambda result: result is not None)
+    testing_LP = testing_data.map(parse_point).filter(lambda result: result is not None)
+
+    t1 = range(1, 10)
+    s2 = [t/10.0 for t in t1]
+    step_sizes = s2
+    iterations = 100
+    cv_trails = 30
+
+    best_step_size = get_best_stepsize(step_sizes, training_LP, iterations, cv_trails)
+    best_result = get_best_result(best_step_size, training_LP, testing_LP, iterations)
+
+    outdata = sc.parallelize([best_result])
+    outdata.saveAsTextFile(output)
+
+if __name__ == '__main__':
+    main()
@@ -0,0 +1,99 @@
+__author__ = 'hanhanw'
+
+import sys
+from pyspark import SparkConf, SparkContext
+from pyspark.sql.context import SQLContext
+from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD, LinearRegressionModel
+from pyspark.mllib.linalg import SparseVector
+from pyspark.mllib.feature import Normalizer
+import re
+import operator
+import math
+
+conf = SparkConf().setAppName("733 A2 Q2 normalized with cross validation")
+sc = SparkContext(conf=conf)
+assert sc.version >= '1.5.1'
+
+training_inputs = sys.argv[1]
+testing_inputs = sys.argv[2]
+output = sys.argv[3]
+
+def parse_point(line):
+    ptn1 = "\(([\d\.]*),\sSparseVector\((.*?)\)\)"
+    ptn2 = "(\d+),\s+\{(.*?)\}"
+    m = re.search(ptn1, line)
+    if m:
+        label = float(m.group(1))
+        features_str = m.group(2)
+        mx = re.search(ptn2, features_str)
+        num = float(mx.group(1))
+        fs = mx.group(2)
+        idx_set = []
+        tfidf_scores = []
+        if fs != '':
+            fs_split = fs.split(', ')
+            for f in fs_split:
+                idx_set.append(f.split(': ')[0])
+                tfidf_scores.append(f.split(': ')[1])
+        sp = SparseVector(num, idx_set, tfidf_scores)
+        LP = LabeledPoint(label, sp)
+        return LP
+    return None
+
+
+# Find the best step_size through cross validation, using RMSE as the error measurement
+def get_best_stepsize(step_sizes, training_lp, iterations, cv_trails):
+    best_stepsize = 0
+    lowest_RMSE = float("inf")
+    num_folds = 4
+    fold_set = [1]*num_folds
+    cv_data = training_lp.randomSplit(fold_set) # 4 folds
+    for step_size in step_sizes:
+        total_RMSE = 0.0
+        for i in range(num_folds):
+            cv_testing = cv_data[i]
+            cv_training = training_lp.subtract(cv_testing)
+            model = LinearRegressionWithSGD.train(cv_training, iterations=iterations, step=step_size)
+            values_and_preds = cv_testing.map(lambda p: (p.label, model.predict(p.features)))
+            MSE = values_and_preds.map(lambda (v, p): (v-p)**2).reduce(operator.add)
+            RMSE = math.sqrt(MSE)
+            total_RMSE += RMSE
+        avg_RMSE = total_RMSE/cv_trails
+        if avg_RMSE < lowest_RMSE:
+            lowest_RMSE = avg_RMSE
+            best_stepsize = step_size
+
+    return best_stepsize
+
+
+# Gest the lowest RMSE after getting the best step size through cross validation
+def get_best_result(best_step_size, training_lp, testing_lp, iterations):
+    model = LinearRegressionWithSGD.train(training_lp, iterations=iterations, step=best_step_size, regType = 'l2')
+    values_and_preds = testing_lp.map(lambda p: (p.label, model.predict(p.features)))
+    MSE = values_and_preds.map(lambda (v, p): (v-p)**2).reduce(operator.add)
+    RMSE = math.sqrt(MSE)
+
+    result_str = 'best step size got by cross validation cv: ' + str(best_step_size) + ', lowest RMSE: ' + str(RMSE)
+    return result_str
+
+
+def main():
+    training_data = sc.textFile(training_inputs)
+    testing_data = sc.textFile(testing_inputs)
+
+    training_LP_normalized = training_data.map(parse_point).filter(lambda result: result is not None)
+    testing_LP_normalized = testing_data.map(parse_point).filter(lambda result: result is not None)
+
+    step_sizes = [0.01, 0.1, 1, 10, 200, 500, 1000, 10000]
+    iterations = 100
+    cv_trails = 10
+
+    best_step_size = get_best_stepsize(step_sizes, training_LP_normalized, iterations, cv_trails)
+    best_result = get_best_result(best_step_size, training_LP_normalized, testing_LP_normalized, iterations)
+
+    outdata = sc.parallelize([best_result])
+    outdata.saveAsTextFile(output)
+
+
+if __name__ == '__main__':
+    main()
@@ -0,0 +1,74 @@
+__author__ = 'hanhanw'
+
+import sys
+from pyspark import SparkConf, SparkContext
+from pyspark.sql.context import SQLContext
+from pyspark.mllib.feature import Word2Vec
+import nltk
+import string
+import json
+
+conf = SparkConf().setAppName("733 A2 Q4")
+sc = SparkContext(conf=conf)
+sqlContext = SQLContext(sc)
+assert sc.version >= '1.5.1'
+
+inputs = sys.argv[1]
+model_output = sys.argv[2]
+similar_words_output = sys.argv[3]
+
+
+def clean_review(review_line):
+    pyline = json.loads(review_line)
+    review_text = str(pyline['reviewText'])
+    replace_punctuation = string.maketrans(string.punctuation, ' '*len(string.punctuation))
+    review_text = review_text.translate(replace_punctuation).split()
+    review_words = [w.lower() for w in review_text]
+
+    return review_words
+
+def generate_word2vec_model(doc):
+    return Word2Vec().setVectorSize(10).setSeed(42).fit(doc)
+
+def get_similar_words(model, word, output_num):
+    st = model.findSynonyms(word, output_num)
+    outstr = 'similiar words for ' + word + ': '
+    for i in range(len(st)):
+        outstr += '(' + str(st[i][0]) + ', ' + str(st[i][1]) + '), '
+    return outstr
+
+
+def main():
+    text = sc.textFile(inputs)
+
+    nltk_data_path = "[change to your nltk_data location]"  # maybe changed to the sfu server path
+    nltk.data.path.append(nltk_data_path)
+
+    cleaned_review = text.map(clean_review)
+    model = generate_word2vec_model(cleaned_review)
+    mv = model.getVectors()
+
+    # find similar words
+    similar_words = []
+    test_words = ['dog', 'happy']
+    outnum = 2
+    for w in test_words:
+        outstr = get_similar_words(model, w, outnum)
+        similar_words.append(outstr)
+
+    # save the model
+    results = []
+    for k,v in mv.items():
+        tmp_str = str(k) + ',['
+        for f in v:
+            tmp_str += str(f) + ', '
+        tmp_str += ']'
+        results.append(tmp_str)
+
+    outmodel = sc.parallelize(results)
+    out_similarwords = sc.parallelize(similar_words)
+    outmodel.saveAsTextFile(model_output)
+    out_similarwords.saveAsTextFile(similar_words_output)
+
+if __name__ == '__main__':
+    main()