Big-Data-Project-2017

Official Repository for Big Data Project

Open Putty.

Login using credentials.

Login to dumbo.

mv downloaded_filename.csv NYPD.csv

hadoop fs -copyFromLocal NYPD.csv

#if metastore_db folder exists

rm -r metastore_db

module load python/gnu/3.4.4

export PYSPARK_PYTHON=/share/apps/python/3.4.4/bin/python

export PYTHONHASHSEED=0

export SPARK_YARN_USER_ENV=PYTHONHASHSEED=0

pyspark2

#run the commands in SPARK_SQL.txt

Type ctrl+d(exit pyspark)

#get all files from hadoop to working directory like this.

hadoop fs -getmerge Borough_wise_Count.csv Borough_wise_Count.csv

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
Files		Files
Hypothesis		Hypothesis
Validation_scripts		Validation_scripts
part-2 files		part-2 files
.DS_Store		.DS_Store
All_commands.sql		All_commands.sql
Creation.sql		Creation.sql
Project_test1.sql		Project_test1.sql
README.md		README.md
Validate.py		Validate.py
nulls.pickle		nulls.pickle
nulls.py		nulls.py
read_pickle.py		read_pickle.py

Provide feedback