zhaoyichanghong
diff --git a/‎agnes.py
+33-33 b/‎agnes.py
+33-33
diff --git a/‎bisecting_kmeans.py
+39-39 b/‎bisecting_kmeans.py
+39-39
diff --git a/‎collaborative_filtering.py
+74-74 b/‎collaborative_filtering.py
+74-74
@@ -1,34 +1,34 @@
-import numpy as np
-import distance
-
-class Agnes:
-    def fit(self, X, cluster_number):
-        '''
-        Parameters
-        ----------
-        X : shape (data_number, feature_number)
-            Training data
-        cluster_number : The number of clusters
-
-        Returns
-        -------
-        y : shape (data_number,)
-            Predicted cluster label per sample.
-        '''
-        data_number = X.shape[0]
-
-        clusters = [[i] for i in range(data_number)]
-        for j in reversed(range(cluster_number, data_number)):
-            centers = np.array([np.mean(X[cluster], axis=0).ravel() for cluster in clusters])
-            distances = np.apply_along_axis(distance.euclidean_distance, 1, centers, centers)
-            near_indexes = np.unravel_index(np.argmin(distances + np.diag(np.full(j + 1, np.inf))), distances.shape)
-
-            clusters[near_indexes[0]].extend(clusters[near_indexes[1]])
-            
-            del clusters[near_indexes[1]]
-        
-        y = np.zeros(data_number)
-        for i in range(len(clusters)):
-            y[clusters[i]] = i
-
+import numpy as np
+import distance
+
+class Agnes:
+    def fit(self, X, n_clusters):
+        '''
+        Parameters
+        ----------
+        X : shape (n_samples, n_features)
+            Training data
+        n_clusters : The number of clusters
+
+        Returns
+        -------
+        y : shape (n_samples,)
+            Predicted cluster label per sample.
+        '''
+        n_samples = X.shape[0]
+
+        clusters = [[i] for i in range(n_samples)]
+        for j in reversed(range(n_clusters, n_samples)):
+            centers = np.array([np.mean(X[cluster], axis=0).ravel() for cluster in clusters])
+            distances = np.apply_along_axis(distance.euclidean_distance, 1, centers, centers)
+            near_indexes = np.unravel_index(np.argmin(distances + np.diag(np.full(j + 1, np.inf))), distances.shape)
+
+            clusters[near_indexes[0]].extend(clusters[near_indexes[1]])
+            
+            del clusters[near_indexes[1]]
+        
+        y = np.zeros(n_samples)
+        for i in range(len(clusters)):
+            y[clusters[i]] = i
+
         return y
@@ -1,40 +1,40 @@
-import numpy as np
-import k_means
-
-class BisectingKMeans:
-    def fit(self, X, cluster_number):
-        '''
-        Parameters
-        ----------
-        X : shape (data_number, feature_number)
-            Training data
-        cluster_number : The number of clusters
-
-        Returns
-        -------
-        y : shape (data_number,)
-            Predicted cluster label per sample.
-        '''
-        data_number = X.shape[0]
-
-        data = X
-        clusters = []
-        while True:
-            model = k_means.KMeans()
-            label = model.fit(data, 2, 100)
-
-            clusters.append(np.flatnonzero(label == 0))
-            clusters.append(np.flatnonzero(label == 1))
-
-            if len(clusters) == cluster_number:
-                break
-
-            sse = [np.var(data[cluster]) for cluster in clusters]
-            data = data[clusters[np.argmax(sse)]]
-            del clusters[np.argmax(sse)]
-
-        y = np.zeros(data_number)
-        for i in range(len(clusters)):
-            y[clusters[i]] = i
-
+import numpy as np
+import k_means
+
+class BisectingKMeans:
+    def fit(self, X, n_clusters):
+        '''
+        Parameters
+        ----------
+        X : shape (n_samples, n_features)
+            Training data
+        n_clusters : The number of clusters
+
+        Returns
+        -------
+        y : shape (n_samples,)
+            Predicted cluster label per sample.
+        '''
+        n_samples = X.shape[0]
+
+        data = X
+        clusters = []
+        while True:
+            model = k_means.KMeans()
+            label = model.fit(data, 2, 100)
+
+            clusters.append(np.flatnonzero(label == 0))
+            clusters.append(np.flatnonzero(label == 1))
+
+            if len(clusters) == n_clusters:
+                break
+
+            sse = [np.var(data[cluster]) for cluster in clusters]
+            data = data[clusters[np.argmax(sse)]]
+            del clusters[np.argmax(sse)]
+
+        y = np.zeros(n_samples)
+        for i in range(len(clusters)):
+            y[clusters[i]] = i
+
         return y
@@ -1,75 +1,75 @@
-import numpy as np
-import matplotlib.pyplot as plt
-
-class CollaborativeFiltering:
-    def fit(self, X, y, dimension, learning_rate, epochs):
-        '''
-        Parameters
-        ----------
-        X : shape (data_number, 2)
-            Training data, column 1 is user id, column 2 is item id
-        y : shape (data_number, 1)
-            Rating
-        learning_rate : learning rate
-        epochs : The number of epochs
-        '''
-        data_number = X.shape[0]
-        user_id = X[:, 0]
-        item_id = X[:, 1]
-        
-        self.__user_items = np.unique(user_id)
-        self.__item_items = np.unique(item_id)
-
-        user_number = len(self.__user_items)
-        item_number = len(self.__item_items)
-
-        self.__user_vector = np.random.uniform(size=(user_number, dimension))
-        self.__user_bias = np.zeros((user_number, 1))
-        self.__item_vector = np.random.uniform(size=(item_number, dimension))
-        self.__item_bias = np.zeros((item_number, 1))
-
-        loss = []
-        for _ in range(epochs):
-            index = np.random.randint(0, data_number)
-
-            user_index = np.flatnonzero(self.__user_items == user_id[index])
-            item_index = np.flatnonzero(self.__item_items == item_id[index])
-
-            r = (self.__user_vector[user_index].dot(self.__item_vector[item_index].T) + self.__user_bias[user_index] + self.__item_bias[item_index] - y[index])
-
-            loss.append(r.ravel() ** 2)
-
-            user_vector_new = self.__user_vector[user_index] - learning_rate * r * self.__item_vector[item_index]
-            self.__user_bias[user_index] -= learning_rate * r
-            item_vector_new = self.__item_vector[item_index] - learning_rate * r * self.__user_vector[user_index]
-            self.__item_bias[item_index] -= learning_rate * r
-            
-            self.__user_vector[user_index] = user_vector_new
-            self.__item_vector[item_index] = item_vector_new
-            
-        plt.plot(loss)
-        plt.show()
-
-    def predict(self, X):
-        '''
-        Parameters
-        ----------
-        X : shape (data_number, 2)
-            Predicting data, column 1 is user id, column 2 is item id
-
-        Returns
-        -------
-        y : shape (data_number, 1)
-            Predicted rating per sample.
-        '''
-        data_number = X.shape[0]
-        user_id = X[:, 0]
-        item_id = X[:, 1]
-
-        y = np.zeros((data_number, 1))
-        for i in range(data_number):
-            user_index = np.flatnonzero(self.__user_items == user_id[i])
-            item_index = np.flatnonzero(self.__item_items == item_id[i])
-            y[i] = self.__user_vector[user_index].dot(self.__item_vector[item_index].T) + self.__user_bias[user_index] + self.__item_bias[item_index]
-
+import numpy as np
+import matplotlib.pyplot as plt
+
+class CollaborativeFiltering:
+    def fit(self, X, y, dimension, learning_rate, epochs):
+        '''
+        Parameters
+        ----------
+        X : shape (n_samples, 2)
+            Training data, column 1 is user id, column 2 is item id
+        y : shape (n_samples,)
+            Rating
+        learning_rate : learning rate
+        epochs : The number of epochs
+        '''
+        n_samples = X.shape[0]
+        user_id = X[:, 0]
+        item_id = X[:, 1]
+        
+        self.__user_items = np.unique(user_id)
+        self.__item_items = np.unique(item_id)
+
+        n_users = len(self.__user_items)
+        n_items = len(self.__item_items)
+
+        self.__user_vector = np.random.uniform(size=(n_users, dimension))
+        self.__user_bias = np.zeros((n_users, 1))
+        self.__item_vector = np.random.uniform(size=(n_items, dimension))
+        self.__item_bias = np.zeros((n_items, 1))
+
+        loss = []
+        for _ in range(epochs):
+            index = np.random.randint(0, n_samples)
+
+            user_index = np.flatnonzero(self.__user_items == user_id[index])
+            item_index = np.flatnonzero(self.__item_items == item_id[index])
+
+            r = (self.__user_vector[user_index].dot(self.__item_vector[item_index].T) + self.__user_bias[user_index] + self.__item_bias[item_index] - y[index])
+
+            loss.append(r.ravel() ** 2)
+
+            user_vector_new = self.__user_vector[user_index] - learning_rate * r * self.__item_vector[item_index]
+            self.__user_bias[user_index] -= learning_rate * r
+            item_vector_new = self.__item_vector[item_index] - learning_rate * r * self.__user_vector[user_index]
+            self.__item_bias[item_index] -= learning_rate * r
+            
+            self.__user_vector[user_index] = user_vector_new
+            self.__item_vector[item_index] = item_vector_new
+            
+        plt.plot(loss)
+        plt.show()
+
+    def predict(self, X):
+        '''
+        Parameters
+        ----------
+        X : shape (n_samples, 2)
+            Predicting data, column 1 is user id, column 2 is item id
+
+        Returns
+        -------
+        y : shape (n_samples,)
+            Predicted rating per sample.
+        '''
+        n_samples = X.shape[0]
+        user_id = X[:, 0]
+        item_id = X[:, 1]
+
+        y = np.zeros(n_samples)
+        for i in range(n_samples):
+            user_index = np.flatnonzero(self.__user_items == user_id[i])
+            item_index = np.flatnonzero(self.__item_items == item_id[i])
+            y[i] = self.__user_vector[user_index].dot(self.__item_vector[item_index].T) + self.__user_bias[user_index] + self.__item_bias[item_index]
+
         return y