Skip to content

Commit

Permalink
fix typos
Browse files Browse the repository at this point in the history
  • Loading branch information
xbaotg authored and tiepvupsu committed Jan 12, 2023
1 parent c5baa09 commit 19c6538
Show file tree
Hide file tree
Showing 2 changed files with 3 additions and 3 deletions.
4 changes: 2 additions & 2 deletions _posts/2017-01-21-perceptron.markdown
Original file line number Diff line number Diff line change
Expand Up @@ -64,7 +64,7 @@ Giả sử chúng ta có hai tập hợp dữ liệu đã được gán nhãn đ
</table>
<div class = "thecap">Hình 1: Bài toán Perceptron</div>

Hiểu theo một cách khác, chúng ta cần tìm _lãnh thổ_ của mỗi class sao cho, với mỗi một điểm mới, ta chỉ cần xác định xem nó nằm vào lãnh thổ của class nào rồi quyết định nó thuộc class đó. Để tìm _lãnh thổ_ của mỗi class, chúng ta cần đi tìm biên giới (boundary) giữa hai _lãnh thổ_ này. Vậy bài toán classification có thể coi là bài toán đi tìm boundary giữa các class. Và boundary đơn giản nhât trong không gian hai chiều là một đường thằng, trong không gian ba chiều là một mặt phẳng, trong không gian nhiều chiều là một siêu mặt phẳng (hyperplane) (tôi gọi chung những boundary này là _đường phẳng_). Những boundary phẳng này được coi là đơn giản vì nó có thể biểu diễn dưới dạng toán học bằng một hàm số đơn giản có dạng tuyến tính, tức linear. Tất nhiên, chúng ta đang giả sử rằng tồn tại một đường phẳng để có thể phân định _lãnh thổ_ của hai class. Hình 1 bên phải minh họa một đường thẳng phân chia hai class trong mặt phẳng. Phần có nền màu xanh được coi là _lãnh thổ_ của lớp xanh, phần có nên màu đỏ được coi là _lãnh thổ_ của lớp đỏ. Trong trường hợp này, điểm dữ liệu mới hình tam giác được phân vào class đỏ.
Hiểu theo một cách khác, chúng ta cần tìm _lãnh thổ_ của mỗi class sao cho, với mỗi một điểm mới, ta chỉ cần xác định xem nó nằm vào lãnh thổ của class nào rồi quyết định nó thuộc class đó. Để tìm _lãnh thổ_ của mỗi class, chúng ta cần đi tìm biên giới (boundary) giữa hai _lãnh thổ_ này. Vậy bài toán classification có thể coi là bài toán đi tìm boundary giữa các class. Và boundary đơn giản nhất trong không gian hai chiều là một đường thằng, trong không gian ba chiều là một mặt phẳng, trong không gian nhiều chiều là một siêu mặt phẳng (hyperplane) (tôi gọi chung những boundary này là _đường phẳng_). Những boundary phẳng này được coi là đơn giản vì nó có thể biểu diễn dưới dạng toán học bằng một hàm số đơn giản có dạng tuyến tính, tức linear. Tất nhiên, chúng ta đang giả sử rằng tồn tại một đường phẳng để có thể phân định _lãnh thổ_ của hai class. Hình 1 bên phải minh họa một đường thẳng phân chia hai class trong mặt phẳng. Phần có nền màu xanh được coi là _lãnh thổ_ của lớp xanh, phần có nên màu đỏ được coi là _lãnh thổ_ của lớp đỏ. Trong trường hợp này, điểm dữ liệu mới hình tam giác được phân vào class đỏ.

<a name="bai-toan-perceptron"></a>

Expand All @@ -81,7 +81,7 @@ Cũng giống như các thuật toán lặp trong [K-means Clustering](/2017/01/
<a name="mot-so-ky-hieu"></a>

### Một số ký hiệu
Giả sử \\(\mathbf{X} = [\mathbf{x}\_1, \mathbf{x}\_2, \dots, \mathbf{x}\_N] \in \mathbb{R}^{d \times N}\\) là ma trận chứa các điểm dữ liệu mà mỗi cột \\(\mathbf{x}\_i \in \mathbb{R}^{d\times 1}\\) là một điểm dữ liệu trong không gian \\(d\\) chiều. (_Chú ý: khác với các bài trước tôi thường dùng các vector hàng để mô tả dữ liệu, trong bài này tôi dùng vector cột để biểu diễn. Việc biểu diễn dữ liệu ở dạng hàng hay cột tùy thuộc vào từng bài toán, miễn sao cách biễu diễn toán học của nó khiến cho người đọc thấy dễ hiểu_).
Giả sử \\(\mathbf{X} = [\mathbf{x}\_1, \mathbf{x}\_2, \dots, \mathbf{x}\_N] \in \mathbb{R}^{d \times N}\\) là ma trận chứa các điểm dữ liệu mà mỗi cột \\(\mathbf{x}\_i \in \mathbb{R}^{d\times 1}\\) là một điểm dữ liệu trong không gian \\(d\\) chiều. (_Chú ý: khác với các bài trước tôi thường dùng các vector hàng để mô tả dữ liệu, trong bài này tôi dùng vector cột để biểu diễn. Việc biểu diễn dữ liệu ở dạng hàng hay cột tùy thuộc vào từng bài toán, miễn sao cách biểu diễn toán học của nó khiến cho người đọc thấy dễ hiểu_).

Giả sử thêm các nhãn tương ứng với từng điểm dữ liệu được lưu trong một vector hàng \\(\mathbf{y} = [y\_1, y\_2, \dots, y_N] \in \mathbb{R}^{1\times N}\\), với \\(y_i = 1\\) nếu \\(\mathbf{x}_i\\) thuộc class 1 (xanh) và \\(y_i = -1\\) nếu \\(\mathbf{x}_i\\) thuộc class 2 (đỏ).

Expand Down
2 changes: 1 addition & 1 deletion _posts/2017-03-04-overfitting.markdown
Original file line number Diff line number Diff line change
Expand Up @@ -137,7 +137,7 @@ Với khái niệm mới này, ta tìm mô hình sao cho cả _train error_ và

Thông thường, ta bắt đầu từ mô hình đơn giản, sau đó tăng dần độ phức tạp của mô hình. Tới khi nào _validation error_ có chiều hướng tăng lên thì chọn mô hình ngay trước đó. Chú ý rằng mô hình càng phức tạp, _train error_ có xu hướng càng nhỏ đi.

Hính dưới đây mô tả ví dụ phía trên với bậc của đa thức tăng từ 1 đến 8. Tập validation bao gồm 10 điểm được lấy ra từ tập training ban đầu.
Hình dưới đây mô tả ví dụ phía trên với bậc của đa thức tăng từ 1 đến 8. Tập validation bao gồm 10 điểm được lấy ra từ tập training ban đầu.

<div class="imgcap">
<img src ="\assets\15_overfitting\linreg_val.png" align = "center" width = "500">
Expand Down

0 comments on commit 19c6538

Please sign in to comment.