Hướng dẫn chi tiết cách nướng tai bạc cá bằng lò vi sóng

Trang chủ > Công nghệ AI > Nội dung chính

Học máy nhìn thấy được: Zero-base hiểu sâu về mạng thần kinh
2020-05-04

Về học máytai ban ca, có một câu đùa cổ xưa:

Machine learning is like highschool sex. Everyone says they do ittỷ lệ kèo bóng đá trực tiếp, nobody really does, and no one knows what it actually is. [1]

Ý nghĩa dịch sang tiếng Việt đại khái là:

Học máy giống như việc hẹn hò của học sinh trung học vậy. Mọi người đều nói rằng họ đã từng trải quakeo 88, nhưng thực tế là không ai thực sự làm được điều đó, và cũng chẳng ai thực sự hiểu nó thực sự là gì. Có lẽ, nó chỉ là một phần trong những câu chuyện mà tất cả mọi người tưởng tượng ra để cảm thấy mình không bị bỏ lại phía sau trong hành trình khám phá thế giới đầy phức tạp này.

điều nghe thì không bằng điều thấy

Bài viết này sẽ không có công thức nào cảtai ban ca, hy vọng người không chuyên cũng có thể hiểu được. Hy vọng như vậy ^-^

Mạng nơ-ron đơn giản nhất.

Trong lĩnh vực nhận diện hình ảnh hoặc xử lý ngôn ngữ tự nhiên hiện naytai ban ca, các mạng thần kinh sâu đang phát triển những cấu trúc mạng vô cùng phức tạp. Những mạng này có thể bao gồm hàng chục lớp, với hàng trăm nghìn, thậm chí hàng triệu tham số mô hình. Hiểu được hoạt động của các mạng thần kinh như vậy là một thử thách lớn, và việc chạy chúng đòi hỏi nguồn lực tính toán mạnh mẽ, từ phần cứng chuyên dụng đến hệ thống đám mây hiện đại. Chính sự phức tạp này đã đặt ra yêu cầu cao hơn cho các nhà nghiên cứu trong việc tối ưu hóa hiệu suất và giảm thiểu thời gian huấn luyện.

Do đótai ban ca, chúng ta sẽ đi từ đơn giản đến phức tạp, bắt đầu từ trường hợp đơn giản nhất.

Đầu tiêntai ban ca, chúng ta xem xét một vấn đề phân loại nhị phân đơn giản. Dưới đây là một tập dữ liệu ngẫu nhiên được tạo ra:

Hình ảnh phía trên thể hiện tổng cộng 160 điểm (bao gồm cả điểm đỏ và điểm xanh)keo 88, mỗi điểm đại diện cho một mẫu dữ liệu. Rõ ràng, mỗi mẫu dữ liệu này bao gồm 2 đặc trưng, nhờ đó mỗi mẫu có thể được biểu diễn bằng một điểm trong hệ tọa độ hai chiều. Các điểm màu đỏ cho biết mẫu dữ liệu thuộc phân loại thứ nhất, trong khi các điểm màu xanh thể hiện rằng mẫu dữ liệu đó thuộc phân loại thứ hai. Thêm vào đó, sự phân bố của các điểm không chỉ giúp phân biệt giữa hai nhóm mà còn gợi ý về khả năng phân chia không gian bằng các đường thẳng hoặc hình học khác, nhằm xác định ranh giới giữa các phân loại. Điều này mở ra nhiều cơ hội để áp dụng các thuật toán học máy trong việc dự đoán và phân loại dữ liệu mới dựa trên các đặc trưng đã cho.

Vấn đề nhị phân có thể được hiểu như sau: chúng ta cần xây dựng một mô hình phân loạitỷ lệ kèo bóng đá trực tiếp, với mục tiêu tách rời 160 mẫu dữ liệu trong tập huấn luyện thành hai nhóm dựa trên từng lớp tương ứng. Tuy nhiên, cần lưu ý rằng cách diễn đạt này không thực sự chặt chẽ. Các mẫu dữ liệu trong hình chỉ được sử dụng để đào tạo mô hình, nhưng sau khi hoàn thiện, mô hình phải có khả năng phân loại các mẫu khác ngoài tập dữ liệu huấn luyện này (dù hiện tại chúng ta chưa quan tâm đến khía cạnh đó và có thể tạm thời bỏ qua chi tiết này). Trong thực tế, việc thiết kế mô hình không chỉ dừng lại ở việc phân chia các mẫu đã cho mà còn đòi hỏi khả năng áp dụng linh hoạt hơn, đặc biệt là đối với những trường hợp chưa từng gặp trước đây. Điều này nhấn mạnh tầm quan trọng của việc tối ưu hóa mô hình sao cho nó đủ thông minh để nhận diện các mẫu dữ liệu mới một cách chính xác nhất.

Để thực hiện nhiệm vụ phân loại nhị phân nàytỷ lệ kèo bóng đá trực tiếp, chúng ta có rất nhiều mô hình học máy để lựa chọn. Tuy nhiên, mục tiêu hiện tại của chúng ta là nghiên cứu về mạng nơ-ron, vì vậy chúng ta có thể thiết kế một mạng nơ-ron đơn giản nhất để giải quyết vấn đề phân loại này. Mô hình như sau: (Ở đây có thể thêm một đoạn miêu tả chi tiết hơn về cấu trúc mạng nơ-ron nếu cần thiết, nhưng vẫn giữ nguyên ý chính và không sử dụng bất kỳ ký tự nào không thuộc tiếng Việt)

Mạng nơ-ron này gần như không thể đơn giản hơntai ban ca, chỉ có một lớp đầu vào và một lớp đầu ra, với tổng cộng ba nơ-ron.

Dựa trên một phân tích toán học đơn giảntỷ lệ kèo bóng đá trực tiếp, ta có thể dễ dàng nhận thấy rằng mô hình mạng nơ-ron chỉ có 2 lớp này thực chất tương đương với mô hình LR (logistic regression) trong học máy truyền thống. Nói cách khác, đây là một bộ phân loại tuyến tính, và việc đào tạo nó giống như tìm kiếm một đường thẳng trong mặt phẳng tọa độ hai chiều để phân chia các điểm màu đỏ và điểm màu xanh. Tuy nhiên, khác biệt nằm ở chỗ mạng nơ-ron cho phép chúng ta dễ dàng mở rộng sang các không gian nhiều chiều hơn, trong khi LR vẫn giữ nguyên bản chất tuyến tính của mình. Điều này có nghĩa là nếu dữ liệu không tuân theo sự phân bố tuyến tính, LR sẽ gặp khó khăn trong việc phân loại, trong khi mạng nơ-ron có thể xử lý tốt hơn nhờ khả năng kết nối phức tạp giữa các lớp.

Dựa trên sự phân bố của các điểm màu đỏ và điểm màu xanhkeo 88, chúng ta có thể dễ dàng nhận thấy rằng một đường thẳng như vậy rất dễ được xác định (hoặc học được). Thực tế, mạng thần kinh đơn giản được hiển thị trong hình trên, sau quá trình huấn luyện, có thể đạt được độ chính xác phân loại lên tới 100%. Điều này cho thấy khả năng xử lý dữ liệu mạnh mẽ của mạng neural ngay cả với những bài toán đơn giản như thế này.

Giờ giả sử tập dữ liệu của chúng ta trở thành như hình dưới đây (các điểm màu đỏ được chia thành hai cụmkeo 88, nằm ở hai bên các điểm màu xanh):

có thể phân loại tuyến tính

Để tăng độ chính xác trong việc phân loạitỷ lệ kèo bóng đá trực tiếp, một ý tưởng trực quan có lẽ là vẽ một đường cong, điều này sẽ giúp tách biệt hoàn toàn các điểm màu đỏ và điểm màu xanh. Điều này đồng nghĩa với việc thực hiện một biến đổi phi tuyến tính đối với dữ liệu đầu vào ban đầu. Trong mạng nơ-ron, chúng ta có thể đạt được điều này bằng cách thêm một lớp ẩn (hidden layer). Mạng nơ-ron đã được điều chỉnh sẽ trông như hình dưới đây: Một lớp ẩn không chỉ đơn thuần là một công cụ để làm cho dữ liệu dễ xử lý hơn mà còn có khả năng phát hiện ra các mô hình phức tạp từ tập dữ liệu. Khi dữ liệu được chuyển qua lớp ẩn, nó sẽ trải qua quá trình biến đổi phi tuyến tính, cho phép mạng nhận diện những mối liên hệ không rõ ràng giữa các yếu tố khác nhau. Kết quả cuối cùng là việc cải thiện đáng kể hiệu suất phân loại của mạng nơ-ron.

Chúng ta nhận thấy rằngtỷ lệ kèo bóng đá trực tiếp, sau khi chỉnh sửa mạng nơ-ron, một lớp ẩn mới với hai neuron sử dụng hàm sigmoid đã được thêm vào. Hơn nữa, lớp đầu vào và lớp ẩn này có mối liên kết toàn diện với nhau. Thực tế cho thấy, khi chúng ta đào tạo lại mạng nơ-ron có lớp ẩn này, độ chính xác của việc phân loại lại đạt mức 100% (hoặc gần như vậy). Vậy tại sao điều này lại xảy ra? Có thể lớp ẩn bổ sung này đã giúp mạng hiểu sâu hơn về dữ liệu, từ đó cải thiện khả năng phân loại. Một yếu tố khác cũng cần xem xét là số lượng tham số lớn hơn trong mô hình có thể giúp nó học các đặc trưng phức tạp hơn trong tập dữ liệu.

Chúng ta có thể hiểu về việc tính toán của mạng neural như sau: mỗi khi dữ liệu đi qua một lớp mạngkeo 88, nó thực chất đang trải qua một sự biến đổi trong không gian mẫu (bao gồm tất cả các điểm dữ liệu trong đó). Nói cách khác, dữ liệu đầu vào, khi di chuyển qua các lớp ẩn, sẽ bị biến đổi. Và đặc biệt, do hàm kích hoạt của các lớp ẩn sử dụng là sigmoid, nên sự biến đổi này là một phép biến đổi phi tuyến tính. Điều này cho phép mạng neural có khả năng mô phỏng các mối quan hệ phức tạp hơn mà không bị giới hạn bởi các phép tính tuyến tính đơn thuần.

Vậykeo 88, một câu hỏi tự nhiên xảy ra là: Sau khi trải qua quá trình biến đổi phi tuyến tính của lớp ẩn, mẫu dữ liệu đầu vào đã thay đổi như thế nào? Bây giờ, chúng ta hãy cùng xem biểu diễn của hai nơ-ron trong lớp ẩn được vẽ trong hình bên dưới: Hình ảnh này cho phép chúng ta hiểu rõ hơn về cách lớp ẩn đã xử lý và tái cấu trúc thông tin từ đầu vào ban đầu. Mỗi điểm trên đồ thị đại diện cho sự kết hợp của các giá trị mà hai nơ-ron đã tạo ra sau khi thực hiện các phép toán phức tạp. Điều này giúp làm nổi bật vai trò quan trọng của lớp ẩn trong việc chuyển đổi dữ liệu thô thành các đặc trưng có ý nghĩa cho việc phân loại hoặc dự đoán tiếp theo.

tách biệt tuyến tính

Từ hình ảnh đầu ra của lớp ẩntai ban ca, chúng ta còn có thể phát hiện ra một số chi tiết:

Tất cả các điểm dữ liệu (dù là trên trục X hay trục Y) đều nằm trong khoảng từ 0 đến 1. Đây là kết quả của đặc tính của hàm kích hoạt sigmoidtỷ lệ kèo bóng đá trực tiếp, vốn có khả năng biến đổi toàn bộ tập hợp số thực thành phạm vi từ 0 đến 1. Điều này không chỉ giúp xử lý dễ dàng hơn mà còn đảm bảo rằng mọi giá trị đều được kiểm soát trong một khoảng an toàn và hợp lý. Hàm sigmoid thường được sử dụng trong mạng nơ-ron nhân tạo để giới hạn đầu ra trong một khoảng nhất định, từ đó tăng cường hiệu quả và độ chính xác của mô hình.
Chúng tôi nhận thấy rằng tất cả dữ liệu dường như tập trung ở một góc nào đó. Điều này không phải là ngẫu nhiênkeo 88, mà xuất phát từ đặc tính của hàm kích hoạt sigmoid. Khi các nơ-ron sigmoid được đào tạo đủ sâu và đạt đến trạng thái "bão hòa", chúng thường sẽ cho ra giá trị gần 0 hoặc 1, rất hiếm khi sản sinh ra một giá trị nằm ở giữa khoảng (0, 1). Hàm sigmoid có xu hướng ép các đầu vào về hai cực, khiến nó trở thành một công cụ hữu ích trong việc phân loại nhưng cũng tiềm ẩn những thách thức khi giải quyết các vấn đề liên quan đến sự cân bằng trong mạng nơ-ron.

không thể phân loại theo đường thẳng

Dĩ nhiêntai ban ca, ví dụ này rất đơn giản, chỉ là cấu trúc mạng neural cơ bản nhất. Nhưng ngay cả khi nói đến các mạng neural phức tạp hơn, nguyên lý vẫn tương tự. Mỗi lần mẫu dữ liệu đi qua một lớp trong mạng, nó sẽ trở nên "dễ phân loại" hơn so với trước đây. Bây giờ chúng ta hãy cùng xem một ví dụ phức tạp hơn chút nhé. Một mạng neural phức tạp hơn không chỉ có nhiều lớp mà còn có thể kết hợp thêm các kỹ thuật khác như dropout để tránh overfitting, hay sử dụng các hàm kích hoạt mạnh mẽ hơn như ReLU thay vì sigmoid truyền thống. Tất cả những điều này giúp mạng học được biểu diễn sâu và chính xác hơn đối với dữ liệu đầu vào. Ví dụ tiếp theo, chúng ta sẽ xem cách mạng neural sử dụng các lớp tích chập (convolutional layers) trong xử lý hình ảnh, nơi mà mỗi lớp sẽ trích xuất các đặc trưng quan trọng từ ảnh ban đầu, từ đó tạo ra các biểu diễn đa chiều ngày càng chi tiết hơn. Điều này giúp mạng dễ dàng phát hiện các đối tượng phức tạp trong hình ảnh.

Nhận dạng chữ số viế

nhận diện chữ số viết tay

Xin chào thế giới

Trong tập dữ liệu MNISTkeo 88, có tổng cộng 70000 hình ảnh chữ số viết tay. Chúng giống như hình dưới đây:

Mỗi bức ảnh trong số này có kích thước 28 pixel nhân 28 pixel và chỉ ở dạng đen trắng. Mỗi pixel trong ảnh được biểu thị bằng một giá trị cường độ xám nằm trong khoảng từ 0 đến 255tai ban ca, trong đó 0 tượng trưng cho màu đen hoàn toàn và 255 đại diện cho màu trắng thuần khiết. Điều này cho phép hình ảnh được mã hóa một cách chính xác với các mức xám khác nhau, tạo ra những chi tiết cần thiết để nhận diện.

Vấn đề nhận diện chữ số trong tập dữ liệu MNISTkeo 88, đó là bạn sẽ nhận được một hình ảnh kích thước 28 pixel × 28 pixel, và nhiệm vụ của bạn là viết một chương trình để xác định chính xác hình ảnh đó biểu thị chữ số nào từ 0 đến 9. Đây thực sự là một thử thách thú vị để rèn luyện khả năng học máy, giúp máy tính có thể "nhìn" và hiểu được các ký tự số một cách tự động. Một khi chương trình đã được đào tạo tốt, nó có thể phân biệt các chữ số ngay cả khi hình ảnh bị méo mó hoặc có độ phân giải thấp hơn.

Về vấn đề nàytỷ lệ kèo bóng đá trực tiếp, thành tích tốt nhất trong lịch sử đạt được là tỷ lệ nhận diện lên tới 99,79%, phương pháp áp dụng đã sử dụng mạng nơ-ron convolutional (CNN). Tuy nhiên, chúng tôi không muốn làm cho vấn đề trở nên phức tạp hơn cần thiết, vì vậy quyết định sử dụng mạng nơ-ron toàn kết nối truyền thống để giải quyết. Cấu trúc mạng mà chúng tôi áp dụng như sau: Chúng tôi bắt đầu bằng cách tạo ra một lớp tiền xử lý cơ bản để chuẩn bị dữ liệu đầu vào. Tiếp theo, mạng của chúng tôi bao gồm nhiều lớp ẩn với các đơn vị nơ-ron được sắp xếp theo thứ tự có hệ thống. Các tham số trọng số của mạng đã được tối ưu hóa qua nhiều vòng lặp huấn luyện, đảm bảo hiệu suất ổn định và chính xác. Với sự đơn giản nhưng mạnh mẽ của mạng toàn kết nối, chúng tôi tin rằng đây sẽ là lựa chọn phù hợp nhất cho bài toán này.

Cấu trúc đầu vào và đầu ra của mạng nơ-ron này được định nghĩa như sau:

Mỗi lần bạn nhập một hình ảnh. Giá trị độ xám của từng pixel trong hình ảnh sẽ được chia cho 255 để chuyển đổi thành một giá trị chuẩn hóa nằm trong khoảng [0tỷ lệ kèo bóng đá trực tiếp, 1]. Những giá trị này sau đó sẽ được truyền vào mỗi nơ-ron của lớp đầu vào. Điều thú vị là, lớp đầu vào có tổng cộng 784 nơ-ron, tương ứng với số lượng pixel trong một hình ảnh kích thước 28x28, nghĩa là 784 pixel. Quy trình này giúp dữ liệu hình ảnh dễ dàng được xử lý bởi mạng thần kinh và tăng cường khả năng học hỏi của hệ thống.
Lớp đầu ra bao gồm 10 nơ-rontai ban ca, trong đó mỗi nơ-ron sẽ tương ứng với một con số từ 0 đến 9. Khi nào một nơ-ron có giá trị đầu ra lớn nhất, ta có thể suy ra rằng kết quả dự đoán chính là con số mà nó biểu diễn. Ngoài ra, sau khi 10 giá trị đầu ra này được xử lý qua hàm softmax, chúng ta sẽ thu được xác suất của hình ảnh hiện tại thuộc từng lớp (tức là xác suất hình ảnh đó là con số nào từ 0 đến 9). Hàm softmax giúp điều chỉnh các giá trị để chúng tổng hợp lại bằng 1, từ đó cung cấp cái nhìn rõ ràng hơn về khả năng thuộc từng loại của đầu vào.

Sau khi đào tạo mạng nơ-ron nàytỷ lệ kèo bóng đá trực tiếp, bạn có thể dễ dàng đạt được tỷ lệ nhận diện chính xác khoảng 98%. Vậy đối với mạng nơ-ron rộng hơn này, liệu chúng ta vẫn có thể áp dụng phương pháp trước đây để vẽ biểu đồ trực quan cho nó không? Thêm vào đó, việc điều chỉnh các tham số trong quá trình xử lý hình ảnh có thể giúp cải thiện hiệu suất phân tích và tạo ra những kết quả đáng tin cậy hơn.

Giảm chiều.

Trong phần trướctai ban ca, mạng thần kinh đơn giản của chúng ta có lớp đầu vào và lớp ẩn chỉ gồm 2 nơ-ron, nhờ đó chúng ta có thể dễ dàng biểu diễn chúng trên một mặt phẳng tọa độ hai chiều. Còn đối với mạng này liên quan đến tập dữ liệu MNIST, khi muốn vẽ hình ảnh của lớp đầu vào, chúng ta gặp phải tình huống khá thú vị: nó có tới 784 chiều! Điều này khiến việc trực quan hóa trở nên phức tạp hơn rất nhiều so với mô hình nhỏ gọn trước đây. Bạn có thể tưởng tượng rằng mỗi điểm dữ liệu trong lớp đầu vào là một vector 784 chiều, với mỗi giá trị đại diện cho một pixel trong hình ảnh số được xử lý. Chính sự khác biệt về kích thước này đã tạo ra thách thức lớn cho việc hiểu và trực quan hóa mạng thần kinh trong trường hợp này.

Làm thế nào để vẽ ra một vector đặc trưng có 784 chiều? Điều này liên quan đến vấn đề visualization của dữ liệu cao chiều. Về cơ bảnkeo 88, não bộ con người chỉ có thể hiểu rõ không gian tối đa ba chiều; còn đối với không gian trên ba chiều, chúng ta chỉ có thể dựa vào tư duy trừu tượng. Để xử lý vấn đề này, các nhà khoa học thường sử dụng các kỹ thuật giảm chiều dữ liệu như PCA (Phân tích thành phần chính) hoặc t-SNE. Những phương pháp này giúp chuyển đổi vector đặc trưng từ không gian cao chiều xuống không gian hai hoặc ba chiều mà vẫn giữ được mối quan hệ giữa các điểm dữ liệu. Ví dụ, với PCA, bạn có thể chọn số lượng thành phần chính cần thiết để giữ lại phần lớn sự biến thiên của dữ liệu. Sau khi giảm chiều, bạn có thể dễ dàng vẽ biểu đồ scatter plot trong không gian hai hoặc ba chiều để quan sát sự phân bố của các điểm dữ liệu. Mặc dù vậy, việc giảm chiều cũng có thể làm mất đi một số thông tin quan trọng. Do đó, cần phải cân nhắc kỹ lưỡng giữa việc giữ nguyên thông tin gốc và khả năng hiểu rõ dữ liệu sau khi giảm chiều. Dù sao, kỹ thuật visualization vẫn là một cách hiệu quả để khám phá và hiểu sâu hơn về cấu trúc của dữ liệu phức tạp.

Chúng ta tưởng tượng một ví dụ đơn giản để cảm nhận sự khó khăn khi hiểu trực quan không gian cao chiều:

Trước tiêntỷ lệ kèo bóng đá trực tiếp, trong một mặt phẳng (hay không gian 2 chiều), chúng ta có thể tìm thấy ba điểm có khoảng cách bằng nhau giữa các cặp điểm, và từ đó có thể tạo thành một tam giác đều. Những điểm này như những chốt quan trọng để thiết lập hình dạng cân đối và hoàn hảo của hình học phẳng.
Trong không gian ba chiềukeo 88, chúng ta có thể tìm thấy bốn điểm mà khoảng cách giữa mỗi cặp điểm đều bằng nhau, và khi kết nối chúng lại với nhau, chúng sẽ tạo thành một tứ diện đều. Mỗi mặt của tứ diện này đều là một tam giác đều, với ba cạnh có độ dài hoàn toàn giống nhau. Điều đặc biệt là tứ diện đều không chỉ đơn thuần là một hình học đơn giản mà còn mang trong mình những tính chất đối xứng rất thú vị, khiến nó trở thành một cấu trúc quan trọng trong toán học cũng như trong tự nhiên.
Nguyên lý Hình học

Rồitỷ lệ kèo bóng đá trực tiếp, nếu bạn vẫn có thể hiểu được đoạn cuối cùng về không gian bốn chiều này, điều đó chứng tỏ bạn đã đọc rất cẩn thận và luôn suy nghĩ sâu sắc trong quá trình đọc đó nha ^-^ Tuy nhiên, ngay cả việc tưởng tượng về không gian bốn chiều thôi đã đủ khiến người ta nản lòng (dù nó hoàn toàn hợp lý nhưng lại không thể hình dung ra), huống chi là cố gắng tưởng tượng cấu trúc hình học của một không gian có đến 784 chiều! Điều đó thực sự vượt xa trí tưởng tượng của con người.

hiểu biết trực quan

Việc hạ chiều là một quy trình như thế nào? Hãy cùng nghĩ lạitỷ lệ kèo bóng đá trực tiếp, thực tế trong cuộc sống hàng ngày, chúng ta đã gặp không ít tình huống liên quan đến việc hạ chiều. Ví dụ như trong hình ảnh dưới đây: [Ở đây sẽ là một hình ảnh cụ thể, nhưng vì không có hình ảnh cụ thể nên tôi chỉ mô tả khái quát] Hình ảnh này có thể là một ví dụ rõ ràng về cách mà hệ thống hoặc trí tuệ nhân tạo cố gắng thu nhỏ thông tin phức tạp từ nhiều chiều xuống dạng dễ hiểu hơn cho con người. Hãy tưởng tượng rằng bạn đang nhìn vào một bản đồ ba chiều của thành phố, nhưng để di chuyển nhanh chóng và dễ dàng hơn, bạn chỉ cần một bản đồ hai chiều hoặc thậm chí một đường đi đơn giản trên mặt đất. Đó chính là cách mà việc hạ chiều hoạt động, tóm gọn những yếu tố quan trọng và loại bỏ những chi tiết thừa thãi.

Chiều Chủ nhật tại Đại Điển

Bây giờ chúng ta hãy xem thêm một ví dụ:

Trong hình bên phải là một bản đồ thế giới dạng phẳng. Thực tếtai ban ca, bề mặt Trái Đất là một hình cầu trong không gian ba chiều, nhưng bản đồ thế giới trên đây đã cố gắng thể hiện toàn bộ hình cầu này lên một mặt phẳng hai chiều. Để làm được điều đó, rõ ràng người vẽ bản đồ phải "làm phẳng" bề mặt hình cầu và một số khu vực nhất định phải được kéo giãn hoặc biến dạng để phù hợp với không gian phẳng. Chúng ta có thể tưởng tượng quá trình vẽ bản đồ như một phép ánh xạ: một điểm trên bề mặt Trái Đất sẽ được ánh xạ thành một điểm cụ thể trên bản đồ phẳng. Tuy nhiên, tất cả các điểm không tuân theo cùng một mối quan hệ tuyến tính, vì vậy đây là một phép biến đổi phi tuyến tính. Điều thú vị là, việc biến đổi này đôi khi làm thay đổi đáng kể kích thước, hình dạng và vị trí của các khu vực khác nhau trên bản đồ. Ví dụ, những vùng gần cực có xu hướng bị phóng to hơn so với thực tế, khiến chúng mất đi sự chính xác về tỷ lệ so với các khu vực khác. Điều này cho thấy rằng, dù bản đồ rất hữu ích trong việc định hướng và nghiên cứu địa lý, nó không hoàn toàn phản ánh đúng quy mô và cấu trúc thực tế của Trái Đất. Chính sự biến dạng này đã khiến nhiều nhà khoa học và nghệ sĩ tiếp tục nghiên cứu và sáng tạo ra những bản đồ mới, nhằm tìm ra cách tốt nhất để cân bằng giữa độ chính xác và khả năng sử dụng trong cuộc sống hàng ngày.

Trên đâytỷ lệ kèo bóng đá trực tiếp, bất kể là ví dụ về tác phẩm hội họa, hình ảnh hay bản đồ thế giới phẳng, tất cả đều liên quan đến việc giảm chiều từ ba chiều xuống hai chiều. Tuy nhiên, trong lĩnh vực học máy, chúng ta thường cần thực hiện quá trình giảm chiều từ không gian có số chiều lớn hơn xuống ba hoặc hai chiều. Để làm được điều này, con người đã sáng tạo ra vô số phương pháp giảm chiều khác nhau. Ví dụ như PCA (Phân tích Thành phần Chính), đây là một phương pháp giảm chiều tuyến tính; MDS (Cố Định Kích thước Nhiều chiều) và t-SNE (Nhấn nháy Hàng xóm Phân tán t-phân bố), đều thuộc nhóm phương pháp giảm chiều phi tuyến tính. Điều thú vị là, mỗi phương pháp đều có những ưu điểm và hạn chế riêng. Ví dụ, PCA rất hiệu quả khi dữ liệu tuân theo các mô hình tuyến tính đơn giản, nhưng nếu dữ liệu của bạn chứa các cấu trúc phức tạp hơn, thì t-SNE có thể giúp khám phá các mối liên hệ ẩn sâu hơn. Ngược lại, MDS tập trung vào việc bảo tồn khoảng cách giữa các điểm dữ liệu, phù hợp cho các bài toán mà sự tương đồng giữa các đối tượng là yếu tố chính. Tuy nhiên, việc giảm chiều không chỉ dừng lại ở việc tạo ra hình ảnh dễ nhìn hơn. Nó còn đóng vai trò quan trọng trong việc tối ưu hóa thời gian tính toán, giảm thiểu lượng thông tin dư thừa và cải thiện hiệu suất của các thuật toán học máy. Điều này đặc biệt hữu ích khi làm việc với các bộ dữ liệu khổng lồ, nơi mà việc xử lý từng điểm dữ liệu có thể trở nên rất tốn kém về mặt tài nguyên.

Phương pháp trực quan hóa giảm chiều dựa trên đồ thị k-gần hàng xóm và mô hình cơ học.

Như đã đề cập ở phần trướctai ban ca, các phương pháp giảm chiều có cách tiếp cận và trọng tâm khác nhau. Giải thích chi tiết từng phương pháp sẽ tốn khá nhiều thời gian và không gian, vì vậy bài viết này sẽ không đi sâu vào từng kỹ thuật cụ thể. Thay vào đó, với mục tiêu trực quan hóa mạng nơ-ron MNIST được giới thiệu trong phần trước một cách rõ ràng và dễ hiểu, chúng tôi sẽ sử dụng một phương pháp đơn giản hơn nhưng vẫn hiệu quả — đó là phương pháp giảm chiều dựa trên đồ thị hàng xóm gần nhất k (k-Nearest Neighborhood Graph) kết hợp với mô hình cơ học (Force-Directed) [3][4]. Phương pháp này không chỉ giúp chúng ta có cái nhìn trực quan mà còn dễ áp dụng trong việc phân tích dữ liệu phức tạp như tập dữ liệu hình ảnh số của MNIST.

Quá trình của phương pháp này có thể được mô tả như sau:

k-NNG (k-Nearest Neighborhood Graph)
Bạn có thể vẽ biểu đồ k-lân cận mà bạn đã thu được từ bước trước trên mặt phẳng hai chiều. Điều này trở thành một vấn đề sắp xếp bản đồ phổ biến trong đồ họatai ban ca, và có mối liên hệ nhất định với việc bố trí các linh kiện trên bảng mạch điện tử. Để đảm bảo rằng hình ảnh cuối cùng rõ ràng và dễ quan sát, quá trình vẽ cần phải đáp ứng tối đa một số điều kiện nhất định, chẳng hạn như: số lượng giao cắt giữa các cạnh nên giảm thiểu càng nhiều càng tốt; các nút có cạnh kết nối cần ở gần nhau hơn so với những nút không có liên hệ trực tiếp; đồng thời, các nút không được để chúng quá gần nhau (tụm lại), mà cần phân bố đều khắp mặt phẳng tọa độ. Để đạt được yêu cầu này, chúng tôi đã sử dụng thuật toán Vẽ Đồ Thị Hướng Lực do Fruchterman và Reingold phát minh. Thuật toán này mô phỏng các nguyên lý vật lý trong thế giới thực, giống như hình ảnh bên dưới: [Trong phần mô tả này, thay vì sử dụng từ "hình ảnh", bạn có thể thêm một chi tiết về hình ảnh hoặc loại mô hình cụ thể mà thuật toán tạo ra, nếu muốn làm cho nội dung phong phú hơn.]

Hãy tưởng tượng hình ở góc trên cùng tráitỷ lệ kèo bóng đá trực tiếp, thay đổi cạnh thành lò xo, thay đổi nút thành quả cầu điện tích;
Dây lò xo có xu hướng giữ các nút liền kề (tức là các nút được kết nối bởi cạnh) ở một độ dài tự nhiên nhất định (phản ánh khoảng cách trong không gian đa chiều ban đầu)keo 88, không để chúng cách xa nhau quá mức cũng như không cho phép chúng tiếp xúc quá gần.
cục cầu mang điện
Hãy buông lỏng và để các nút tự do di chuyển dưới tác động của lò xo và lực đẩykeo 88, đến khi tổng năng lượng đạt trạng thái nhỏ nhất. Khi đó, bạn sẽ thu được bản đồ bố trí nút tối ưu ở góc dưới bên trái.

Với phương pháp nàykeo 88, điều chúng ta cần đặc biệt chú ý là: Khi giảm từ không gian nhiều chiều xuống hai chiều, những đặc tính hình học nào trong không gian gốc vẫn được duy trì? Dựa trên mô tả quá trình vẽ trước đó, có thể dễ dàng nhận thấy rằng các nút ở gần nhau trong không gian nhiều chiều ban đầu sẽ có xu hướng nằm ở vị trí tương đối gần nhau trong hình ảnh hai chiều cuối cùng, dưới tác động của lực kéo từ lò xo. Chỉ khi hiểu rõ điều này, chúng ta mới có thể thông qua việc quan sát hình ảnh hai chiều để hiểu cấu trúc của không gian nhiều chiều. Điều này thực sự là một bước đột phá trong việc giải mã các mối liên hệ phức tạp giữa các điểm dữ liệu trong không gian cao hơn.

Bây giờtỷ lệ kèo bóng đá trực tiếp, chúng ta cuối cùng đã sẵn sàng để trực quan hóa mạng nơ-ron MNIST.

Trực quan hóa MNIST.

Hình ảnh phía trên là biểu đồ trực quan hóa dữ liệu đầu vào của mạng nơ-ron cho tập MINST (có kích thước 784 chiều). Mỗi nút trong hình đại diện cho một hình ảnhtỷ lệ kèo bóng đá trực tiếp, được biểu diễn dưới dạng vector 784 chiều. Màu sắc khác nhau trong hình tượng trưng cho các con số từ 0 đến 9, có nghĩa là các nút được phân loại thành 10 nhóm khác nhau. Qua đó, chúng ta có thể nhận thấy rằng:

Trong tập dữ liệu gốc của MNISTkeo 88, đã tự động hình thành một số cấu trúc. Những nút đại diện cho cùng một chữ số, khi ở trong không gian 784 chiều ban đầu, cũng có xu hướng nằm gần nhau và tự nhiên tạo thành các cụm. Ví dụ như nhóm nút màu xanh dương ở phía bên trái, nó thể hiện chữ số 0; nhóm nút màu xanh lơ ở góc dưới bên phải, biểu thị chữ số 1; còn cụm nút màu tím đậm ở góc dưới bên trái, lại đại diện cho chữ số 6. Điều này cho thấy rằng các mẫu dữ liệu trong bộ dữ liệu này có xu hướng phân bố theo cách có tổ chức, phản ánh rõ ràng sự liên kết giữa các chữ số tương ứng với từng cụm.
Ở bên phải giữatỷ lệ kèo bóng đá trực tiếp, có nhiều loại nút khác nhau xen kẽ và đan quyện vào nhau. Có những nút màu đỏ đại diện cho con số 9, những nút màu nâu sẫm biểu thị cho con số 7, và cả những nút màu vàng-xanh lá cây tượng trưng cho con số 4. Tất cả chúng đan xen một cách phức tạp, tạo nên một sự hỗn loạn nhẹ. Điều này cho thấy rằng việc phân biệt chúng với nhau không hề dễ dàng chút nào.

Hình ảnh trên là biểu đồ trực quan hóa dữ liệu đầu ra của lớp ẩn trong mạng nơ-ron được áp dụng cho tập dữ liệu MINST (dữ liệu này có chiều là 128). Mỗi nút trong hình vẫn đại diện cho một bức ảnhtỷ lệ kèo bóng đá trực tiếp, nhưng giờ đây bức ảnh đó đã được biến đổi qua lớp ẩn và được biểu diễn dưới dạng một vector 128 chiều. Các màu sắc khác nhau trong biểu đồ vẫn chỉ định các số từ 0 đến 9, với tổng cộng 10 phân loại. Qua hình ảnh, ta có thể nhận thấy rằng: Các nhóm dữ liệu dường như đã được sắp xếp lại theo cách mà các thuộc tính quan trọng của từng số đã được lớp ẩn tách biệt rõ rệt hơn so với dữ liệu ban đầu. Điều này cho thấy khả năng học sâu và phân loại phức tạp của mạng nơ-ron. Đồng thời, các vùng màu khác nhau cũng cho thấy rằng các số tương tự nhau (như số 4 và số 9) có xu hướng tập trung gần nhau nhưng vẫn duy trì sự phân biệt nhất định. Điều này giúp chúng ta hiểu thêm về cách mạng nơ-ron hoạt động và cách nó xử lý các mẫu dữ liệu phức tạp.

Khi so sánh với dữ liệu đầu vào gốc của MINSTtỷ lệ kèo bóng đá trực tiếp, mức độ hỗn loạn ở các nút đã giảm đi (hay nói cách khác, entropy đã giảm). Điều này cũng thể hiện rõ trong hình ảnh trước đây, nơi mà con số 7, con số 4 và con số 9 từng bị trộn lẫn với nhau. Hiện tại, chúng đã tự phân thành từng cụm riêng biệt: cụm nút màu nâu sẫm lồi ra bên trái chính là con số 7; cụm nút màu vàng-xanh ở góc trên bên trái là con số 4; và cụm nút màu đỏ là con số 9. Điều này có nghĩa là việc tách biệt chúng trở nên dễ dàng hơn nhiều.

Hình ảnh trên đây là biểu diễn trực quan của dữ liệu đầu ra từ lớp cuối cùng của mạng nơ-ron được áp dụng hàm softmax (dữ liệu 10 chiều). Mỗi nút trong hình đại diện cho một hình ảnhtỷ lệ kèo bóng đá trực tiếp, tức là dữ liệu hình ảnh gốc đã được biến đổi qua toàn bộ mạng nơ-ron và chuyển đổi thành một vector có kích thước chỉ 10 chiều. Trong đó, mỗi màu khác nhau vẫn biểu thị một số từ 0 đến 9, và tổng cộng vẫn có 10 loại phân loại. Qua hình ảnh, chúng ta có thể nhận thấy rằng: Các nút gần với nhau thường thể hiện những hình ảnh có đặc điểm tương đồng, cho thấy rằng mạng đã học được cách phân chia các tính chất đặc trưng cho từng lớp số. Các vùng màu sắc khác biệt rõ ràng giữa các nhóm nút cho thấy khả năng phân biệt mạnh mẽ của mạng đối với từng loại số. Điều này chứng tỏ rằng quá trình huấn luyện đã giúp mạng hiểu sâu hơn về cấu trúc của hình ảnh đầu vào và tách biệt chúng thành các nhóm tương ứng. Mặt khác, các nút ở rìa xa hơn hoặc nằm riêng lẻ dường như đại diện cho những trường hợp khó phân biệt hoặc không đủ dữ liệu để mạng tự tin phân loại chính xác. Điều này gợi ý rằng việc bổ sung thêm dữ liệu đa dạng hoặc cải thiện kỹ thuật huấn luyện có thể nâng cao hiệu suất phân loại của mạng. Tóm lại, hình ảnh này không chỉ cung cấp cái nhìn trực quan về cách mạng hoạt động mà còn là công cụ hữu ích để đánh giá và điều chỉnh quá trình học máy.

Mức độ lộn xộn của các nút đã giảm đáng kểtai ban ca, và mỗi loại số đều tự động tập trung thành nhóm riêng biệt. Khi quan sát hình ảnh này, ta nhận thấy rằng số lượng nút trong đó hoàn toàn giống với hai hình ảnh trước đây, nhưng phạm vi phân tán lại hẹp hơn nhiều. Điều này cho thấy mức độ tập hợp theo từng lớp đạt đến một độ chính xác rất cao. Thực tế, ở thời điểm này, chỉ cần thực hiện một phép toán đơn giản như argmax trên vectơ 10 chiều cuối cùng, chúng ta có thể nhận diện chính xác loại số cụ thể với tỷ lệ chính xác rất cao. Điều này chứng tỏ rằng đầu ra cuối cùng có khả năng "tách biệt" rất tốt, giúp phân biệt rõ ràng giữa các lớp khác nhau.

Kết luận

Trong bài viết nàytỷ lệ kèo bóng đá trực tiếp, qua việc nghiên cứu trực quan hóa mạng nơ-ron, chúng tôi nhận thấy rằng: bắt đầu từ dữ liệu đầu vào là các đặc trưng thô, mỗi khi dữ liệu đi qua một lớp trong mạng nơ-ron và được xử lý, mức độ trừu tượng của nó sẽ tăng lên và ngày càng gần hơn với mục tiêu mà vấn đề đang hướng đến. Hãy lấy ví dụ về bài toán phân loại chữ số viết tay trên tập MNIST, đây là một bài toán đa phân loại, nghĩa là cần xác định hình ảnh thuộc vào một trong 10 nhóm từ 0 đến 9. Ban đầu, dữ liệu đầu vào là các giá trị pixel thô của hình ảnh, nhưng sau mỗi lần dữ liệu đi qua một lớp mạng, dữ liệu đó dần trở nên "dễ phân loại" hơn trước, tức là nó tiến gần hơn đến mục tiêu phân loại đã đặt ra. Qua quá trình này, ta có thể hình dung rằng mỗi lớp mạng không chỉ đơn thuần là một công cụ xử lý mà còn như một bước chuyển đổi thông minh, giúp nâng cao khả năng hiểu và phân tích hình ảnh từ mức độ thô sơ nhất đến mức đủ để đưa ra quyết định chính xác. Điều này cho phép chúng ta hiểu sâu hơn về cách mạng nơ-ron học máy có thể "nhìn" và "phân tích" thế giới phức tạp của hình ảnh một cách hiệu quả.

Đây là một quá trình tích hợp thông tin điển hình. Giống như nhiều tình huống trong thế giới thựctai ban ca, khi đối mặt với vô số chi tiết rườm rà, chúng ta chỉ có thể đạt được sự "nhận thức" hoặc "hiểu biết" đích thực khi những thông tin đó được sắp xếp và xử lý một cách hiệu quả. Sự kết nối các mảnh ghép rời rạc không chỉ giúp chúng ta nhìn nhận rõ hơn về hiện thực mà còn mở ra cánh cửa để khám phá ý nghĩa sâu sắc đằng sau nó.

Trong những hành vi nhận thức đơn giản như nhận diện hình ảnhkeo 88, con người thậm chí không nhận ra sự tồn tại của quá trình tích hợp thông tin này. Nếu ta phân tích quá trình mà mắt người nhìn thấy một vật thể, ta sẽ thấy rằng các photon từ thế giới vật lý đi vào tế bào cảm quang trong mắt và tạo ra một lượng lớn dữ liệu chi tiết. Những dữ liệu đó chắc chắn phải được xử lý bởi một cấu trúc phức tạp trong não người, có thể coi là một mạng lưới thần kinh (nhưng chắc chắn cao cấp hơn rất nhiều). Sau khi xử lý và tổng hợp những dữ liệu chi tiết này, chúng ta mới có thể nhận ra ở cấp độ lớn hơn là mình đang nhìn thấy gì. Đối với bộ não, quá trình này diễn ra tức thì, nhanh chóng, chính xác và tiêu tốn rất ít năng lượng. Nếu muốn thiết kế một mô hình có khả năng nhận diện vật thể, cách tốt nhất có lẽ là sao chép hoàn toàn cơ chế hoạt động của não người. Tuy nhiên, những cơ chế này vẫn còn là bí ẩn, hoặc ít nhất là chúng ta chưa hiểu rõ về nó. Do đó, chúng ta chỉ có thể cố gắng gần gũi, tham khảo và bắt chước cơ chế của não người. Ngay cả khi đã nghiên cứu kỹ càng, việc sao chép hoàn hảo bộ não con người vẫn là một thử thách to lớn. Hiện tại, khoa học vẫn chưa thể giải mã hết mọi khía cạnh của hoạt động não bộ. Điều này khiến cho việc xây dựng mô hình nhận diện vật thể dựa trên não người trở nên phức tạp hơn bao giờ hết. Chúng ta chỉ có thể tìm kiếm những điểm tương đồng nhỏ để tiến gần hơn đến mục tiêu cuối cùng: tạo ra một hệ thống tự nhiên và hiệu quả như bộ não thực. Chính vì vậy, các nhà nghiên cứu đang tập trung vào việc cải thiện trí tuệ nhân tạo bằng cách học hỏi từ cách hoạt động của não người, nhưng vẫn phải đối mặt với rất nhiều thách thức về mặt lý thuyết và công nghệ.

Cuối cùngtỷ lệ kèo bóng đá trực tiếp, những kỹ thuật trực quan hóa mà chúng ta đã thảo luận hôm nay chỉ là một phần rất cơ bản trong hành trình tìm kiếm tính giải thích của học máy (Interpretability Techniques). Nó có thể giúp chúng ta hiểu rõ hơn về cách sửa chữa các mô hình hiện tại hoặc tối ưu hóa quá trình huấn luyện, nhưng khả năng cao là nó sẽ không thể dẫn dắt chúng ta phát minh ra một cơ chế học tập hoàn toàn mới mẻ và đột phá. Điều này giống như những gì tôi đã đề cập trong bài viết trước đây " kỹ thuật-nghệ thuật Như đã đề cập trong tác phẩm đókeo 88, việc thiết kế một mô hình mới hay phát minh ra một cơ chế học tập hoàn toàn mới vẫn là một "nghệ thuật" đòi hỏi sự khơi nguồn cảm hứng. Con đường này không chỉ đơn thuần là logic hay lý thuyết, mà còn là sự kết hợp giữa trí tuệ và trực giác, nơi các nhà nghiên cứu phải vượt qua giới hạn của bản thân để khám phá những ý tưởng đột phá. Mỗi bước tiến trong lĩnh vực này đều như một hành trình đầy thử thách, nơi mà cả sự kiên nhẫn và tài năng cá nhân đều đóng vai trò quan trọng.

(kết thúc phần chính)

Tài liệu tham khảo:

[1] https://github.com/antirez/neural-redis
[2] MNIST data set. http://yann.lecun.com/exdb/mnist/
[3] Computes the (weighted) graph of k-Neighbors. https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.kneighbors_graph.html
[4] Fruchterman-Reingold force-directed algorithm. https://networkx.github.io/documentation/stable/reference/generated/networkx.drawing.layout.spring_layout.html#networkx.drawing.layout.spring_layout

Các bài viết được chọn lọc khác ：

Bài viết gốctai ban ca, vui lòng ghi rõ nguồn và bao gồm mã QR bên dưới! Nếu không, từ chối tái bản!
Liên kết bài viết: /i793h0ud.html
Hãy theo dõi tài khoản Weibo cá nhân của tôi: Tìm kiếm tên "Trương Tiết Lệ" trên Weibo.

Tài khoản WeChat của tôi: tielei-blog (Trương Tiết Lệ)

Bài trước: kỹ thuật-nghệ thuật

Bài sau: Khởi nghiệp tinh gọn

Học máy nhìn thấy được: Zero-base hiểu sâu về mạng thần kinh
2020-05-04

Mạng nơ-ron đơn giản nhất.

Nhận dạng chữ số viế

Giảm chiều.

Phương pháp trực quan hóa giảm chiều dựa trên đồ thị k-gần hàng xóm và mô hình cơ học.

Trực quan hóa MNIST.

Kết luận

Tài liệu tham khảo:

Phân loại mục

Bài viết mới nhất

Học máy nhìn thấy được: Zero-base hiểu sâu về mạng thần kinh 2020-05-04

Mạng nơ-ron đơn giản nhất.

Nhận dạng chữ số viế

Giảm chiều.

Phương pháp trực quan hóa giảm chiều dựa trên đồ thị k-gần hàng xóm và mô hình cơ học.

Trực quan hóa MNIST.

Kết luận

Tài liệu tham khảo:

Phân loại mục

Bài viết mới nhất

Học máy nhìn thấy được: Zero-base hiểu sâu về mạng thần kinh
2020-05-04