Một cách mới để xây dựng các mạng thần kinh nhỏ có thể tạo ra AI mạnh mẽ trên điện thoại của bạn

CÔ. TECHMs. Tech



Mạng nơ-ron là phần mềm cốt lõi của học sâu. Tuy nhiên, mặc dù chúng rất phổ biến, nhưng chúng thực sự kém hiểu biết. Các nhà nghiên cứu đã quan sát các đặc tính nổi của chúng mà không thực sự hiểu tại sao họ làm việc theo cách họ làm.

Bây giờ một giấy mới ngoài MIT đã thực hiện một bước quan trọng để trả lời câu hỏi này. Và trong quá trình này, các nhà nghiên cứu đã có một khám phá đơn giản nhưng đầy ấn tượng: chúng ta đang sử dụng mạng thần kinh lớn hơn nhiều so với mức chúng ta thực sự cần. Trong một số trường hợp, chúng lớn hơn gấp 10 - thậm chí gấp 100 lần, vì vậy việc đào tạo chúng khiến chúng ta tốn nhiều thời gian và sức mạnh tính toán hơn mức cần thiết.





Nói một cách khác, bên trong mỗi mạng nơ-ron đều tồn tại một mạng nhỏ hơn rất nhiều có thể được huấn luyện để đạt được hiệu suất tương tự như mạng cha quá khổ của nó. Đây không chỉ là tin tức thú vị đối với các nhà nghiên cứu AI. Phát hiện này có khả năng mở khóa các ứng dụng mới — một số ứng dụng mà chúng tôi chưa thể hiểu — có thể cải thiện cuộc sống hàng ngày của chúng tôi. Thêm về điều đó sau.

Nhưng trước tiên, hãy đi sâu vào cách mạng nơ-ron hoạt động để hiểu tại sao điều này lại khả thi.

Hình ảnh thiết kế mạng nơ-ron.

Sơ đồ mạng lưới thần kinh học cách nhận biết sư tử. JEFF CLUNE / SCREENSHOT



có bao nhiêu lá bài ma thuật khác nhau

Cách mạng nơ-ron hoạt động

Bạn có thể đã thấy các mạng nơ-ron được mô tả trong các sơ đồ như trên: chúng bao gồm các lớp xếp chồng lên nhau của các nút tính toán đơn giản được kết nối với nhau để tính toán các mẫu trong dữ liệu.

Các kết nối là điều quan trọng. Trước khi mạng nơ-ron được huấn luyện, các kết nối này được gán các giá trị ngẫu nhiên từ 0 đến 1 thể hiện cường độ của chúng. (Đây được gọi là quá trình khởi tạo.) Trong quá trình huấn luyện, khi mạng được cung cấp một loạt ảnh động vật, chẳng hạn, nó sẽ điều chỉnh và điều chỉnh các cường độ đó — giống như cách bộ não của bạn củng cố hoặc làm suy yếu các kết nối nơ-ron khác nhau khi bạn tích lũy kinh nghiệm và kiến ​​thức. Sau khi đào tạo, cường độ kết nối cuối cùng sẽ được sử dụng vĩnh viễn để nhận ra động vật trong các bức ảnh mới.

Mặc dù cơ học của mạng nơ-ron đã được hiểu rõ, nhưng lý do chúng hoạt động theo cách chúng hoạt động vẫn còn là một bí ẩn. Tuy nhiên, thông qua rất nhiều thử nghiệm, các nhà nghiên cứu đã quan sát thấy hai thuộc tính của mạng nơ-ron đã tỏ ra hữu ích.

Quan sát # 1. Khi một mạng được khởi chạy trước quá trình đào tạo, luôn có một số khả năng là các cường độ kết nối được chỉ định ngẫu nhiên kết thúc ở một cấu hình không thể kiểm tra được. Nói cách khác, bất kể bạn cung cấp bao nhiêu ảnh động vật cho mạng nơ-ron, nó sẽ không đạt được hiệu suất tốt và bạn chỉ cần khởi động lại nó thành một cấu hình mới. Mạng càng lớn (càng có nhiều lớp và nút) thì khả năng đó càng ít. Trong khi một mạng nơ-ron nhỏ có thể được đào tạo chỉ trong một trong số năm lần khởi tạo, một mạng lớn hơn có thể được đào tạo sau bốn trong mỗi năm lần khởi tạo. Lần nữa, tại sao điều này xảy ra đã là một bí ẩn, nhưng đó là lý do tại sao các nhà nghiên cứu thường sử dụng các mạng rất lớn cho các nhiệm vụ học sâu của họ. Họ muốn tăng cơ hội đạt được một mô hình thành công.



Quan sát # 2. Hệ quả là một mạng nơ-ron thường bắt đầu lớn hơn mức cần thiết. Sau khi đào tạo xong, thông thường chỉ một phần trong số các kết nối của nó vẫn mạnh, trong khi những kết nối khác thì khá yếu — yếu đến mức bạn thực sự có thể xóa hoặc cắt bớt chúng mà không ảnh hưởng đến hiệu suất của mạng.

Trong nhiều năm nay, các nhà nghiên cứu đã khai thác quan sát thứ hai này để thu nhỏ mạng lưới của họ sau đào tạo để giảm thời gian và chi phí tính toán liên quan đến việc vận hành chúng. Nhưng không ai nghĩ rằng có thể thu nhỏ mạng lưới của họ trước tập huấn. Giả định rằng bạn phải bắt đầu với một mạng quá khổ và quá trình đào tạo phải chạy theo khóa học của nó để tách các kết nối có liên quan khỏi những kết nối không liên quan.

Jonathan Frankle, nghiên cứu sinh tiến sĩ của MIT, đồng tác giả bài báo, đã đặt câu hỏi về giả định đó. Ông nói, nếu bạn cần ít kết nối hơn những gì bạn đã bắt đầu, tại sao chúng ta không thể đào tạo mạng nhỏ hơn mà không có thêm kết nối? Hóa ra bạn có thể.

Michael Carbin và Jonathan Frankle, tác giả của bài báo, tạo dáng trên cầu thang.

Michael Carbin (trái) và Jonathan Frankle (phải), tác giả của bài báo. Jason Dorfman, MIT CSAIL

Giả thuyết vé số

Khám phá xoay quanh một thực tế rằng các cường độ kết nối ngẫu nhiên được chỉ định trong quá trình khởi tạo, trên thực tế, không phải là ngẫu nhiên trong hệ quả của chúng: chúng khiến các phần khác nhau của mạng thất bại hoặc thành công trước khi quá trình huấn luyện diễn ra. Nói một cách khác, cấu hình ban đầu ảnh hưởng đến cấu hình cuối cùng mà mạng sẽ đến.

Bằng cách tập trung vào ý tưởng này, các nhà nghiên cứu phát hiện ra rằng nếu bạn cắt bớt một mạng quá khổ sau khi đào tạo, bạn thực sự có thể sử dụng lại mạng nhỏ hơn kết quả để đào tạo về dữ liệu mới và duy trì hiệu suất cao — miễn là bạn đặt lại từng kết nối trong mạng đã thu nhỏ này trở lại sức mạnh ban đầu của nó.

Từ phát hiện này, Frankle và đồng tác giả của ông là Michael Carbin, một trợ lý giáo sư tại MIT, đề xuất cái mà họ gọi là giả thuyết vé số. Khi bạn khởi tạo ngẫu nhiên sức mạnh kết nối của mạng nơ-ron, điều đó gần giống như mua một túi vé số. Trong túi của bạn, bạn hy vọng, là một tấm vé chiến thắng — tức là, một cấu hình ban đầu sẽ dễ đào tạo và dẫn đến một mô hình thành công.

Điều này cũng giải thích tại sao quan sát số 1 đúng. Bắt đầu với một mạng lưới lớn hơn cũng giống như mua nhiều vé số hơn. Bạn không gia tăng sức mạnh mà bạn đang ném vào vấn đề học sâu của mình; bạn chỉ đơn giản là tăng khả năng bạn sẽ có một cấu hình chiến thắng. Khi bạn tìm thấy cấu hình trúng thưởng, bạn sẽ có thể sử dụng lại nó nhiều lần, thay vì tiếp tục chơi lại xổ số.

Bước tiếp theo

Điều này đặt ra rất nhiều câu hỏi. Đầu tiên, làm thế nào để bạn tìm được tấm vé trúng thưởng? Trong bài báo của họ, Frankle và Carbin đã thực hiện một cách tiếp cận thô bạo là đào tạo và cắt tỉa một mạng quá khổ với một tập dữ liệu để trích xuất vé chiến thắng cho một tập dữ liệu khác. Về lý thuyết, cần có nhiều cách hiệu quả hơn để tìm kiếm — hoặc thậm chí thiết kế — một cấu hình chiến thắng ngay từ đầu.

Thứ hai, các giới hạn đào tạo của một cấu hình chiến thắng là gì? Có lẽ, các loại dữ liệu khác nhau và các nhiệm vụ học sâu khác nhau sẽ yêu cầu các cấu hình khác nhau.

những gì tôi không biết

Thứ ba, mạng nơ-ron nhỏ nhất có thể mà bạn có thể sử dụng trong khi vẫn đạt được hiệu suất cao là gì? Frankle nhận thấy rằng thông qua một quá trình đào tạo và cắt tỉa lặp đi lặp lại, ông có thể liên tục giảm mạng ban đầu xuống từ 10% đến 20% so với kích thước ban đầu. Nhưng anh ấy nghĩ rằng có cơ hội để nó thậm chí còn nhỏ hơn.

Hiện tại, nhiều nhóm nghiên cứu trong cộng đồng AI đã bắt đầu tiến hành các công việc tiếp theo. Một nhà nghiên cứu tại Princeton gần đây trêu chọc kết quả của một bài báo sắp ra mắt đề cập đến câu hỏi thứ hai. Một nhóm tại Uber cũng đã xuất bản một giấy mới về một số thí nghiệm điều tra bản chất của vé số ẩn dụ. Đáng ngạc nhiên nhất, họ phát hiện ra rằng một khi cấu hình chiến thắng đã được tìm thấy, nó đã đạt được hiệu suất tốt hơn đáng kể so với mạng ngoại cỡ ban đầu chưa được đào tạo trước bất kỳ đào tạo nào. Nói cách khác, hành động cắt xén mạng để trích xuất cấu hình chiến thắng bản thân nó đã là một phương pháp huấn luyện quan trọng.

Mạng nơron niết bàn

Frankle hình dung ra một tương lai nơi cộng đồng nghiên cứu sẽ có một cơ sở dữ liệu mã nguồn mở về tất cả các cấu hình khác nhau mà họ đã tìm thấy, với các mô tả về những nhiệm vụ mà họ phù hợp. Anh gọi đùa đây là mạng lưới thần kinh niết bàn. Ông tin rằng nó sẽ tăng tốc đáng kể và dân chủ hóa nghiên cứu AI bằng cách giảm chi phí và tốc độ đào tạo, đồng thời cho phép những người không có máy chủ dữ liệu khổng lồ thực hiện công việc này trực tiếp trên máy tính xách tay nhỏ hoặc thậm chí điện thoại di động.

Nó cũng có thể thay đổi bản chất của các ứng dụng AI. Nếu bạn có thể đào tạo mạng nơ-ron cục bộ trên một thiết bị thay vì trên đám mây, bạn có thể cải thiện tốc độ của quá trình đào tạo và tính bảo mật của dữ liệu. Ví dụ, hãy tưởng tượng một thiết bị y tế dựa trên máy học có thể tự cải thiện thông qua việc sử dụng mà không cần gửi dữ liệu bệnh nhân đến máy chủ của Google hoặc Amazon.

Jason Yosinski, một thành viên sáng lập của Uber AI Labs, người đồng ủy quyền cho bài báo tiếp theo của Uber, cho biết chúng tôi liên tục vượt qua ranh giới của những gì chúng tôi có thể đào tạo, cho biết chịu đựng sự chờ đợi trước khi chúng tôi nhận được một kết quả trở lại. Nếu các nhà nghiên cứu có thể tìm ra cách xác định các cấu hình chiến thắng ngay từ đầu, nó sẽ làm giảm kích thước của mạng nơ-ron xuống hệ số 10, thậm chí 100. Mức trần khả năng sẽ tăng lên đáng kể, mở ra một thế giới sử dụng tiềm năng mới.

giấu

Công Nghệ ThựC Tế.

Thể LoạI

Chưa Được Phân Loại

Công Nghệ

Công Nghệ Sinh Học

Chính Sách Công Nghệ

Khí Hậu Thay Đổi

Con Người Và Công Nghệ

Thung Lũng Silicon

Tin Học

Tạp Chí Mit News

Trí Tuệ Nhân Tạo

Khoảng Trống

Những Thành Phố Thông Minh

Chuỗi Khối

Câu Chuyện Nổi Bật

Hồ Sơ Cựu Sinh Viên

Kết Nối Cựu Sinh Viên

Tính Năng Mit News

1865

Quan Điểm Của Tôi

77 Đại Lộ Mass

Gặp Gỡ Tác Giả

Hồ Sơ Hào Phóng

Đã Nhìn Thấy Trong Khuôn Viên Trường

Thư Của Cựu Sinh Viên

Tin Tức

Bầu Cử 2020

Có Chỉ Mục

Dưới Mái Vòm

Vòi Chữa Cháy

Truyện Vô Hạn

Dự Án Công Nghệ Đại Dịch

Từ Tổng Thống

Truyện Bìa

Triển Lãm Ảnh

Tạp Chí Tin Tức Mit

Đề XuấT