When do AI language models start to eat themselves?
I heard about a theory regarding the collapse of AI language models, often referred to as model collapse, and I find it fascinating. Have you ever played the game Catch Phrase? You line up five or more players. The first person receives a message and rephrases it before passing it to the next in line, and so on until it reaches the last person. Usually, the final message is nothing like the original. Some AI theorists worry that this same dynamic could cause language models to spiral into self‑referential loops. At the early stage—where we are now—AI is healthy because it is being trained on primary human data sources. However, the speed at which AI consumes data is far faster than humans can produce it. With AI assistance, more AI‑generated writing is also emerging, which is secondary data. In the foreseeable future, we may witness language models being trained increasingly on these secondary sources. This cycle could continue: tertiary sources, quaternary sources, and beyond—until the AI regurgitates outputs that bear little resemblance to the original human input. According to this theory, that breakdown is the moment of model collapse.
Tôi đã nghe về một giả thuyết liên quan đến sự sụp đổ của các mô hình ngôn ngữ AI, thường được gọi là model collapse, và tôi thấy nó rất thú vị. Bạn đã từng chơi trò Catch Phrase chưa? Người chơi xếp thành hàng, ít nhất năm người. Người đầu tiên nhận một thông điệp rồi diễn đạt lại trước khi truyền cho người tiếp theo, cứ thế cho đến người cuối cùng. Thông thường, thông điệp cuối cùng chẳng giống gì với bản gốc. Một số nhà lý thuyết AI lo ngại rằng chính hiện tượng này có thể khiến mô hình ngôn ngữ rơi vào vòng xoáy tự tham chiếu. Ở giai đoạn đầu—chính là hiện nay—AI vẫn khỏe mạnh vì được huấn luyện bằng dữ liệu gốc từ con người. Tuy nhiên, tốc độ AI tiêu thụ dữ liệu nhanh hơn nhiều so với tốc độ con người tạo ra dữ liệu mới. Với sự hỗ trợ của AI, ngày càng có nhiều văn bản do AI tạo ra, tức là dữ liệu thứ cấp. Trong tương lai gần, chúng ta có thể chứng kiến các mô hình ngôn ngữ được huấn luyện ngày càng nhiều trên những nguồn dữ liệu thứ cấp này. Chu trình đó sẽ tiếp diễn: dữ liệu bậc ba, bậc bốn, và xa hơn nữa—cho đến khi AI chỉ lặp lại những thứ chẳng còn giống gì với dữ liệu gốc của con người. Theo giả thuyết này, sự đứt gãy đó chính là lúc model collapse xảy ra.
Saya pernah mendengar tentang satu teori mengenai keruntuhan model bahasa AI, yang sering disebut sebagai model collapse, dan saya rasa ia sangat menarik. Pernahkah anda bermain permainan Catch Phrase? Pemain berbaris, sekurang‑kurangnya lima orang. Orang pertama menerima mesej lalu menyusunnya semula sebelum disampaikan kepada orang seterusnya, dan seterusnya sehingga sampai kepada orang terakhir. Biasanya, mesej terakhir langsung tidak menyerupai mesej asal. Sesetengah ahli teori AI bimbang bahawa fenomena ini boleh menyebabkan model bahasa terjerumus ke dalam lingkaran rujukan diri. Pada peringkat awal—iaitu sekarang—AI masih sihat kerana ia dilatih dengan sumber data utama daripada manusia. Namun, kadar AI memakan data jauh lebih pantas daripada kadar manusia menghasilkan data baharu. Dengan bantuan AI, semakin banyak tulisan yang dihasilkan oleh AI sendiri, iaitu data sekunder. Dalam masa terdekat, kita mungkin akan melihat model bahasa dilatih semakin banyak dengan sumber sekunder ini. Kitaran itu akan berterusan: sumber tertiari, kuaternari, dan seterusnya—sehingga AI hanya mengulang semula perkara yang langsung tidak menyerupai input asal manusia. Menurut teori ini, keruntuhan itu adalah saat model collapse berlaku.
Comments
Post a Comment