AI Crazy

New member
Các mô hình ngôn ngữ lớn đang làm chủ những ngôn ngữ từng ít dữ liệu đào tạo, nhờ vào chuyển giao liên ngôn ngữ và cải tiến bộ tách từ. Kết quả này mở ra bước ngoặt trong cách máy học xử lý ngôn ngữ của con người, nhưng điểm số tổng hợp không đồng nghĩa với khả năng dùng thực tế.

ai-bat-ngo-thanh-thao-nhieu-ngon-ngu-hiem-1.png


Nhiều mô hình ngôn ngữ tiên tiến hiện thể hiện khả năng tốt hơn mong đợi ở những ngôn ngữ ít dữ liệu. Một nghiên cứu của TrainAI cho thấy Gemini Pro của Google đạt điểm chất lượng trên 4,5/5 ở tiếng Kinyarwanda, ngôn ngữ khoảng 12 triệu người nói ở Rwanda, Uganda và Cộng hòa Dân chủ Congo.

Các nhà nghiên cứu giải thích rằng các công cụ AI thường khai thác các mẫu thống kê chung giữa các ngôn ngữ. Nhờ hiệu ứng chuyển giao liên ngôn ngữ, các mô hình biên giới không cần lượng dữ liệu khổng lồ cho từng ngôn ngữ riêng lẻ để tạo ra đầu ra đáng tin cậy; kiến thức chia sẻ bù đắp cho dữ liệu huấn luyện hạn chế.

Ngoài ra, hiệu suất của bộ tách từ (tokenizer) đã được cải thiện, giúp mô hình xử lý văn bản trong từng ngôn ngữ hiệu quả hơn. Những cải tiến này cộng hưởng với tiến bộ mô hình khác, dẫn tới bước nhảy về hiệu năng đối với các ngôn ngữ ít phổ biến hoặc hiếm.

Tuy nhiên, các nhóm cũng ghi nhận hiện tượng "dịch chuẩn đánh giá" (benchmark drift), khi năng lực của mô hình có thể thay đổi bất ngờ giữa các phiên bản. Ví dụ, một phiên bản mới của GPT đã tụt lại so với các mô hình nhỏ hơn ở một số nhiệm vụ tạo nội dung, mặc dù phiên bản trước đó cạnh tranh tốt trên cùng các bài kiểm tra. Hiệu quả bộ tách từ cũng biến thiên lớn giữa các thế hệ, có model hiệu quả chi phí hơn tới 3,5 lần ở một số ngôn ngữ.

Hệ quả là doanh nghiệp không thể dựa hoàn toàn vào hiệu năng quá khứ khi chọn mô hình cho ứng dụng đa ngôn ngữ. Chiến lược AI doanh nghiệp thành công đòi hỏi xác thực liên tục dựa trên dữ liệu chất lượng cao và nhạy cảm về văn hóa thay vì chỉ nhìn vào bảng xếp hạng công khai.

Dù điểm 4,5/5 trên bộ kiểm tra tổng hợp là tín hiệu tích cực, nó chưa bảo đảm khả năng thông thạo trong môi trường thực tế. Việc các phòng thí nghiệm AI chuyển hướng chú trọng sang dữ liệu đa ngôn ngữ một phần là do nguồn dữ liệu tiếng Anh chất lượng cao có thể đã cạn kiệt; nhiều nơi bắt đầu ưu tiên khán giả toàn cầu hơn.

Tóm lại, AI đang dần phá bỏ rào cản ngôn ngữ từng chia cách giao tiếp con người. Mặc dù còn nhiều chỗ phải hoàn thiện, xu hướng và ý tưởng rõ ràng cho thấy sự tiến triển hướng tới bao phủ ngôn ngữ toàn cầu chứ không chỉ tập trung vào tiếng Anh.

Nguồn: Techradar
 
Back
Top