18008000

Sau cú ‘bắt tay’, Viettel Solutions và NVIDIA công bố bộ dữ liệu tiếng Việt phục vụ huấn luyện cho trợ lý AI

Saturday, 21/12/2024, 15:12 (GMT + 7)

Hai tập đoàn công nghệ lớn là Viettel và NVIDIA đã thiết lập mối quan hệ hợp tác chiến lược về AI, mở đầu cho các hoạt động nghiên cứu, ứng dụng AI tại Việt Nam từ năm 2022. Mới đây, Chính phủ Việt Nam và NVIDIA tiếp tục ký kết thành lập Trung tâm Nghiên cứu và Phát triển AI của NVIDIA và Trung tâm Dữ liệu AI của Viettel. Hai sự kiện này mang ý nghĩa quan trọng, là nền tảng để thúc đẩy nghiên cứu và phát triển các công nghệ AI tiên tiến tại Việt Nam. Bộ dữ liệu tiếng Việt phục vụ huấn luyện trợ lý AI được công bố là minh chứng rõ ràng cho sự kết hợp hiệu quả giữa công nghệ và nguồn lực từ hai tập đoàn lớn.

Trợ lý AI như ChatGPT hoạt động hiệu quả và ấn tượng nhờ sức mạnh của các mô hình mô hình ngôn ngữ lớn (LLM), được huấn luyện trên những bộ dữ liệu khổng lồ. Mặc dù hiện nay có nhiều mô hình LLM nguồn mở giúp phát triển các ứng dụng AI một cách nhanh chóng nhưng hầu hết được huấn luyện chủ yếu trên các bộ dữ liệu Tiếng Anh.

Đối với Tiếng Việt, một ngôn ngữ có cấu trúc và đặc điểm riêng biệt, việc phát triển các bộ dữ liệu chuyên biệt, có quy mô lớn và chất lượng cao là yêu cầu được đặt ra. Để giải quyết bài toán đó, Viettel Solutions và NVIDIA hợp tác xây dựng bộ dữ liệu Tiếng Việt nhằm khắc phục vấn đề này đồng thời cung cấp cho cộng đồng nghiên cứu một nguồn tài nguyên quý để phát triển các mô hình AI phù hợp với văn hóa và ngữ cảnh sử dụng Tiếng Việt. 

Đại diện của Viettel Solutions, đơn vị trực tiếp tham gia vào thực hiện dự án cho biết bộ dữ liệu này hiện đã được công bố trên trang chia sẻ công nghệ của NVIDIA và sẵn sàng cung cấp miễn phí cho cộng đồng nghiên cứu phát triển AI tại Việt Nam.

Về điểm khác biệt của bộ dữ liệu tiếng Việt này, nhóm kỹ sư tham gia vào nghiên cứu của Viettel Solutions tiết lộ, bộ dữ liệu Tiếng Việt do Viettel và NVIDA hợp tác nghiên cứu đã được xử lý và lọc qua NeMo Curator, giúp giảm kích thước bộ dữ liệu mà không làm giảm chất lượng. Đây cũng là bộ dữ liệu Việt Nam chất lượng cao đầu tiên được công bố tới cộng đồng nghiên cứu và phát triển trí tuệ nhân tạo Việt Nam.

Dựa trên sự hỗ trợ từ nền tảng NeMo Framework và hạ tầng tính toán GPU với nguồn tài nguyên lớn của NVIDIA, các kỹ sư của Viettel thu thập và xử lý dữ liệu từ nhiều nguồn khác nhau, thực hiện các bước chuẩn hóa, phân loại và làm sạch dữ liệu. Bộ dữ liệu này được xử lý một cách nhanh chóng và hiệu quả, giảm thiểu thời gian huấn luyện mô hình AI mà vẫn đảm bảo chất lượng.

Các kỹ thuật tối ưu hóa như loại bỏ dữ liệu trùng lặp, sử dụng GPU để xử lý song song, và áp dụng các công cụ như NeMo Curator đã giúp rút ngắn thời gian huấn luyện mô hình từ 80 ngày xuống còn 20 ngày, nhanh hơn gấp 4 lần so với trước đây. Điều này không chỉ tiết kiệm thời gian mà còn giúp giảm chi phí và tiết kiệm năng lượng.

Viettel Solutions cho biết, bộ dữ liệu tiếng Việt chỉ là bước khởi đầu trong hành trình hợp tác dài hạn giữa Viettel Solutions và NVIDIA. Hai bên cam kết sẽ tiếp tục mở rộng hợp tác, phát triển các bộ dữ liệu phong phú hơn về chủ đề, nâng cao độ chính xác và sự đa dạng của các mẫu dữ liệu, đồng thời nghiên cứu các lĩnh vực ứng dụng AI chuyên sâu như y tế, giáo dục, thương mại và hành chính công.

Một trong những mục tiêu tiếp theo của dự án là ứng dụng công nghệ song song hóa và tối ưu phần cứng mới nhất của NVIDIA để xử lý các bộ dữ liệu rất lớn, nhằm giảm chi phí phần cứng và tiêu thụ điện năng. Điều này sẽ giúp các nghiên cứu và phát triển AI tiếp tục phát triển mạnh mẽ tại Việt Nam.

Kết quả hợp tác đầu tiên giữa Viettel Solutions và NVIDIA về lĩnh vực dữ liệu đã mở ra những cơ hội mới cho cộng đồng nghiên cứu và phát triển AI trong nước. Bộ dữ liệu Tiếng Việt chất lượng cao và quy mô lớn này sẽ mở ra cơ hội sáng tạo các sản phẩm AI tiên tiến, mang tính bản địa hóa cao cho các nhà phát triển và nghiên cứu viên tại Việt Nam, góp phần thúc đẩy quá trình chuyển đổi số, nâng cao năng lực nghiên cứu và phát triển AI trong nước. Các sản phẩm AI chuẩn Tiếng Việt không chỉ nâng cao chất lượng cuộc sống mà còn thúc đẩy người dân tiếp cận công nghệ hiện đại, thu hẹp khoảng cách số và tạo ra giá trị bền vững cho cộng đồng.