Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

Google vừa công bố một nghiên cứu mới mang tên TurboQuant, giới thiệu thuật toán nén giúp giảm đáng kể nhu cầu bộ nhớ khi vận hành các mô hình ngôn ngữ lớn (LLM). Theo công bố, công nghệ này có thể cắt giảm tới 6 lần lượng bộ nhớ cần thiết mà vẫn giữ nguyên độ chính xác.

Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

Thông tin này ngay lập tức tác động mạnh đến thị trường tài chính. Trong phiên giao dịch sáng thứ Tư, cổ phiếu của nhiều hãng sản xuất chip nhớ lớn đồng loạt giảm sâu: Micron Technology giảm 4%, Western Digital giảm 4,4%, Seagate Technology giảm 5,6% và SanDisk giảm 6,5%.

Nút thắt lớn của AI: bộ nhớ cho mô hình ngôn ngữ


Để hiểu tác động của TurboQuant, cần nhìn vào một trong những thách thức lớn nhất của AI hiện nay: bộ nhớ. Khi người dùng tương tác với các hệ thống như ChatGPT, mô hình phải lưu trữ toàn bộ nội dung hội thoại trong một cấu trúc gọi là “KV cache” (key-value cache). Thời gian hội thoại càng dài, lượng bộ nhớ cần thiết càng tăng, kéo theo chi phí vận hành lớn.

Trong thực tế, một cuộc hội thoại dài khoảng 128.000 từ trên các mô hình lớn có thể tiêu tốn tới 40GB bộ nhớ GPU cho một người dùng duy nhất. Khi mở rộng lên hàng nghìn người dùng, chi phí hạ tầng có thể tăng lên mức hàng triệu USD. Chính vì vậy, ngành công nghiệp chip nhớ đã đặt cược lớn vào nhu cầu ngày càng tăng này, đặc biệt là các dòng bộ nhớ hiệu năng cao như HBM.

TurboQuant: giải pháp phần mềm cho bài toán phần cứng


TurboQuant được thiết kế để thay đổi hoàn toàn bài toán trên. Thuật toán này giảm độ chính xác của dữ liệu trong bộ nhớ cache xuống chỉ còn 3 bits mỗi giá trị, so với tiêu chuẩn 32 bits hiện tại, từ đó giúp tiết kiệm đáng kể dung lượng lưu trữ. Điểm khác biệt lớn nhất so với các phương pháp trước đây là TurboQuant không làm giảm chất lượng đầu ra. Các thử nghiệm ban đầu cho thấy kết quả gần như tương đương với khi sử dụng bộ nhớ đầy đủ.

Về cơ chế, thuật toán thực hiện hai bước chính:

   •    Tái cấu trúc dữ liệu để tối ưu khả năng nén

   •    Áp dụng bước hiệu chỉnh nhằm khôi phục độ chính xác sau nén

Nhờ đó, hệ thống vừa giảm được dung lượng bộ nhớ, vừa duy trì hiệu suất xử lý.

Không cần huấn luyện lại, dễ triển khai


Một yếu tố quan trọng khiến TurboQuant được đánh giá cao là khả năng triển khai nhanh chóng. Công nghệ này không yêu cầu huấn luyện lại hay tinh chỉnh mô hình, mà có thể tích hợp trực tiếp vào các hệ thống hiện có. Google cho biết đã thử nghiệm TurboQuant trên nhiều mô hình AI và các bộ benchmark khác nhau, với kết quả đạt hoặc vượt hiệu suất ban đầu.

Không cần huấn luyện lại, dễ triển khai

Đáng chú ý, thuật toán này đã được sử dụng trong hệ thống Gemini và đang được các nhà phát triển chuyển sang nền tảng Apple Silicon. Điều này mở ra khả năng các mô hình AI lớn có thể chạy trên thiết bị cá nhân như laptop, thay vì yêu cầu hạ tầng đắt đỏ. Ngoài ra, Google cũng ghi nhận hiệu năng xử lý có thể tăng tới 8 lần trên GPU NVIDIA H100 trong một số tác vụ nhất định.

Tác động đến ngành chip nhớ


Sự xuất hiện của TurboQuant đặt ra câu hỏi lớn cho ngành công nghiệp chip nhớ. Nếu nhu cầu bộ nhớ có thể được tối ưu bằng phần mềm, vai trò của phần cứng có thể bị giảm bớt trong dài hạn. Tuy nhiên, các chuyên gia cho rằng phản ứng giảm giá cổ phiếu hiện tại có thể là hơi quá mức. Trong ngắn hạn, nhu cầu phần cứng AI vẫn rất cao và các hợp đồng cung cấp chip đã được ký kết từ trước.

Dù vậy, về lâu dài, TurboQuant cho thấy một xu hướng rõ ràng: những nút thắt đắt đỏ nhất của AI hoàn toàn có thể được giải quyết bằng các đột phá phần mềm.

 - Trích nguồn: GenK

Viết bình luận của bạn
Gọi ngay: 0945029902
CÔNG TY TNHH DIGIVI