Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc

Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

03/27/2026 01:06:23

Đăng bởi Đinh Tuấn Minh

(1) bình luận

Google vừa công bố một nghiên cứu mới mang tên TurboQuant, giới thiệu thuật toán nén giúp giảm đáng kể nhu cầu bộ nhớ khi vận hành các mô hình ngôn ngữ lớn (LLM). Theo công bố, công nghệ này có thể cắt giảm tới 6 lần lượng bộ nhớ cần thiết mà vẫn giữ nguyên độ chính xác.

Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

Thông tin này ngay lập tức tác động mạnh đến thị trường tài chính. Trong phiên giao dịch sáng thứ Tư, cổ phiếu của nhiều hãng sản xuất chip nhớ lớn đồng loạt giảm sâu: Micron Technology giảm 4%, Western Digital giảm 4,4%, Seagate Technology giảm 5,6% và SanDisk giảm 6,5%.

Nút thắt lớn của AI: bộ nhớ cho mô hình ngôn ngữ

Để hiểu tác động của TurboQuant, cần nhìn vào một trong những thách thức lớn nhất của AI hiện nay: bộ nhớ. Khi người dùng tương tác với các hệ thống như ChatGPT, mô hình phải lưu trữ toàn bộ nội dung hội thoại trong một cấu trúc gọi là “KV cache” (key-value cache). Thời gian hội thoại càng dài, lượng bộ nhớ cần thiết càng tăng, kéo theo chi phí vận hành lớn.

Trong thực tế, một cuộc hội thoại dài khoảng 128.000 từ trên các mô hình lớn có thể tiêu tốn tới 40GB bộ nhớ GPU cho một người dùng duy nhất. Khi mở rộng lên hàng nghìn người dùng, chi phí hạ tầng có thể tăng lên mức hàng triệu USD. Chính vì vậy, ngành công nghiệp chip nhớ đã đặt cược lớn vào nhu cầu ngày càng tăng này, đặc biệt là các dòng bộ nhớ hiệu năng cao như HBM.

TurboQuant: giải pháp phần mềm cho bài toán phần cứng

TurboQuant được thiết kế để thay đổi hoàn toàn bài toán trên. Thuật toán này giảm độ chính xác của dữ liệu trong bộ nhớ cache xuống chỉ còn 3 bits mỗi giá trị, so với tiêu chuẩn 32 bits hiện tại, từ đó giúp tiết kiệm đáng kể dung lượng lưu trữ. Điểm khác biệt lớn nhất so với các phương pháp trước đây là TurboQuant không làm giảm chất lượng đầu ra. Các thử nghiệm ban đầu cho thấy kết quả gần như tương đương với khi sử dụng bộ nhớ đầy đủ.

Về cơ chế, thuật toán thực hiện hai bước chính:

• Tái cấu trúc dữ liệu để tối ưu khả năng nén

• Áp dụng bước hiệu chỉnh nhằm khôi phục độ chính xác sau nén

Nhờ đó, hệ thống vừa giảm được dung lượng bộ nhớ, vừa duy trì hiệu suất xử lý.

Không cần huấn luyện lại, dễ triển khai

Một yếu tố quan trọng khiến TurboQuant được đánh giá cao là khả năng triển khai nhanh chóng. Công nghệ này không yêu cầu huấn luyện lại hay tinh chỉnh mô hình, mà có thể tích hợp trực tiếp vào các hệ thống hiện có. Google cho biết đã thử nghiệm TurboQuant trên nhiều mô hình AI và các bộ benchmark khác nhau, với kết quả đạt hoặc vượt hiệu suất ban đầu.

Không cần huấn luyện lại, dễ triển khai

Đáng chú ý, thuật toán này đã được sử dụng trong hệ thống Gemini và đang được các nhà phát triển chuyển sang nền tảng Apple Silicon. Điều này mở ra khả năng các mô hình AI lớn có thể chạy trên thiết bị cá nhân như laptop, thay vì yêu cầu hạ tầng đắt đỏ. Ngoài ra, Google cũng ghi nhận hiệu năng xử lý có thể tăng tới 8 lần trên GPU NVIDIA H100 trong một số tác vụ nhất định.

Tác động đến ngành chip nhớ

Sự xuất hiện của TurboQuant đặt ra câu hỏi lớn cho ngành công nghiệp chip nhớ. Nếu nhu cầu bộ nhớ có thể được tối ưu bằng phần mềm, vai trò của phần cứng có thể bị giảm bớt trong dài hạn. Tuy nhiên, các chuyên gia cho rằng phản ứng giảm giá cổ phiếu hiện tại có thể là hơi quá mức. Trong ngắn hạn, nhu cầu phần cứng AI vẫn rất cao và các hợp đồng cung cấp chip đã được ký kết từ trước.

Dù vậy, về lâu dài, TurboQuant cho thấy một xu hướng rõ ràng: những nút thắt đắt đỏ nhất của AI hoàn toàn có thể được giải quyết bằng các đột phá phần mềm.

- Trích nguồn: GenK

THIẾT BỊ MẠNG

THIẾT BỊ ÂM THANH

CAMERA - BÁO ĐỘNG

THIẾT BỊ HỌP TRỰC TUYẾN

THIẾT BỊ THÔNG MINH

THIẾT BỊ BÁO CHÁY

KHÓA THÔNG MINH

FASTER

Huawei

Career

Tin tức mới nhất

AI Trung Quốc Gây Sốt Với Thiết Bị “Dịch Ngôn Ngữ Thú Cưng” Đạt Độ Chính Xác 95%

Người Trung Quốc cổ đại từng tưởng tượng về robot và máy quét CT từ hơn 2.000 năm trước?

Samsung chính thức rút khỏi mảng TV và gia dụng tại Trung Quốc, dồn lực cho AI và bán dẫn

4GB RAM trên Mac đã đủ chạy nhiều mô hình AI mà laptop Windows bó tay

Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

Nút thắt lớn của AI: bộ nhớ cho mô hình ngôn ngữ

TurboQuant: giải pháp phần mềm cho bài toán phần cứng

Không cần huấn luyện lại, dễ triển khai

Tác động đến ngành chip nhớ

Tin tức liên quan

AI Trung Quốc Gây Sốt Với Thiết Bị “Dịch Ngôn Ngữ Thú Cưng” Đạt Độ Chính Xác 95%

Người Trung Quốc cổ đại từng tưởng tượng về robot và máy quét CT từ hơn 2.000 năm trước?

Samsung chính thức rút khỏi mảng TV và gia dụng tại Trung Quốc, dồn lực cho AI và bán dẫn

Bình luận (1)

Viết bình luận của bạn

Về chúng tôi

Chính sách

Thông tin

Kênh thông tin

Career

Google công bố TurboQuant: Thuật toán nén mới có thể làm thay đổi cuộc chơi của ngành chip nhớ

Nút thắt lớn của AI: bộ nhớ cho mô hình ngôn ngữ

TurboQuant: giải pháp phần mềm cho bài toán phần cứng

Không cần huấn luyện lại, dễ triển khai

Tác động đến ngành chip nhớ

Bình luận (1)

Viết bình luận của bạn

Sản phẩm đã thêm vào giỏ hàng

0 Giỏ hàng có sản phẩm