svdq int4 flux.1 dev
v1

Loại mô hình: Text-to-Image Diffusion (Dùng thư viện Diffusers)
Nhà phát triển: MIT HAN Lab, hợp tác với NVIDIA, CMU, Princeton, UC Berkeley, SJTU và Pika Labs
Công nghệ: SVDQuant (kỹ thuật lượng tử hóa hậu huấn luyện)
Base model: black-forest-labs/FLUX.1-dev
Kích thước mô hình: 6.64GB
Định dạng lượng tử: INT4 (W4A4)
Phần cứng hỗ trợ: GPU NVIDIA với kiến trúc sm_86 (RTX 3090, A6000), sm_89 (RTX 4090), sm_80 (A100)
Tính năng chính:
Giảm kích thước bộ nhớ: SVDQuant giúp giảm dung lượng mô hình 3.6× so với bản BF16.Tăng tốc suy luận: Khi chạy trên GPU RTX 4090 16GB, tốc độ tăng lên 8.7× so với mô hình 16-bit.Cải thiện chất lượng hình ảnh: Trên PixArt-∑, nó vượt trội hơn các baseline W4A4 và W4A8 về chất lượng hình ảnh.Công cụ suy luận: Sử dụng DeepCompressor và Nunchaku để tối ưu hóa hiệu suất.
Cách hoạt động của SVDQuant
Di chuyển outliers: Các phần tử giá trị bất thường được chuyển từ activation sang weight để làm đơn giản hóa lượng tử hóa.Tách trọng số bằng SVD: Giảm hạng trọng số để làm lượng tử hóa dễ dàng hơn.Tối ưu hóa tốc độ: Sử dụng kernel fusion để giảm độ trễ.
