post-training-quantization

Here are 30 public repositories matching this topic...

alibaba / TinyNeuralNetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated May 29, 2024
Python

intel / neural-compressor

Star

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated May 29, 2024
Python

ModelTC / TFMQ-DM

Star

[CVPR 2024 Highlight] TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models

highlight quantization cvpr ldm diffusion-models post-training-quantization ddim stable-diffusion cvpr2024

Updated May 13, 2024
Jupyter Notebook

OmidGhadami95 / EfficientNetV2_Quantization_CK

Star

EfficientNetV2 (Efficientnetv2-b2) and quantization int8 and fp32 (QAT and PTQ) on CK+ dataset . fine-tuning, augmentation, solving imbalanced dataset, etc.

python tensorflow keras quantization emotion-recognition qat ckplus facial-emotion-recognition scale-down googlecolab efficientnet imbalanced-dataset quantization-aware-training post-training-quantization efficientnetv2 ptq real-time-emotion-classification real-time-emotion-detection efficientnetv2-b2

Updated May 4, 2024
Jupyter Notebook

SqueezeAILab / SqueezeLLM

Star

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

natural-language-processing text-generation transformer llama quantization model-compression efficient-inference post-training-quantization large-language-models llm small-models localllm

Updated May 2, 2024
Python

raj2022 / quantization_prunings

Star

Post-Training quantization perfomed on the model trained with CLIC dataset.

post-training-quantization int8-quantization

Updated Apr 29, 2024
Jupyter Notebook

rdrachmanto / gace-ptq-tensorrt

Star

Research experiments archive for post-training quantization with TensorRT. Submitted and Accepted to IEEE EDGE 2024

research tensorrt post-training-quantization

Updated Apr 4, 2024
Python

Xiuyu-Li / q-diffusion

Star

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

pytorch quantization model-compression diffusion-models post-training-quantization ddim stable-diffusion

Updated Mar 21, 2024
Python

ModelTC / QLLM

Star

[ICLR 2024] This is the official PyTorch implementation of "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"

transformers pytorch llama quantization post-training-quantization llm llama2

Updated Mar 11, 2024
Python

smpanaro / norm-tweaking

Star

Post post-training-quantization (PTQ) method for improving LLMs. Unofficial implementation of https://arxiv.org/abs/2309.02784

quantization post-training-quantization ptq llms

Updated Feb 21, 2024
Python

megvii-research / Sparsebit

Star

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

Updated Jan 12, 2024
Python

hkproj / quantization-notes

Star

Notes on quantization in neural networks

deep-learning pytorch neural-networks quantization quantization-aware-training post-training-quantization

Updated Dec 14, 2023
Jupyter Notebook

yashmaniya0 / Quantization-of-Image-Classification-Models

Star

Comprehensive study on the quantization of various CNN models, employing techniques such as Post-Training Quantization and Quantization Aware Training (QAT).

quantization-aware-training post-training-quantization