gemm · GitHub Topics

#计算机科学#Fast inference engine for Transformer models

neural-machine-translation C++mkl quantization CUDA thrust opennmt 深度神经网络 openmp onednn intrinsics avx2 avx parallel-computing gemm neon transformer-models machine-translation 深度学习 inference

C++ 4.02 k

5 个月前

flame / how-to-optimize-gemm

gemm matrix-multiplication blis

C 1.92 k

2 年前

CNugteren / CLBlast

Tuned OpenCL BLAS

blas opencl blas-libraries matrix-multiplication gemm gpu

C++ 1.14 k

3 天前

flame / blislab

BLISlab: A Sandbox for Optimizing GEMM

gemm matrix-multiplication blis

C 536

4 年前

Bruce-Lee-LY / cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

CUDA gemm cublas Nvidia gpu

Cuda 476

1 年前

yzhaiustc / Optimizing-SGEMM-on-NVIDIA-Turing-GPUs

Optimizing SGEMM kernel functions on NVIDIA GPUs to a close-to-cuBLAS performance.

CUDA gemm Nvidia optimization

Cuda 380

8 个月前

salykova / sgemm.c

Multi-Threaded FP32 Matrix Multiplication on x86 CPUs

C gemm matrix-multiplication openmp cpu

C 355

5 个月前

coderonion / awesome-cuda-and-hpc

#大语言模型#🚀🚀🚀 This repository lists some awesome public CUDA, cuda-python, cuBLAS, cuDNN, CUTLASS, TensorRT, TensorRT-LLM, Triton, TVM, MLIR, PTX and High Performance Computing (HPC) projects.

CUDA cublas tensorrt Awesome Lists 大语言模型 gpu blas PyTorch hpc gemm llama cudnn triton tensorrt-llm cutlass mlir tvm deepseek ptx vlm

320

1 个月前

mratsim / laser

#计算机科学#The HPC toolbox: fused matrix multiplication, convolution, data-parallel strided tensor primitives, OpenMP facilities, SIMD, JIT Assembler, CPU detection, state-of-the-art vectorized BLAS for floats a...

high-performance-computing 深度学习 blas gemm convolution jit Assembly simd openmp tensor parallel matrix-multiplication

Nim 290

2 年前