vllm.compilation.rocm_aiter_fusion ¶

AITER_GROUP_FP8_QUANT_OP `module-attribute` ¶

AITER_GROUP_FP8_QUANT_OP = default

AITER_RMS_ADD_GROUP_QUANT_OP `module-attribute` ¶

AITER_RMS_ADD_GROUP_QUANT_OP = default

AITER_RMS_ADD_OP `module-attribute` ¶

AITER_RMS_ADD_OP = default

AITER_RMS_GROUP_QUANT_OP `module-attribute` ¶

AITER_RMS_GROUP_QUANT_OP = default

AITER_RMS_OP `module-attribute` ¶

AITER_RMS_OP = default

FP8_DTYPE `module-attribute` ¶

FP8_DTYPE = fp8_dtype()

FUSED_SILU_MUL_QUANT_OP `module-attribute` ¶

FUSED_SILU_MUL_QUANT_OP = default

TRITON_GROUP_FP8_QUANT_OP `module-attribute` ¶

TRITON_GROUP_FP8_QUANT_OP = default

logger `module-attribute` ¶

logger = init_logger(__name__)

AiterFusedAddRMSFp8GroupQuantPattern ¶

This pattern fuses aiter rms_norm_with_add & group fp8 quant custom ops into a aiter rms_norm_with_add_group_fp8_quant op.

Source code in vllm/compilation/rocm_aiter_fusion.py

class AiterFusedAddRMSFp8GroupQuantPattern:
    """
    This pattern fuses aiter rms_norm_with_add & group fp8 quant custom ops
    into a aiter rms_norm_with_add_group_fp8_quant op.
    """

    def __init__(self, epsilon: float, quant_dtype: torch.dtype, quant_op: OpOverload):
        self.epsilon = epsilon
        self.quant_dtype = quant_dtype
        self.quant_op = quant_op

    def register(self, pm_pass: PatternMatcherPass):
        def pattern(
            input: torch.Tensor,
            residual: torch.Tensor,
            weight: torch.Tensor,
        ):
            at1 = AITER_RMS_ADD_OP(
                x=input,
                residual=residual,
                weight=weight,
                variance_epsilon=self.epsilon,
            )

            at2 = self.quant_op(at1[0], 128)

            # result, scale, residual
            return at2[0], at2[1], at1[1]

        def replacement(
            input: torch.Tensor,
            residual: torch.Tensor,
            weight: torch.Tensor,
        ):
            at = AITER_RMS_ADD_GROUP_QUANT_OP(
                x=input,
                residual=residual,
                weight=weight,
                variance_epsilon=self.epsilon,
                group_size=128,
            )

            # result, scale, residual
            return at[0], at[1], at[2]

        inputs = [
            empty_bf16(5, 4),  # input
            empty_bf16(5, 4),  # residual
            empty_bf16(1, 5),  # weight
        ]

        pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)

epsilon `instance-attribute` ¶

epsilon = epsilon

quant_dtype `instance-attribute` ¶

quant_dtype = quant_dtype

quant_op `instance-attribute` ¶

quant_op = quant_op

init ¶

__init__(
    epsilon: float, quant_dtype: dtype, quant_op: OpOverload
)

Source code in vllm/compilation/rocm_aiter_fusion.py

def __init__(self, epsilon: float, quant_dtype: torch.dtype, quant_op: OpOverload):
    self.epsilon = epsilon
    self.quant_dtype = quant_dtype
    self.quant_op = quant_op

register ¶

register(pm_pass: PatternMatcherPass)

Source code in vllm/compilation/rocm_aiter_fusion.py

def register(self, pm_pass: PatternMatcherPass):
    def pattern(
        input: torch.Tensor,
        residual: torch.Tensor,
        weight: torch.Tensor,
    ):
        at1 = AITER_RMS_ADD_OP(
            x=input,
            residual=residual,
            weight=weight,
            variance_epsilon=self.epsilon,
        )

        at2 = self.quant_op(at1[0], 128)

        # result, scale, residual
        return at2[0], at2[1], at1[1]

    def replacement(
        input: torch.Tensor,
        residual: torch.Tensor,
        weight: torch.Tensor,
    ):
        at = AITER_RMS_ADD_GROUP_QUANT_OP(
            x=input,
            residual=residual,
            weight=weight,
            variance_epsilon=self.epsilon,
            group_size=128,
        )

        # result, scale, residual
        return at[0], at[1], at[2]

    inputs = [
        empty_bf16(5, 4),  # input
        empty_bf16(5, 4),  # residual
        empty_bf16(1, 5),  # weight
    ]

    pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)

AiterRMSFp8GroupQuantPattern ¶

This pattern fuses aiter rms_norm & group fp8 quant custom ops into an aiter rms_norm_group_fp8_quant op.

Source code in vllm/compilation/rocm_aiter_fusion.py

class AiterRMSFp8GroupQuantPattern:
    """
    This pattern fuses aiter rms_norm & group fp8 quant custom
    ops into an aiter rms_norm_group_fp8_quant op.
    """

    def __init__(self, epsilon: float, quant_dtype: torch.dtype, quant_op: OpOverload):
        self.epsilon = epsilon
        self.quant_dtype = quant_dtype
        self.quant_op = quant_op

    def register(self, pm_pass: PatternMatcherPass):
        def pattern(
            input: torch.Tensor,
            weight: torch.Tensor,
        ):
            at1 = AITER_RMS_OP(x=input, weight=weight, variance_epsilon=self.epsilon)

            at2 = self.quant_op(at1, 128)

            return at2[0], at2[1]

        def replacement(
            input: torch.Tensor,
            weight: torch.Tensor,
        ):
            at = AITER_RMS_GROUP_QUANT_OP(
                x=input,
                weight=weight,
                variance_epsilon=self.epsilon,
                group_size=128,
            )

            return at[0], at[1]

        inputs = [
            empty_bf16(5, 4),  # input
            empty_bf16(1, 5),  # weight
        ]

        pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)

epsilon `instance-attribute` ¶

epsilon = epsilon

quant_dtype `instance-attribute` ¶

quant_dtype = quant_dtype

quant_op `instance-attribute` ¶

quant_op = quant_op

init ¶

__init__(
    epsilon: float, quant_dtype: dtype, quant_op: OpOverload
)

Source code in vllm/compilation/rocm_aiter_fusion.py

def __init__(self, epsilon: float, quant_dtype: torch.dtype, quant_op: OpOverload):
    self.epsilon = epsilon
    self.quant_dtype = quant_dtype
    self.quant_op = quant_op

register ¶

register(pm_pass: PatternMatcherPass)

Source code in vllm/compilation/rocm_aiter_fusion.py

def register(self, pm_pass: PatternMatcherPass):
    def pattern(
        input: torch.Tensor,
        weight: torch.Tensor,
    ):
        at1 = AITER_RMS_OP(x=input, weight=weight, variance_epsilon=self.epsilon)

        at2 = self.quant_op(at1, 128)

        return at2[0], at2[1]

    def replacement(
        input: torch.Tensor,
        weight: torch.Tensor,
    ):
        at = AITER_RMS_GROUP_QUANT_OP(
            x=input,
            weight=weight,
            variance_epsilon=self.epsilon,
            group_size=128,
        )

        return at[0], at[1]

    inputs = [
        empty_bf16(5, 4),  # input
        empty_bf16(1, 5),  # weight
    ]

    pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)

AiterSiluMulFp8GroupQuantPattern ¶

Bases: ActivationQuantPattern

This pattern fuses aiter silu_and_mul & group fp8 quant custom ops into an aiter silu_and_mul_group_fp8_quant op.

Source code in vllm/compilation/rocm_aiter_fusion.py

class AiterSiluMulFp8GroupQuantPattern(ActivationQuantPattern):
    """
    This pattern fuses aiter silu_and_mul & group fp8 quant custom
    ops into an aiter silu_and_mul_group_fp8_quant op.
    """

    def __init__(self, quant_op: OpOverload):
        self.silu_and_mul_matcher = MatcherSiluAndMul()
        self.quant_op = quant_op

    def register(self, pm_pass: PatternMatcherPass):
        def pattern(
            input: torch.Tensor,
        ):
            at1 = self.silu_and_mul_matcher(input)
            at2 = self.quant_op(at1, 128)
            return at2[0], at2[1]

        def replacement(
            input: torch.Tensor,
        ):
            at = FUSED_SILU_MUL_QUANT_OP(x=input, group_size=128)
            return at[0], at[1]

        inputs = [
            self.silu_and_mul_matcher.inputs()[0],
        ]

        pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)

quant_op `instance-attribute` ¶

quant_op = quant_op

silu_and_mul_matcher `instance-attribute` ¶

silu_and_mul_matcher = MatcherSiluAndMul()

init ¶

__init__(quant_op: OpOverload)

Source code in vllm/compilation/rocm_aiter_fusion.py

def __init__(self, quant_op: OpOverload):
    self.silu_and_mul_matcher = MatcherSiluAndMul()
    self.quant_op = quant_op

register ¶

register(pm_pass: PatternMatcherPass)

Source code in vllm/compilation/rocm_aiter_fusion.py

def register(self, pm_pass: PatternMatcherPass):
    def pattern(
        input: torch.Tensor,
    ):
        at1 = self.silu_and_mul_matcher(input)
        at2 = self.quant_op(at1, 128)
        return at2[0], at2[1]

    def replacement(
        input: torch.Tensor,
    ):
        at = FUSED_SILU_MUL_QUANT_OP(x=input, group_size=128)
        return at[0], at[1]

    inputs = [
        self.silu_and_mul_matcher.inputs()[0],
    ]

    pm.register_replacement(pattern, replacement, inputs, pm.fwd_only, pm_pass)

RocmAiterRMSNormFp8GroupQuantFusionPass ¶

Bases: VllmPatternMatcherPass

This pass fuses rms_norm & quant custom ops into a fused rms_norm_quant op. It also supports fused_add_rms_norm.

Source code in vllm/compilation/rocm_aiter_fusion.py

class RocmAiterRMSNormFp8GroupQuantFusionPass(VllmPatternMatcherPass):
    """
    This pass fuses rms_norm & quant custom ops into a fused rms_norm_quant op.
    It also supports fused_add_rms_norm.
    """

    @enable_fake_mode
    def __init__(self, config: VllmConfig):
        super().__init__(config)

        self.patterns: PatternMatcherPass = PatternMatcherPass(
            pass_name="rocm_aiter_rms_norm_fp8_group_quant_fusion_pass"
        )

        # Make sure fused add patterns are before simple rms norm,
        # as the latter is a subset of the former in torch ops
        for epsilon in [1e-5, 1e-6]:
            # Fuse rms_norm + dynamic group fp8 quant
            for quant_op in [AITER_GROUP_FP8_QUANT_OP, TRITON_GROUP_FP8_QUANT_OP]:
                AiterRMSFp8GroupQuantPattern(epsilon, FP8_DTYPE, quant_op).register(
                    self.patterns
                )

                AiterFusedAddRMSFp8GroupQuantPattern(
                    epsilon, FP8_DTYPE, quant_op
                ).register(self.patterns)

        self.dump_patterns(config, self.patterns)

    @VllmInductorPass.time_and_log
    def __call__(self, graph: fx.Graph):
        self.matched_count = self.patterns.apply(graph)
        logger.debug("Replaced %s patterns", self.matched_count)

    def uuid(self) -> Any:
        fusion_patterns = [
            AiterRMSFp8GroupQuantPattern,
            AiterFusedAddRMSFp8GroupQuantPattern,
        ]
        return self.hash_source(self, *fusion_patterns)

patterns `instance-attribute` ¶

patterns: PatternMatcherPass = PatternMatcherPass(
    pass_name="rocm_aiter_rms_norm_fp8_group_quant_fusion_pass"
)

call ¶

__call__(graph: Graph)

Source code in vllm/compilation/rocm_aiter_fusion.py

@VllmInductorPass.time_and_log
def __call__(self, graph: fx.Graph):
    self.matched_count = self.patterns.apply(graph)
    logger.debug("Replaced %s patterns", self.matched_count)

init ¶

__init__(config: VllmConfig)

Source code in vllm/compilation/rocm_aiter_fusion.py

@enable_fake_mode
def __init__(self, config: VllmConfig):
    super().__init__(config)

    self.patterns: PatternMatcherPass = PatternMatcherPass(
        pass_name="rocm_aiter_rms_norm_fp8_group_quant_fusion_pass"
    )

    # Make sure fused add patterns are before simple rms norm,
    # as the latter is a subset of the former in torch ops
    for epsilon in [1e-5, 1e-6]:
        # Fuse rms_norm + dynamic group fp8 quant
        for quant_op in [AITER_GROUP_FP8_QUANT_OP, TRITON_GROUP_FP8_QUANT_OP]:
            AiterRMSFp8GroupQuantPattern(epsilon, FP8_DTYPE, quant_op).register(
                self.patterns
            )

            AiterFusedAddRMSFp8GroupQuantPattern(
                epsilon, FP8_DTYPE, quant_op
            ).register(self.patterns)

    self.dump_patterns(config, self.patterns)

uuid ¶

uuid() -> Any

Source code in vllm/compilation/rocm_aiter_fusion.py

def uuid(self) -> Any:
    fusion_patterns = [
        AiterRMSFp8GroupQuantPattern,
        AiterFusedAddRMSFp8GroupQuantPattern,
    ]
    return self.hash_source(self, *fusion_patterns)

RocmAiterSiluMulFp8GroupQuantFusionPass ¶

Bases: VllmPatternMatcherPass

This pass fuses a pre-defined set of custom ops into fused ops. It uses the torch pattern matcher to find the patterns and replace them.

Because patterns can only be registered once, the pass is a singleton. This will be addressed in a future version of PyTorch: https://github.com/pytorch/pytorch/pull/139321#issuecomment-2452354980

Source code in vllm/compilation/rocm_aiter_fusion.py

class RocmAiterSiluMulFp8GroupQuantFusionPass(VllmPatternMatcherPass):
    """
    This pass fuses a pre-defined set of custom ops into fused ops.
    It uses the torch pattern matcher to find the patterns and replace them.

    Because patterns can only be registered once, the pass is a singleton.
    This will be addressed in a future version of PyTorch:
    https://github.com/pytorch/pytorch/pull/139321#issuecomment-2452354980
    """

    @enable_fake_mode
    def __init__(self, config: VllmConfig):
        super().__init__(config)

        self.patterns: PatternMatcherPass = PatternMatcherPass(
            pass_name="rocm_aiter_silu_mul_fp8_group_quant_fusion_pass"
        )

        for quant_op in [AITER_GROUP_FP8_QUANT_OP, TRITON_GROUP_FP8_QUANT_OP]:
            AiterSiluMulFp8GroupQuantPattern(quant_op).register(self.patterns)

        self.dump_patterns(config, self.patterns)

    @VllmInductorPass.time_and_log
    def __call__(self, graph: torch.fx.Graph):
        self.matched_count = self.patterns.apply(graph)
        logger.debug("Replaced %s patterns", self.matched_count)

    def uuid(self):
        fusion_patterns = [
            ActivationQuantPattern,
            AiterSiluMulFp8GroupQuantPattern,
        ]
        return VllmInductorPass.hash_source(self, *fusion_patterns)

patterns `instance-attribute` ¶

patterns: PatternMatcherPass = PatternMatcherPass(
    pass_name="rocm_aiter_silu_mul_fp8_group_quant_fusion_pass"
)

call ¶

__call__(graph: Graph)

Source code in vllm/compilation/rocm_aiter_fusion.py

@VllmInductorPass.time_and_log
def __call__(self, graph: torch.fx.Graph):
    self.matched_count = self.patterns.apply(graph)
    logger.debug("Replaced %s patterns", self.matched_count)

init ¶

__init__(config: VllmConfig)

Source code in vllm/compilation/rocm_aiter_fusion.py

@enable_fake_mode
def __init__(self, config: VllmConfig):
    super().__init__(config)

    self.patterns: PatternMatcherPass = PatternMatcherPass(
        pass_name="rocm_aiter_silu_mul_fp8_group_quant_fusion_pass"
    )

    for quant_op in [AITER_GROUP_FP8_QUANT_OP, TRITON_GROUP_FP8_QUANT_OP]:
        AiterSiluMulFp8GroupQuantPattern(quant_op).register(self.patterns)

    self.dump_patterns(config, self.patterns)

uuid ¶

uuid()

Source code in vllm/compilation/rocm_aiter_fusion.py

def uuid(self):
    fusion_patterns = [
        ActivationQuantPattern,
        AiterSiluMulFp8GroupQuantPattern,
    ]
    return VllmInductorPass.hash_source(self, *fusion_patterns)

vllm.compilation.rocm_aiter_fusion ¶

AITER_GROUP_FP8_QUANT_OP module-attribute ¶

AITER_RMS_ADD_GROUP_QUANT_OP module-attribute ¶

AITER_RMS_ADD_OP module-attribute ¶

AITER_RMS_GROUP_QUANT_OP module-attribute ¶

AITER_RMS_OP module-attribute ¶

FP8_DTYPE module-attribute ¶

FUSED_SILU_MUL_QUANT_OP module-attribute ¶

TRITON_GROUP_FP8_QUANT_OP module-attribute ¶

logger module-attribute ¶

AiterFusedAddRMSFp8GroupQuantPattern ¶

epsilon instance-attribute ¶

quant_dtype instance-attribute ¶

quant_op instance-attribute ¶

__init__ ¶

register ¶

AiterRMSFp8GroupQuantPattern ¶

epsilon instance-attribute ¶

quant_dtype instance-attribute ¶

quant_op instance-attribute ¶

__init__ ¶

register ¶

AiterSiluMulFp8GroupQuantPattern ¶

quant_op instance-attribute ¶

silu_and_mul_matcher instance-attribute ¶

__init__ ¶

register ¶

RocmAiterRMSNormFp8GroupQuantFusionPass ¶

patterns instance-attribute ¶

__call__ ¶

__init__ ¶

uuid ¶

RocmAiterSiluMulFp8GroupQuantFusionPass ¶

patterns instance-attribute ¶

__call__ ¶

__init__ ¶

uuid ¶

AITER_GROUP_FP8_QUANT_OP `module-attribute` ¶

AITER_RMS_ADD_GROUP_QUANT_OP `module-attribute` ¶

AITER_RMS_ADD_OP `module-attribute` ¶

AITER_RMS_GROUP_QUANT_OP `module-attribute` ¶

AITER_RMS_OP `module-attribute` ¶

FP8_DTYPE `module-attribute` ¶

FUSED_SILU_MUL_QUANT_OP `module-attribute` ¶

TRITON_GROUP_FP8_QUANT_OP `module-attribute` ¶

logger `module-attribute` ¶

epsilon `instance-attribute` ¶

quant_dtype `instance-attribute` ¶

quant_op `instance-attribute` ¶

init ¶

epsilon `instance-attribute` ¶

quant_dtype `instance-attribute` ¶

quant_op `instance-attribute` ¶

init ¶

quant_op `instance-attribute` ¶

silu_and_mul_matcher `instance-attribute` ¶

init ¶

patterns `instance-attribute` ¶

call ¶

init ¶

patterns `instance-attribute` ¶

call ¶

init ¶