§
    |”j9<  ã                  óÆ   — d dl mZ d dlZd dlZd dlmZ ddlmZmZmZ ddl	m
Z
 ddlmZmZmZ dd	lmZ g Z G d
„ de¦  «        Z G d„ de¦  «        Z G d„ de¦  «        ZdS )é    )ÚannotationsN)Ú_C_opsé   )ÚcoreÚ	frameworkÚunique_name)Úcheck_variable_and_dtype)Ú_current_expected_placeÚin_dygraph_modeÚin_pir_modeé   )ÚInitializerc                  ó<   ‡ — e Zd ZdZ	 	 	 	 	 ddˆ fd„Z	 ddd„Zˆ xZS )ÚXavierInitializera  
    This class implements the Xavier weight initializer from the paper
    `Understanding the difficulty of training deep feedforward neural
    networks <http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf>`_
    by Xavier Glorot and Yoshua Bengio.

    This initializer is designed to keep the scale of the gradients
    approximately same in all the layers. In case of Uniform distribution,
    the range is [-x, x], where

    .. math::

        x = gain \times \sqrt{\\frac{6.0}{fan\_in + fan\_out}}

    In case of Normal distribution, the mean is 0 and the standard deviation
    is

    .. math::

       gain \times \sqrt{\\frac{2.0}{fan\_in + fan\_out}}


    Args:
        uniform (bool, optional): whether to use uniform ,if False use normal distribution. Default is True.
        fan_in (float|None, optional): fan_in for Xavier initialization. If None, it is
                inferred from the variable. Default is None.
        fan_out (float|None, optional): fan_out for Xavier initialization. If None, it is
                 inferred from the variable. Default is None.
        seed (int, optional): Random seed. Default is 0.
        gain (float, optional): Scaling Tensor. Default is 1.0.

    Note:
        It is recommended to set fan_in and fan_out to None for most cases.

    TNr   ç      ð?ÚuniformÚboolÚfan_inúfloat | NoneÚfan_outÚseedÚintÚgainÚfloatÚreturnÚNonec                óž   •— |€J ‚|€J ‚t          ¦   «                              ¦   «          || _        || _        || _        || _        || _        d S ©N)ÚsuperÚ__init__Ú_uniformÚ_fan_inÚ_fan_outÚ_seedÚ_gain)Úselfr   r   r   r   r   Ú	__class__s         €úl/lsinfo/ai/hellotax_ai/data_center/backend/venv/lib/python3.11/site-packages/paddle/nn/initializer/xavier.pyr    zXavierInitializer.__init__G   sZ   ø€ ð Ð"Ð"Ð"ØÐÐÐÝ‰Œ×ÒÑÔÐØˆŒØˆŒØˆŒØˆŒ
ØˆŒ
ˆ
ˆ
ó    Úvarúpaddle.TensorÚblockúpaddle.pir.Block | Noneúpaddle.Tensor | Nonec                ót  — |                       |¦  «        }t          |t          j        t          j        j        f¦  «        sJ ‚t          |t          j        j        j        ¦  «        st          |dg d¢d¦  «         |  	                    |¦  «        \  }}| j
        €|n| j
        }| j        €|n| j        }| j        dk    r|j        j        | _        t          |t          j        ¦  «        r|                     ¦   «         r|j        n|j        }|j        }|t          j        j        j        k    s!|t          j        j        j        k    ry| j        srt          j        j        j        }	|                     t7          j        d                     d|j        dg¦  «        ¦  «        ||	t          j        j        j        d¬	¦  «        }
nC|t          j         j!        t          j         j"        fv r| j        st          j         j#        }	|}
n|}	|}
tI          ¦   «         r¸| j        rdd||fv rd
}n/| j%        tM          j'        dtQ          ||z   ¦  «        z  ¦  «        z  }tS          j*        ||	| || j        tW          ¦   «         ¦  «        }
ndd||fv rd
}n/| j%        tM          j'        dtQ          ||z   ¦  «        z  ¦  «        z  }tW          ¦   «         }tS          j,        |d
|| j        |	|¦  «        }
|t          j        j        j        k    s@|t          j        j        j        t          j         j!        t          j         j"        fv r| j        stS          j-        |
|¦  «        }
t          |t          j        ¦  «        rI|                     ¦   «         r5t          j.        j/        j0         1                    |
|j2        |j3        ¦  «        }
|
 4                    |¦  «         dS tk          ¦   «         r$| j        rtd||fv rd
}n/| j%        tM          j'        dtQ          ||z   ¦  «        z  ¦  «        z  }t          j6         *                    |
j        |	| || j        tW          ¦   «         ¦  «        }
ngd||fv rd
}n/| j%        tM          j'        dtQ          ||z   ¦  «        z  ¦  «        z  }tS          j,        |
j        d
|| j        |	tW          ¦   «         ¦  «        }
|t          j         j!        t          j         j"        fv r| j        stS          j-        |
|¦  «        S |
S | j        rfd||fv rd
}n/| j%        tM          j'        dtQ          ||z   ¦  «        z  ¦  «        z  }| 7                    di d|
i|
j        |	| || j        dœd¬¦  «        }nhd||fv rd
}n/| j%        tM          j'        dtQ          ||z   ¦  «        z  ¦  «        z  }| 7                    dd|
i|
j        |
j        d
|| j        dœd¬¦  «        }|t          j        j        j        k    s!|t          j        j        j        k    r,| j        s%| 7                    dd|
id|i|
j        |dœ¬¦  «         ||_8        |S )a]  Initialize the input tensor with Xavier initialization.

        Args:
            var(Tensor): Tensor that needs to be initialized.
            block(Block|None, optional): The block in which initialization ops
                   should be added. Used in static graph only, default None.

        Returns:
            The initialization op
        ÚOut)Úuint16Úfloat16Úfloat32Úfloat64Úxavier_initNr   ú.ÚtmpF)ÚnameÚshapeÚdtypeÚtypeÚpersistableg        g      @g       @Úuniform_random)r9   r:   ÚminÚmaxr   T)r;   ÚinputsÚoutputsÚattrsÚstop_gradientÚgaussian_random)r9   r:   ÚmeanÚstdr   )r;   rA   rB   rC   ÚcastÚX)Úin_dtypeÚ	out_dtype)r;   r@   rA   rB   )9Ú_check_blockÚ
isinstancer   ÚBlockÚpaddleÚpirr   ÚParameterMetar	   Ú_compute_fansr"   r#   r$   ÚprogramÚrandom_seedÚEagerParamBaseÚis_distÚ_local_shaper9   r:   ÚVarDescÚVarTypeÚFP16ÚBF16r!   ÚFP32Ú
create_varr   ÚgenerateÚjoinr8   ÚDENSE_TENSORÚDataTypeÚFLOAT16ÚBFLOAT16ÚFLOAT32r   r%   ÚmathÚsqrtr   r   r   r
   ÚgaussianrG   ÚdistributedÚauto_parallelÚapiÚdtensor_from_localÚprocess_meshÚ
placementsÚ_share_underline_tensor_tor   Ú_pir_opsÚ	append_opÚop)r&   r*   r,   Úf_inÚf_outr   r   Úout_var_shapeÚorigin_dtyperJ   Úout_varÚlimitrF   Úplacerp   s                  r(   ÚforwardzXavierInitializer.forwardX   s›  € ð ×!Ò! %Ñ(Ô(ˆÝ˜%¥)¤/µ6´:Ô3CÐ!DÑEÔEÐEÐEÐEÝ˜#vœzœÔ<Ñ=Ô=ð 	Ý$ØØØ;Ð;Ð;Øñ	ô ð ð ×(Ò(¨Ñ-Ô-‰ˆˆeð œÐ-°4´<ˆØœ=Ð0%%°d´mˆàŒ:˜Š?ˆ?ØœÔ2ˆDŒJõ ˜3¥	Ô 8Ñ9Ô9ðØ>A¿kºk¹m¼mðˆCÔÐà”ð 	ð ”yˆØ4œ<Ô/Ô4Ò4Ð4ØDœLÔ0Ô5Ò5Ð5¸d¼mÐ5åœÔ,Ô1ˆIØ×&Ò&Ý Ô)Ø—H’H˜m¨S¬X°uÐ=Ñ>Ô>ñô ð $ØÝ”\Ô)Ô6Ø!ð 'ñ ô ˆGˆGð Tœ]Ô2µD´MÔ4JÐKÐKÐKØ”Mð Lõ œÔ-ˆIØˆGˆGà$ˆIØˆGåÑÔñ M	ØŒ}ð Ø˜ Ð)Ð)Ð)ØEEà œJ­¬Øe F¨WÑ$4Ñ5Ô5Ñ5ñ*ô *ñ Eõ !œ.Ø!ØØFØØ”JÝ+Ñ-Ô-ñô ð ˜ Ð)Ð)Ð)ØCCàœ*¥t¤y°µu¸VÀgÑ=MÑ7NÔ7NÑ1NÑ'OÔ'OÑOCå/Ñ1Ô1Ý œ/Ø!ØØØ”JØØñô ð tœ|Ô3Ô8Ò8Ð8Øå”LÔ(Ô-Ý”MÔ)Ý”MÔ*ððð ð œðõ !œ+ g¨|Ñ<Ô<Ý˜#yÔ7Ñ8Ô8ð ¸S¿[º[¹]¼]ð õ Ô&Ô4Ô8×KÒKØ Ô!1°3´>ñô ð ð
 ×.Ò.¨sÑ3Ô3Ð3Ø4Ý‰]Œ]ñ Z	ØŒ}ð Ø˜ Ð)Ð)Ð)ØEEà œJ­¬Øe F¨WÑ$4Ñ5Ô5Ñ5ñ*ô *ñ Eõ !œ/×1Ò1Ø”MØØFØØ”JÝ+Ñ-Ô-ñô ð ˜ Ð)Ð)Ð)ØCCàœ*¥t¤y°µu¸VÀgÑ=MÑ7NÔ7NÑ1NÑ'OÔ'OÑOCÝ œ/Ø”MØØØ”JØÝ+Ñ-Ô-ñô ð ¥¤Ô!6½¼Ô8NÐ OÐOÐOØœð Põ ”{ 7¨LÑ9Ô9Ð9àˆNàŒ}ð $Ø˜ Ð)Ð)Ð)ØEEà œJ­¬Øe F¨WÑ$4Ñ5Ô5Ñ5ñ*ô *ñ Eð —_’_Ø)ØØ" GÐ,à!(¤Ø!*Ø %˜vØ$Ø $¤
ðð ð #'ð %ñ ô ð ˜ Ð)Ð)Ð)ØCCàœ*¥t¤y°µu¸VÀgÑ=MÑ7NÔ7NÑ1NÑ'OÔ'OÑOCØ—_’_Ø*Ø" GÐ,à!(¤Ø!(¤Ø #Ø"Ø $¤
ðð ð #'ð %ñ ô ð tœ|Ô3Ô8Ò8Ð8Ø¥¤Ô 4Ô 9Ò9Ð9À$Ä-Ð9à—’ØØ ˜>Ø" C˜Là$+¤MØ%1ðð ð	  ñ ô ð ð ˆCŒFØˆIr)   )TNNr   r   )r   r   r   r   r   r   r   r   r   r   r   r   r   )r*   r+   r,   r-   r   r.   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__r    rx   Ú__classcell__©r'   s   @r(   r   r   "   s‡   ø€ € € € € ð"ð "ðL Ø#Ø $ØØðð ð ð ð ð ð ð$ DHðLð Lð Lð Lð Lð Lð Lð Lð Lr)   r   c                  ó.   ‡ — e Zd ZdZ	 	 	 	 ddˆ fd„Zˆ xZS )ÚXavierNormala	  
    This class implements the Xavier weight initializer from the paper
    `Understanding the difficulty of training deep feedforward neural
    networks <http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf>`_
    by Xavier Glorot and Yoshua Bengio, using a normal distribution whose mean is :math:`0` and standard deviation is

    .. math::

        gain \times \sqrt{\frac{2.0}{fan\_in + fan\_out}}.


    Args:
        fan_in (float|None, optional): fan_in for Xavier initialization, which is
                inferred from the Tensor. Default is None.
        fan_out (float|None, optional): fan_out for Xavier initialization, which is
                 inferred from the Tensor. Default is None.
        gain (float, optional): Scaling Tensor. Default is 1.0.
        name (str|None, optional): For details, please refer to :ref:`api_guide_Name`. Generally, no setting is required. Default: None.

    Returns:
        A parameter initialized by Xavier weight, using a normal distribution.

    Examples:
        .. code-block:: python

            >>> import paddle
            >>> paddle.seed(1)
            >>> data = paddle.ones(shape=[3, 1, 2], dtype='float32')
            >>> weight_attr = paddle.framework.ParamAttr(
            ...     name="linear_weight",
            ...     initializer=paddle.nn.initializer.XavierNormal())
            >>> bias_attr = paddle.framework.ParamAttr(
            ...     name="linear_bias",
            ...     initializer=paddle.nn.initializer.XavierNormal())
            >>> linear = paddle.nn.Linear(2, 2, weight_attr=weight_attr, bias_attr=bias_attr)
            >>> print(linear.weight)
            Parameter containing:
            Tensor(shape=[2, 2], dtype=float32, place=Place(cpu), stop_gradient=False,
            [[-0.21607460,  0.08382989],
             [ 0.29147008, -0.07049121]])

            >>> print(linear.bias)
            Parameter containing:
            Tensor(shape=[2], dtype=float32, place=Place(cpu), stop_gradient=False,
            [1.06076419, 0.87684733])

            >>> res = linear(data)
            >>> print(res)
            Tensor(shape=[3, 1, 2], dtype=float32, place=Place(cpu), stop_gradient=False,
            [[[1.13615966, 0.89018601]],
             [[1.13615966, 0.89018601]],
             [[1.13615966, 0.89018601]]])
    Nr   r   r   r   r   r   r8   ú
str | Noner   r   c                óT   •— t          ¦   «                              d||d|¬¦  «         d S )NFr   ©r   r   r   r   r   ©r   r    ©r&   r   r   r   r8   r'   s        €r(   r    zXavierNormal.__init__^  s;   ø€ õ 	‰Œ×ÒØ &°'ÀÈð 	ñ 	
ô 	
ð 	
ð 	
ð 	
r)   ©NNr   N©
r   r   r   r   r   r   r8   r   r   r   ©ry   rz   r{   r|   r    r}   r~   s   @r(   r€   r€   '  s[   ø€ € € € € ð4ð 4ðp  $Ø $ØØð	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
r)   r€   c                  ó.   ‡ — e Zd ZdZ	 	 	 	 ddˆ fd„Zˆ xZS )ÚXavierUniforma†	  
    This class implements the Xavier weight initializer from the paper
    `Understanding the difficulty of training deep feedforward neural
    networks <http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf>`_
    by Xavier Glorot and Yoshua Bengio.

    This initializer is designed to keep the scale of the gradients
    approximately same in all the layers. In case of Uniform distribution,
    the range is :math:`[-x,x]`, where

    .. math::

        x = gain \times \sqrt{\frac{6.0}{fan\_in + fan\_out}}.

    Args:
        fan_in (float|None, optional): fan_in for Xavier initialization, which is
                inferred from the Tensor. Default is None.
        fan_out (float|None, optional): fan_out for Xavier initialization, which is
                 inferred from the Tensor. Default is None.
        gain (float, optional): Scaling Tensor. Default is 1.0.
        name (str|None, optional): For details, please refer to :ref:`api_guide_Name`. Generally, no setting is required. Default: None.

    Returns:
        A parameter initialized by Xavier weight, using a uniform distribution.

    Examples:
        .. code-block:: python

            >>> import paddle
            >>> paddle.seed(1)
            >>> data = paddle.ones(shape=[3, 1, 2], dtype='float32')
            >>> weight_attr = paddle.framework.ParamAttr(
            ...     name="linear_weight",
            ...     initializer=paddle.nn.initializer.XavierUniform())
            >>> bias_attr = paddle.framework.ParamAttr(
            ...     name="linear_bias",
            ...     initializer=paddle.nn.initializer.XavierUniform())
            >>> linear = paddle.nn.Linear(2, 2, weight_attr=weight_attr, bias_attr=bias_attr)
            >>> print(linear.weight)
            Parameter containing:
            Tensor(shape=[2, 2], dtype=float32, place=Place(cpu), stop_gradient=False,
            [[-1.18095720,  0.64892638],
             [ 0.43125069, -1.11156428]])
            >>> print(linear.bias)
            Parameter containing:
            Tensor(shape=[2], dtype=float32, place=Place(cpu), stop_gradient=False,
            [-0.27524316,  1.13808715])

            >>> res = linear(data)
            >>> print(res)
            Tensor(shape=[3, 1, 2], dtype=float32, place=Place(cpu), stop_gradient=False,
            [[[-1.02494967,  0.67544925]],
             [[-1.02494967,  0.67544925]],
             [[-1.02494967,  0.67544925]]])
    Nr   r   r   r   r   r   r8   r   r   r   c                óT   •— t          ¦   «                              d||d|¬¦  «         d S )NTr   rƒ   r„   r…   s        €r(   r    zXavierUniform.__init__£  s;   ø€ õ 	‰Œ×ÒØ °¸qÀtð 	ñ 	
ô 	
ð 	
ð 	
ð 	
r)   r†   r‡   rˆ   r~   s   @r(   rŠ   rŠ   j  s[   ø€ € € € € ð6ð 6ðt  $Ø $ØØð	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
ð 	
r)   rŠ   )Ú
__future__r   rd   rN   r   Úbaser   r   r   Úbase.data_feederr	   Úbase.frameworkr
   r   r   Úinitializerr   Ú__all__r   r€   rŠ   © r)   r(   ú<module>r“      s^  ðð #Ð "Ð "Ð "Ð "Ð "à €€€à €€€Ø Ð Ð Ð Ð Ð à 0Ð 0Ð 0Ð 0Ð 0Ð 0Ð 0Ð 0Ð 0Ð 0Ø 8Ð 8Ð 8Ð 8Ð 8Ð 8ðð ð ð ð ð ð ð ð ð ð
 %Ð $Ð $Ð $Ð $Ð $à
€ðBð Bð Bð Bð B˜ñ Bô Bð BðJ@
ð @
ð @
ð @
ð @
Ð$ñ @
ô @
ð @
ðFB
ð B
ð B
ð B
ð B
Ð%ñ B
ô B
ð B
ð B
ð B
r)   