基础数学¶
一、微积分¶
- 
导数¶定义: 导函数值,微商。 记作: \(f^‘(x_0) 或 \frac{df(x_0)}{dx} 或 \frac{dy}{dx}\) 作用:求极值 
- 
左右导数与可导函数¶
- 
神经网络激活函数¶- Sigmoid激活函数
 \(\sigma = \frac{1}{1+e^{-x}}\) - Tanh激活函数
 \(tanh(x) = 2\sigma(2x)-1\) - Softmax 激活函数
 Softmax 函数将多个标量映射为一个概率分布 \(y_i=softmax(z_i)=\frac{e^{z_i}}{\sum_{j=1}^Ce^{zj}}\) \(y_i\)表示第i个输出值,即属于类别i的概率 \(\sum_{j=1}^Cy_i=1\) \(z=W^tx\) 表示线性方程,Softmax函数用于多分类 
- 
泰勒函数¶函数f(x) 在\(x_o\)的某个开区间(a,b)上具有(n+1)阶导数,那么对于任意 \(x\in(a,b)\) 某一点的各阶导数值做系数,构建一个多项式来近似表达这个函数 - 一阶泰勒公式
 \(f(x+∆x)\approx \frac{f(x)}{0!} + \frac{f^‘(x)}{1!}∆x\) - 二阶泰勒公式
 \(f(x+∆x)\approx \frac{f(x)}{0!} + \frac{f^‘(x)}{1!}∆x + \frac{f^{‘‘}(x)}{2!}∆x^2\) 
二、线性代数¶
- 
向量运算法则¶
- 
λ(μA) = λμ(A) 
- (λ +μ)A = λ A + μA , λ(A+B) = λA + λB
- AB = BA
- (A+B)C = AC+BC
- 
(λA).B = λ(AB) 
- 
向量范数¶
范数的公式是向量每个分量绝对值的P次方,在用幂函数计算P分之一,P是整数 1,2,3,。。。∞
向量的范数就是把向量变成一个标量, 范数的表示就是两个竖线表示,让后右下角写上P
- 
范数(曼哈顿距离) \(\lVert A \lVert_1=\sum_{i=1}^n\lvert x_i\lvert\) 向量元素绝对值之和 表示X到零点的曼哈顿距离 
- 
2范数(欧式距离) \(\lVert A \lVert_2= \sqrt{\sum_{i=1}^n x_i^2}\) 向量元素的平方在开方,欧几里得范数 ,常计算向量长度,表示X到零点的欧式距离 
- 
P范数 \(\lVert A \lVert_P=\left[ \sum_{i=1}^n\lvert x_i\lvert ^p\right]^{\frac{1}{p}}\) 向量元素绝对值的P次方和\({\frac{1}{p}}\)次幂,表示X到零点的P阶闵氏距离 
- 
∞范数 \(\lVert A \lVert _∞=max_i\lvert x_i \lvert\) 当P趋向于正无穷时,所有向量元素绝对值中的最大值,表示切比雪夫距离 
- 
特殊向量¶
- 
0向量 [0,0,0,0,0] 
- 
单位向量 2范数为1 模为1,长度为1的向量 向量 \(\overrightarrow{AB}\)的长度叫做向量的模,记作 \(\lvert\overrightarrow{AB}\lvert\) 计算公式:(x,y) 模长 \(\sqrt{x^2+y^2}\) 
- 
常见矩阵¶
- 
方阵 m=n \(A=\begin{bmatrix} 1 & 2 & 3 \\ 3 & 4 &5 \\ 3 & 4 &5 \\ \end{bmatrix}\) 
- 
对称矩阵 \(a_{ij}=a_{ji}\) \(A=\begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 &5 \\ 3 & 5 &7 \\ \end{bmatrix}\) 
- 
单位矩阵 对角线都是1,其他位置是0,单位矩阵写作为\(I\)等同于数字1 \(A= \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 &0 \\ 0 & 0 &1 \\ \end{bmatrix}\) 
- 
对角矩阵,主对角线非0,其他位置是0 \(A= \begin{bmatrix} λ_1 & 0 & 0 \\ 0 & λ_2 &0 \\ 0 & 0 & λ_3 \\ \end{bmatrix}\) 
- 
矩阵的运算法则¶
- 
A+B+C = (A+B)+C 
- (AB)C = A(BC)
- (A+B)C = AC+BC
- AB ≠ BA
- 
\((AB)^T=A^TB^T\) 
- 
逆矩阵¶
- 
定义 \(AB=I 或者 BA=I\) \(A=B^{-1}\) \(B=A^{-1}\) A的逆矩阵 \(A^{-1}\) \(AA^{-1}=I=1\) 
- 
作用及公式 \(XW=Y\) \(X^{-1}XW=X^{-1}Y\) \(IW=X^{-1}Y\) \(W=X^{-1}Y\) 
- 
行列式¶
行列式把矩阵变成一个标量
\(\begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \\ \end{bmatrix} =a_{11}a_{22}-a_{12}a_{21}\)
\(\begin{bmatrix} a_{11} & a_{12}& a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \\ \end{bmatrix}\) \(=a_{11}a_{22}a_{33}+a_{12}a_{22}a_{31}+a_{13}a_{21}a_{32}-a_{13}a_{22}a_{31}-a_{13}a_{22}a_{31}-a_{12}a_{21}a_{33}-a_{11}a_{23}a_{32}\)
- 
伴随矩阵¶
- 
代数余子式 \(A_{ij}=(-1)^{i+j}M_{ij}\) \(A= \begin{bmatrix} a_{11} & a_{12}& a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \\ \end{bmatrix}\) \(A_{33}= \begin{bmatrix} a_{11} & a_{12}\\ a_{21} & a_{22} \end{bmatrix}\) 
- 
伴随矩阵 \(A= \begin{bmatrix} a_{11} & a_{12}& a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \\ \end{bmatrix}\) \(A^*= \begin{bmatrix} A_{11} & A_{21}& a_{31} \\ A_{12} & A_{22} & A_{32} \\ A_{13} & A_{23} & A_{33} \\ \end{bmatrix}\) 代数余子式的行列式: \(A_{11}=a_{22}a_{33}-a_{23}a_{32}\) 
- 
伴随矩阵的性质 \(AA^*=A^*A=|A|I\) 
- 
公式 \(AA^*=|A|AA^{-1}\) \(A^*=|A|A^{-1}\) \(A^{-1}=\frac{A^*}{\lvert A\lvert}\) 
- 
特征值与特征向量¶
- 
定义:A是你阶方阵,如果存在数λ和非零年为列向量µ,使的\(A \overrightarrow{v} = λ\overrightarrow{v}\)成立,则称λ式矩阵A的一个特征值,\(\overrightarrow{v}\)是特征值λ的特征向量 实对称矩阵特征值为实数,非对称举止和复矩阵特征值可能为复数 
- 
满秩矩阵: A是n阶矩阵,若r(A)= n 则称A为满秩矩阵,但满秩矩阵不限于n阶矩阵,若矩阵等于行数,称为行满秩。若矩阵等于列数,称为列满秩。既是行满秩又是列满秩则为n阶矩阵及n阶方阵 
- 
示例 所有的特征值的乘积等于A的行列式 \(\prod_{i=1}^nλ_i=\lvert A\lvert\) 
- 
特征值分解 特征值分解,就是将矩阵A分解为如下式: \(A=Q\sum Q^{-1}\) 其中,Q是矩阵A的特征向量组成的矩阵,\(\sum\)则是对角阵,对角线上的元素就是特征值。 \(\sum= \begin{bmatrix} λ_1 & & \\ & λ_2 & \\ & & λ_n \\ \end{bmatrix}\) 对称矩阵那么Q是正交矩阵(列和行相等),正交矩阵的定义Q的逆等于Q的转置 \(Q^{-1}=Q^T\) 意义:特征值的大小表示这个特征到底有多重要,提取这个矩阵最重要的的特征 
- 
矩阵的向量的求导公式¶
- 
奇异值分解(SVD)¶
