Google 與 OpenAI 近日宣布,他們開發的 AI 模型在全球頂尖「國際數學奧林匹亞」(IMO)數學競賽中,首度雙雙奪金。對於創造數學的人類,更要有對此的重要性更有體悟,伽利略認為研究自然時應該遵循某個數學模型, 數學符號就是上帝用來書寫自然的統一語言。它們提供了一種簡潔、精確且國際通用的方式來表達數學概念和關係,對於現在不只有助於數學的發展和溝通,更是讓我們了解AI 語言模型的運作概念。
我以GB3102.11-1993 符號集合為基礎,我將分成 五個層級(重要性遞減),並在每一層中依實際在AI模型中的使用頻度與結構性依賴程度進行排列。

第一級:基礎運算與優化核心符號(必備基礎)

符號定義AI 模型關聯
Σ求和符號注意力加權(Transformer)、損失累積(GPT、GNN、RNN)、對比學習(MoCo)
偏導數反向傳播梯度計算;GAN 梯度懲罰項;擴散模型分數函數
向量梯度算子最優化(Gradient Descent/Adam),SORA中分數匹配
AB(矩陣乘法)線性映射 Y = XW + bQ、K、V計算;線性層;ViT patch Projection
exp/e指數函數Softmax;Sigmoid;擴散噪聲調度
max/min最大/最小取值ReLU;MaxPooling;Minimax 遊戲(GAN)
log/ln對數Cross Entropy;JS/KL散度;語言模型 Log Likelihood
argmin / argmax最小/最大參數索引MLE、GAN 對抗目標;Transformer loss 最小化

第二級:線性代數與向量空間符號(深度模型運算核心)

符號定義AI 模型關聯
⊤(轉置)QKᵀ、矩陣轉置注意力分數計算;權重矩陣轉置
⟨·,·⟩、·內積Query-Key 相似度;對比學習(MoCo)
∥ · ∥向量/矩陣範數Regularization、Normalization、Lipschitz 約束
張量積 / 多頭拼接Multi-Head Attention;交叉模態特徵拼接(ViLT)
⊛ / ∗卷積CNN / AlexNet;ViT patch 等價卷積思想
Hadamard 逐元素乘積LSTM/GRU Gate;Attention mask

第三級:概率與統計符號(生成與自監督模型之基礎)

符號定義AI 模型關聯
E[·]期望值GAN Loss;Contrastive Loss;小批量梯度期望
**P(·), P(··)**機率 / 條件機率
KL(p‖q)Kullback-Leibler DivergenceVAE;分佈匹配;對比學習评价基準
連續乘積自回歸語言模型 $P(x_{1:T})=\prod_{t=1}^TP(x_t
≈ 、 ∼近似、分佈關係擴散模型分佈近似;GAN 分佈擬合
δKronecker δOne-hot、位置索引、節點身份(GNN)

第四級:微積分與泛函符號(高階建模與聯繫)

符號定義AI 模型關聯
 積分符號連續分佈期望;變分下界(VAE / SORA)
sup / inf上下確界生成對抗學習極值估計
極限, 收斂參數收斂;訓練過程趨近最佳
diag對角矩陣Attention Mask;權重初始化
sigmoid σS 型函數GAN 判別器輸出;門控機制(GRU/LSTM)

第五級:結構與集合符號(形式化表示)

符號定義AI 模型關聯
∈ / ⊆ / ⊂元素/子集訓練資料定義;鄰居節點 (GNN);字彙表 (NLP)
∪ / ∩集合聯集/交集多資料源融合(ViLT);異質圖訊息整合
dim維度符號Transformer Head 維度、ViT patch 維度
向量拼接多模態拼接;Embedding 合併
Id / I恒等映射 / 單位矩陣殘差結構 $y=F(x)+x$
∀/∃全稱量词/存在量词邏輯符號,表示“對所有”或“存在”,用於形式化约束

常見符號多重意思對照表

符號數學 (幾何/分析)統計機器學習 / 深度學習
π圓周率 3.14159…機率參數 P(y=1),或類別機率 πjLogistic regression 中成功機率;Softmax 機率分佈
p變數、質數 (數論)機率 p(y),p-value常用來表示機率 (p(y
ϕ黃金比例、角度Normal 分佈密度函數 ϕ(x)Feature map (核方法),高斯基底函數
θ角度參數 (如 θ 表示分佈參數)模型參數 (權重+偏置),f(x;θ)
μ測度 (measure)、集合論符號期望值 (均值)資料分佈平均值、Batch Normalization 的均值
σ總和符號(希臘 Σ 的小寫)、排列符號標準差Sigmoid 函數 σ(z)=1/(1+e−z),也表示標準差
λ特徵值 (eigenvalue)、波長泊松分佈的平均數L2 正則化係數、學習率(部分文獻)
α角度、係數顯著水準 (significance level)學習率 (learning rate),或注意力機制中的權重
β系數、角度線性迴歸係數模型參數(權重),常在統計與 ML 中交替使用
ρ密度、半徑相關係數 (correlation)池化層 (rho-pooling) 符號(部分文獻),或 correlation
η數值分析中的步長自然參數 (canonical parameter)Learning rate(部分書籍),或神經網路輸入總和 z

小結

  1. 同一個字母,在不同領域代表不同東西(例如 ππ 就有「圓周率」和「機率」兩種完全不相干的意思)。
  2. 統計 / GLM 喜歡用 π, μ, η, β。
  3. 機器學習 / 深度學習 喜歡用 p, θ, w, b, y^, σ。
  4. 讀論文時,要先判斷作者是站在哪個領域的傳統。

發表留言

趨勢