Transformer模型基礎(chǔ)篇
第1章Transformer綜述
1.1Transformer是什么
1.1.1Transformer模型的工作原理
1.1.2Transformer模型的編碼器與解碼器簡介
1.1.3Transformer模型編碼器層
1.1.4Transformer模型解碼器層
1.1.5Transformer模型殘差連接與數(shù)據(jù)歸一化
1.2Transformer模型框架
1.2.1Transformer模型的詞嵌入
1.2.2Transformer模型的位置編碼
1.2.3Transformer模型的編碼器與解碼器
1.2.4Transformer模型的最終輸出
1.2.5Transformer模型的注意力機制
1.2.6Transformer模型的多頭注意力機制
1.2.7Transformer模型的前饋神經(jīng)網(wǎng)絡(luò)
1.3本章總結(jié)
第2章Transformer模型的輸入與輸出
2.1Transformer模型的詞嵌入
2.1.1Transformer 模型詞嵌入的概念
2.1.2Transformer模型詞嵌入的代碼實現(xiàn)
2.2Transformer 模型的位置編碼
2.2.1Transformer 模型位置編碼的計算過程
2.2.2Transformer模型位置編碼的正余弦函數(shù)
2.2.3Transformer 模型位置編碼的代碼實現(xiàn)
2.3Transformer模型解碼器的輸入
2.4Transformer模型中的掩碼矩陣
2.4.1Transformer模型的Pad Mask
2.4.2Transformer模型的 Sequence Mask
2.4.3Transformer 模型Sequence Mask & Pad Mask的代碼實現(xiàn)
2.5Transformer模型的輸出
2.5.1Transformer 模型的線性層
2.5.2Transformer模型輸出數(shù)據(jù)的Softmax 操作
2.5.3Transformer模型輸出數(shù)據(jù)的Softmax代碼實現(xiàn)
2.6本章總結(jié)
第3章Transformer模型的注意力機制
3.1Transformer模型注意力機制的概念
3.1.1Transformer模型的自注意力機制
3.1.2Transformer模型注意力機制中兩個矩陣乘法的含義
3.1.3Transformer模型的Softmax操作
3.1.4Transformer模型的注意力矩陣
3.2Transformer模型Q、K、V三矩陣
3.2.1Transformer模型Q、K、V三矩陣的來歷
3.2.2Transformer模型Q、K、V矩陣注意力機制的運算
3.3Transformer模型注意力機制中的縮放點積
3.3.1Transformer模型注意力機制的問題
3.3.2Transformer模型注意力機制的縮放點積
3.4Transformer模型注意力機制的代碼實現(xiàn)過程
3.5Transformer模型多頭注意力機制
3.5.1Transformer模型多頭注意力機制的計算公式
3.5.2Transformer模型Qi、Ki、Vi的來歷
3.5.3Transformer模型多頭注意力機制的計算
3.6Transformer 模型多頭注意力機制的代碼實現(xiàn)
3.6.1Transformer模型多頭注意力機制的代碼
3.6.2Transformer模型多頭注意力矩陣可視化
3.7本章總結(jié)
第4章Transformer模型的殘差連接,歸一化與前饋神經(jīng)網(wǎng)絡(luò)
4.1Transformer模型批歸一化與層歸一化
4.1.1Transformer模型批歸一化
4.1.2Transformer 模型層歸一化
4.1.3Transformer模型的層歸一化操作
4.1.4Transformer模型層歸一化的代碼實現(xiàn)
4.2殘差神經(jīng)網(wǎng)絡(luò)
4.2.1ResNet殘差神經(jīng)網(wǎng)絡(luò)
4.2.2Transformer模型的殘差連接
4.3Transformer模型前饋神經(jīng)網(wǎng)絡(luò)
4.3.1Transformer模型前饋神經(jīng)網(wǎng)絡(luò)的計算公式
4.3.2激活函數(shù)
4.3.3Transformer模型ReLU激活函數(shù)
4.3.4Transformer模型前饋神經(jīng)網(wǎng)絡(luò)的代碼實現(xiàn)
4.4本章總結(jié)
第5章Transformer模型搭建
5.1Transformer模型編碼器
5.1.1Transformer模型編碼器組成
5.1.2Transformer模型編碼器層的代碼實現(xiàn)
5.1.3搭建Transformer模型編碼器
5.2Transformer模型解碼器
5.2.1Transformer模型解碼器組成
5.2.2Transformer模型解碼器層的代碼實現(xiàn)
5.2.3搭建Transformer模型解碼器
5.3搭建Transformer模型
5.3.1Transformer模型組成
5.3.2Transformer模型的代碼實現(xiàn)
5.4Transformer模型訓(xùn)練過程
5.5Transformer模型預(yù)測過程
5.6Transformer模型Force Teach
5.7Transformer 模型與RNN模型
5.7.1RNN循環(huán)神經(jīng)網(wǎng)絡(luò)
5.7.2Transformer模型與RNN模型對比
5.8本章總結(jié)
Transformer模型NLP領(lǐng)域篇
第6章Transformer 編碼器模型: BERT模型
6.1BERT模型結(jié)構(gòu)
6.1.1BERT模型簡介
6.1.2BERT模型構(gòu)架
6.2BERT模型的輸入部分
6.2.1BERT模型的Token Embedding
6.2.2BERT模型的位置編碼
6.2.3BERT模型的序列嵌入
6.2.4BERT模型的輸入
6.3BERT模型Transformer編碼器框架
6.4BERT模型的輸出
6.4.1BERT模型的MLM預(yù)訓(xùn)練任務(wù)
6.4.2BERT模型的NSP預(yù)訓(xùn)練任務(wù)
6.5BERT模型的微調(diào)任務(wù)
6.6BERT模型的代碼實現(xiàn)
6.6.1BERT模型的特征嵌入
6.6.2BERT模型的自注意力機制
6.6.3BERT模型的多頭注意力機制
6.6.4BERT模型的前饋神經(jīng)網(wǎng)絡(luò)
6.6.5BERT模型的編碼器層
6.6.6BERT模型搭建
6.7本章總結(jié)
第7章Transformer 解碼器模型: GPT系列模型
7.1GPT模型結(jié)構(gòu)
7.1.1GPT模型簡介
7.1.2GPT模型構(gòu)架
7.2GPT模型的輸入部分
7.2.1GPT模型的Token Embedding
7.2.2GPT模型的位置編碼
7.3GPT模型的整體框架
7.4GPT模型的無監(jiān)督預(yù)訓(xùn)練
7.5GPT模型的微調(diào)任務(wù)
7.5.1GPT模型微調(diào)
7.5.2GPT模型監(jiān)督有標(biāo)簽輸入
7.6GPT2模型
7.6.1GPT2模型簡介
7.6.2GPT2模型的Zeroshot
7.7GPT3模型
7.7.1GPT3模型框架
7.7.2GPT3模型下游任務(wù)微調(diào)
7.7.3GPT3模型預(yù)訓(xùn)練數(shù)據(jù)集
7.8本章總結(jié)
Transformer模型計算機視覺篇
第8章計算機視覺之卷積神經(jīng)網(wǎng)絡(luò)
8.1卷積神經(jīng)網(wǎng)絡(luò)的概念
8.1.1卷積神經(jīng)網(wǎng)絡(luò)的填充、步長和通道數(shù)
8.1.2卷積神經(jīng)網(wǎng)絡(luò)的卷積核
8.1.3卷積神經(jīng)網(wǎng)絡(luò)卷積層
8.1.4卷積神經(jīng)網(wǎng)絡(luò)池化層
8.1.5卷積神經(jīng)網(wǎng)絡(luò)全連接層
8.1.6卷積神經(jīng)網(wǎng)絡(luò)全局平均池化
8.1.7卷積神經(jīng)網(wǎng)絡(luò)的感受野
8.1.8卷積神經(jīng)網(wǎng)絡(luò)的下采樣
8.1.9神經(jīng)網(wǎng)絡(luò)中的DropOut
8.2卷積神經(jīng)網(wǎng)絡(luò)
8.2.1卷積神經(jīng)網(wǎng)絡(luò)模型搭建
8.2.2卷積神經(jīng)網(wǎng)絡(luò)LeNet5模型搭建
8.2.3卷積神經(jīng)網(wǎng)絡(luò)LeNet5模型的代碼實現(xiàn)
8.3卷積神經(jīng)網(wǎng)絡(luò)LeNet5手寫數(shù)字識別
8.3.1MNIST數(shù)據(jù)集
8.3.2LeNet5手寫數(shù)字模型訓(xùn)練
8.3.3LeNet5手寫數(shù)字模型預(yù)測
8.4本章總結(jié)
第9章Transformer視覺模型: Vision Transformer模型
9.1Vision Transformer模型
9.1.1Vision Transformer模型簡介
9.1.2Vision Transformer模型的數(shù)據(jù)流
9.2Vision Transformer模型的Patch Embedding與位置編碼
9.2.1Vision Transformer模型的Patch Embedding
9.2.2Vision Transformer模型Patch Embedding的代碼實現(xiàn)
9.2.3Vision Transformer模型的位置編碼
9.2.4Vision Transformer模型位置編碼的代碼實現(xiàn)
9.3Vision Transformer模型編碼器層
9.3.1Vision Transformer與標(biāo)準(zhǔn)Transformer編碼器層的區(qū)別
9.3.2Vision Transformer模型多頭注意力機制的代碼實現(xiàn)
9.3.3Vision Transformer模型前饋神經(jīng)網(wǎng)絡(luò)的代碼實現(xiàn)
9.3.4搭建Vision Transformer模型編碼器
9.4Vision Transformer輸出層的代碼實現(xiàn)
9.5搭建Vision Transformer模型
9.6本章總結(jié)
第10章Transformer視覺模型: Swin Transformer模型
10.1Swin Transformer模型
10.1.1Swin Transformer模型簡介
10.1.2Swin Transformer模型的數(shù)據(jù)流
10.1.3Swin Transformer窗口注意力機制的框架模型
10.2Swin Transformer模型窗口分割
10.2.1Swin Transformer模型的Patch Embedding
10.2.2Swin Transformer模型Patch Embedding的代碼實現(xiàn)
10.2.3Swin Transformer模型窗口分割與窗口復(fù)原的代碼實現(xiàn)
10.3Swin Transformer模型Patch Merging
10.3.1Swin Transformer模型的Patch Merging操作
10.3.2Swin Transformer模型Patch Merging的代碼實現(xiàn)
10.4Swin Transformer模型的位置編碼
10.4.1Swin Transformer模型位置編碼的來源
10.4.2Swin Transformer模型位置編碼的代碼實現(xiàn)
10.5Swin Transformer模型移動窗口與掩碼矩陣
10.5.1Swin Transformer模型的移動窗口
10.5.2Swin Transformer模型的掩碼矩陣
10.5.3Swin Transformer模型移動窗口的代碼實現(xiàn)
10.5.4Swin Transformer模型掩碼矩陣的代碼實現(xiàn)
10.6Swin Transformer模型窗口注意力與移動窗口注意力
10.6.1Swin Transformer模型窗口注意力機制代碼
10.6.2Swin Transformer模型移動窗口注意力機制代碼
10.7Swin Transformer模型計算復(fù)雜度
10.8本章總結(jié)
Transformer模型進(jìn)階篇
第11章CNN Transformer視覺模型: DETR模型
11.1DETR模型
11.1.1DETR模型框架
11.1.2DETR模型的Transformer框架
11.2DETR模型的代碼實現(xiàn)
11.2.1DETR模型搭建
11.2.2基于DETR預(yù)訓(xùn)練模型的對象檢測
11.3本章總結(jié)
第12章Transformer多模態(tài)模型
12.1多模態(tài)模型簡介
12.2Transformer多模態(tài)模型: VILT模型
12.2.1VILT模型簡介
12.2.2VILT模型的代碼實現(xiàn)
12.3Transformer多模態(tài)模型: CLIP模型
12.3.1CLIP模型簡介
12.3.2CLIP模型的代碼實現(xiàn)
12.4本章總結(jié)
第13章優(yōu)化Transformer模型注意力機制
13.1稀疏注意力機制
13.1.1稀疏注意力機制簡介
13.1.2稀疏注意力機制的代碼實現(xiàn)
13.2Flash Attention
13.2.1標(biāo)準(zhǔn)注意力機制計算過程
13.2.2Flash Attention注意力機制的計算過程
13.2.3Flash Attention注意力機制的代碼實現(xiàn)
13.3MoE混合專家模型
13.3.1混合專家模型簡介
13.3.2混合專家模型的代碼實現(xiàn)
13.4RetNet模型
13.4.1RetNet模型的多尺度保留機制
13.4.2RetNet模型的遞歸表示
13.4.3RetNet模型的代碼實現(xiàn)
13.5本章總結(jié)
Transformer模型實戰(zhàn)篇
第14章Transformer模型環(huán)境搭建
14.1本地Python環(huán)境搭建
14.1.1Python環(huán)境安裝
14.1.2Python安裝第三方庫
14.2Python云端環(huán)境搭建
14.2.1百度飛槳AI Studio云端環(huán)境搭建
14.2.2Google Colab云端環(huán)境搭建
14.3本章總結(jié)
第15章Transformer模型自然語言處理領(lǐng)域?qū)嵗?/p>
15.1基于Transformer模型的機器翻譯實例
15.1.1基于Transformer模型的機器翻譯模型訓(xùn)練
15.1.2基于Transformer模型的機器翻譯模型推理過程
15.2基于Transformer模型的BERT模型應(yīng)用實例
15.2.1Hugging Face Transformers庫
15.2.2基于Transformers庫的BERT應(yīng)用實例
15.2.3訓(xùn)練一個基于BERT模型的文本多分類任務(wù)模型
15.3本章總結(jié)
第16章Transformer模型計算機視覺領(lǐng)域?qū)嵗?/p>
16.1Vision Transformer模型預(yù)訓(xùn)練
16.1.1Vision Transformer模型預(yù)訓(xùn)練數(shù)據(jù)集
16.1.2Vision Transformer模型預(yù)訓(xùn)練權(quán)重
16.1.3訓(xùn)練Vision Transformer模型
16.1.4使用Vision Transformer預(yù)訓(xùn)練模型進(jìn)行對象分類
16.2Swin Transformer模型實例
16.2.1Swin Transformer預(yù)訓(xùn)練模型
16.2.2訓(xùn)練 Swin Transformer模型
16.2.3使用Swin Transformer預(yù)訓(xùn)練模型進(jìn)行對象分類
16.3使用DETR預(yù)訓(xùn)練模型進(jìn)行對象檢測
16.4本章總結(jié)
第17章Transformer模型音頻領(lǐng)域?qū)嵗?/p>
17.1語音識別模型
17.1.1Whisper語音識別模型簡介
17.1.2Whisper語音識別模型的代碼實現(xiàn)
17.2語音合成模型
17.2.1ChatTTS語音合成模型簡介
17.2.2ChatTTS語音合成模型的代碼實現(xiàn)
17.3本章總結(jié)
參考文獻(xiàn)
致謝