chatGPT是由OpenAI開發的一款人工智能機器人程序，一經推出就火遍全球．chatGPT的開發主要采用RLHF（人類反饋強化學習）技術，訓練分為以下三個階段．
第一階段：訓練監督策略模型．對抽取的prompt數據，人工進行高質量的回答，獲取＜prompt,answer＞數據對，幫助數學模型GPT-3.5更好地理解指令．
第二階段：訓練獎勵模型．用上一階段訓練好的數學模型，生成k個不同的回答，人工標注排名，通過獎勵模型給出不同的數值，獎勵數值越高越好．獎勵數值可以通過最小化下面的交叉熵損失函數得到：
L
oss
=
-
n
∑
i
=
1
y
i
ln
?
y
i
，其中
y
i
∈
{
0
，
1
}
，
?
y
i
∈
（
0
，
1
）
，且
n
∑
i
=
1
?
y
i
=
1
．
第三階段：實驗與強化模型和算法．通過調整模型的參數，使模型得到最大的獎勵以符合人工的選擇取向．
參考數據：ln2≈0.693，ln5≈1.609，ln7≈1.946
（1）若已知某單個樣本，其真實分布y=[y₁，y₂，?，y₁₀]=[0，0，0，0，1，0，0，0，0，0]，其預測近似分布
?
y
=
[
y
1
，
y
2
，
?
，
y
10
]
=
[
0
，
0
.
2
，
0
，
0
，
0
.
7
，
0
，
0
，
0
.
1
，
0
，
0
]
，計算該單個樣本的交叉熵損失函數Loss值．
（2）絕對值誤差MAE也是一種比較常見的損失函數，現已知某n階變量的絕對值誤差，
MAE
=
1
N
n
∑
i
|
?
y
i
-
y
i
|
，其中
|
?
y
i
-
y
i
|
=
|
?
y
i
1
-
y
i
1
|
+
|
?
y
i
2
-
y
i
2
|
+
…
+
|
?
y
in
-
y
in
|
，N表示變量的階．若已知某個樣本是一個三階變量的數陣
y
=
y
1
y
2
y
3
=
y
11
，
y
12
，
y
13
y
21
，
y
22
，
y
23
y
31
，
y
32
，
y
33
，其真實分布是
y
=
0
，
0
，
1
0
，
1
，
0
1
，
0
，
0
，現已知其預測分布為
?
y
=
a
,
b
,
c
c
,
a
,
b
b
,
c
,
a
，求證：該變量的絕對值誤差MAE為定值．
（3）在測試chatGPT時，如果輸入問題沒有語法錯誤chatGPT的回答被采納的概率為90%，當出現語法錯誤時，chatGPT的回答被采納的概率為50%．現已知輸入的問題中出現語法錯誤的概率為5%，現已知chatGPT的回答被采納，求該問題的輸入語法沒有錯誤的概率．

【考點】條件概率．

【答案】（1）0.356；
（2）證明見解析；
（3）

171

176

．

【解答】

【點評】

聲明：本試題解析著作權屬菁優網所有，未經書面同意，不得復制發布。

發布：2024/6/27 10:35:59組卷：226引用：2難度：0.6

相似題

相關試卷

1．將兩顆骰子各擲一次，設事件A為“兩個點數之和大于8”，B為“至少出現一個5點”，則概率P（A|B）等于（ ）