試卷征集
          加入會員
          操作視頻

          chatGPT是由OpenAI開發的一款人工智能機器人程序,一經推出就火遍全球.chatGPT的開發主要采用RLHF(人類反饋強化學習)技術,訓練分為以下三個階段.
          第一階段:訓練監督策略模型.對抽取的prompt數據,人工進行高質量的回答,獲取<prompt,answer>數據對,幫助數學模型GPT-3.5更好地理解指令.
          第二階段:訓練獎勵模型.用上一階段訓練好的數學模型,生成k個不同的回答,人工標注排名,通過獎勵模型給出不同的數值,獎勵數值越高越好.獎勵數值可以通過最小化下面的交叉熵損失函數得到:
          L
          oss
          =
          -
          n
          i
          =
          1
          y
          i
          ln
          ?
          y
          i
          ,其中
          y
          i
          {
          0
          1
          }
          ?
          y
          i
          0
          1
          ,且
          n
          i
          =
          1
          ?
          y
          i
          =
          1

          第三階段:實驗與強化模型和算法.通過調整模型的參數,使模型得到最大的獎勵以符合人工的選擇取向.
          參考數據:ln2≈0.693,ln5≈1.609,ln7≈1.946
          (1)若已知某單個樣本,其真實分布y=[y1,y2,?,y10]=[0,0,0,0,1,0,0,0,0,0],其預測近似分布
          ?
          y
          =
          [
          y
          1
          y
          2
          ?
          y
          10
          ]
          =
          [
          0
          0
          .
          2
          0
          0
          0
          .
          7
          0
          0
          0
          .
          1
          0
          0
          ]
          ,計算該單個樣本的交叉熵損失函數Loss值.
          (2)絕對值誤差MAE也是一種比較常見的損失函數,現已知某n階變量的絕對值誤差,
          MAE
          =
          1
          N
          n
          i
          |
          ?
          y
          i
          -
          y
          i
          |
          ,其中
          |
          ?
          y
          i
          -
          y
          i
          |
          =
          |
          ?
          y
          i
          1
          -
          y
          i
          1
          |
          +
          |
          ?
          y
          i
          2
          -
          y
          i
          2
          |
          +
          +
          |
          ?
          y
          in
          -
          y
          in
          |
          ,N表示變量的階.若已知某個樣本是一個三階變量的數陣
          y
          =
          y
          1
          y
          2
          y
          3
          =
          y
          11
          y
          12
          y
          13
          y
          21
          y
          22
          y
          23
          y
          31
          y
          32
          y
          33
          ,其真實分布是
          y
          =
          0
          0
          1
          0
          1
          0
          1
          0
          0
          ,現已知其預測分布為
          ?
          y
          =
          a
          ,
          b
          ,
          c
          c
          ,
          a
          ,
          b
          b
          ,
          c
          ,
          a
          ,求證:該變量的絕對值誤差MAE為定值.
          (3)在測試chatGPT時,如果輸入問題沒有語法錯誤chatGPT的回答被采納的概率為90%,當出現語法錯誤時,chatGPT的回答被采納的概率為50%.現已知輸入的問題中出現語法錯誤的概率為5%,現已知chatGPT的回答被采納,求該問題的輸入語法沒有錯誤的概率.

          【考點】條件概率
          【答案】(1)0.356;
          (2)證明見解析;
          (3)
          171
          176
          【解答】
          【點評】
          聲明:本試題解析著作權屬菁優網所有,未經書面同意,不得復制發布。
          發布:2024/6/27 10:35:59組卷:226引用:2難度:0.6
          相似題
          • 1.將兩顆骰子各擲一次,設事件A為“兩個點數之和大于8”,B為“至少出現一個5點”,則概率P(A|B)等于(  )

            發布:2025/1/1 11:30:4組卷:20引用:2難度:0.7
          • 2.某校從學生文藝部7名成員(4男3女)中,挑選2人參加學校舉辦的文藝匯演活動.
            (1)求男生甲被選中的概率;
            (2)在已知男生甲被選中的條件下,女生乙被選中的概率;
            (3)在要求被選中的兩人中必須一男一女的條件下,求女生乙被選中的概率.

            發布:2024/12/29 11:30:2組卷:585引用:4難度:0.5
          • 3.為慶祝建黨100周年,謳歌中華民族實現偉大復興的奮斗歷程,增進全體黨員干部職工對黨史知識的了解,某單位組織開展黨史知識競賽活動,以支部為單位參加比賽,某支部在5道黨史題中(有3道選擇題和2道填空題),不放回地依次隨機抽取2道題作答,設事件A為“第1次抽到選擇題”,事件B為“第2次抽到選擇題”,則下列結論中正確的是(  )

            發布:2024/12/29 11:30:2組卷:758引用:11難度:0.6
          APP開發者:深圳市菁優智慧教育股份有限公司| 應用名稱:菁優網 | 應用版本:5.0.7 |隱私協議|第三方SDK|用戶服務條款
          本網部分資源來源于會員上傳,除本網組織的資源外,版權歸原作者所有,如有侵犯版權,請立刻和本網聯系并提供證據,本網將在三個工作日內改正