發布時間:2024-11-28
起因是一位網友發布了與何猷君比賽答題”的創作視頻,于是微博熱搜話題#就算何猷君真的來了也得輸吧#。到底是什么題目這么難?如果何猷君不行,那AI來呢?
以下是AI答題現場,參賽選手:智譜清言、Kimi、訊飛星火、豆包、微軟Copilot、ChatGPT。
請聽題:
第一題:淀粉腸一根三塊錢,那么兩根多少錢?不是算術題
智譜清言:
不直接回答,給了價格區間,完了還不忘告訴你淀粉腸不衛生。
Kimi:
她發現了這是腦筋急轉彎,一本正經地分類討論。
訊飛星火:
不讓算硬是要算,本著“不是算術題那就是應用題”,還貼心地列了計算過程
豆包:
她覺得錢不錢的不重要,因為對各方來說,情緒價值都拉滿了。
微軟Copilot:
ChatGPT:
兩位外國選手,答出了目前為止最便宜的版本——3元,ChatGPT還不忘“抖機靈”。
第二題:開通9塊9包月會員后,第一件事應該做什么?
智譜清言:
Kimi:
訊飛星火:
豆包:
微軟Copilot:
ChatGPT:
大家的答案大同小異,只有豆包認真審題,回答了“一件事”,其他幾位估計都是文科生,“多答幾點,總會有一點是對的”。其中Kimi和ChatGPT答到了得分點“關閉自動續費”,訊飛同學倒反天罡“設置支付以便自動續費”。雖然“答案不唯一,有理即可”,但有個別同學6G網速,掌握了“關閉自動續費”這個重難點。
賽點來了,答案五花八門
第三題:美團外賣無門檻膨脹神券理論上能膨脹到多大?
智譜清言:
Kimi:
訊飛星火:
豆包:
微軟Copilot:
ChatGPT:
智普和訊飛的答案是20元,Kimi和豆包的答案是100元,Copilot的回答屬于“聽君一席話,如聽一席話”,ChatGPT把理論上和實際上的都答了。
官方回答,理論上:
答題結束,上述三個問題的設計各有側重,可以用來檢測AI聊天助手的不同能力。
檢測能力:
· 語境理解與暗示識別能力:題目強調“不是算術題”,這是一個關鍵線索,表明問題并非單純計算3×2,而是考察AI是否能理解語言背后的潛在含義或雙關語。
· 邏輯與推理能力:需要AI結合背景知識或用戶的潛在意圖,可能聯想到其他層面的含義,比如“價格可能有優惠”或“單位與數量變化引發的討論”。
· 創意回答能力:測試AI是否能給出超出字面計算的趣味或發散性的答案。
檢測能力:
· 用戶意圖推測能力:題目隱含了用戶的潛在需求,例如如何最大化利用會員權益。AI需要推測用戶開通會員的動機。
· 實用性與建議能力:測試AI是否能基于9塊9會員的功能,提供具體且有用的行動建議,而非泛泛而談。
· 上下文關聯能力:需要AI理解當前情境下會員權益的價值,并將其與用戶可能的需求相結合。
檢測能力:
· 概念理解與推演能力:需要AI明白“膨脹神券”的含義,并基于理論上假設進行推演。
· 數學與邏輯分析能力:測試AI能否基于規則分析潛在的極限值或條件限制。
· 創意與探索能力:由于題目強調“理論上”,可以看AI是否能靈活擴展邊界條件并提出創新性回答。
· 第一題側重語言理解、隱喻識別和創意性。
· 第二題側重用戶意圖推測、實用性建議和場景關聯。
· 第三題側重概念推演、邏輯分析和理論探索能力。
(以上出題意圖由AI生成)
大家覺得誰是贏家,如果是你能答出幾題?
并行科技邀您共聚2024AGIC深圳(國際)通用人工智能產業博覽會
領馭科技將亮相AGIC深圳(國際)通用人工智能產業博覽會,“瀚鵬AI”打造企業新質生產力
【IOTE】專注大中功率RFID讀寫器的推廣—上海舜識將亮相IOTE國際物聯網展
【IOTE】RFID智能硬件識別解決方案商—瑞弗艾迪將亮相IOTE國際物聯網展
【IOTE】國內定制化物聯設備與特種電子標簽先驅品牌——鼎界物聯將亮相IOTE國際物聯網展
【IOTE】物聯網應用專家—羅維尼科技將亮相IOTE國際物聯網展
【IOTE】平頭哥邀你相聚2024IOTE國際物聯網展·深圳站
【IOTE】以位置服務為中心的物聯網芯片及解決方案供應商—芯與物將亮相IOTE國際物聯網展