《報告》的核心亮點在于全球首創的意識水平測評體系。《報告》基于DIKWP模型,從數據、信息、知識、智慧、意圖等方面,構建全鏈路評估體系。測試題全面覆蓋大語言模型的感知與信息處理、知識構建與推理、智慧應用與問題解決、意圖識別與調整四大模塊,對主流大語言模型的意識水平進行系統化、量化深度剖析。
《報告》對當前主流的大語言模型進行了全面測評,包括DeepSeek-V3、ChatGPT-o1、通義千問-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。測評結果顯示,不同模型在不同模塊的表現各有千秋。
例如,感知與信息處理部分主要考察模型在處理原始數據、提取信息和保持語義一致性方面的表現。ChatGPT-4o和ChatGPT-o1在數據轉換和格式處理方面表現出色,體現出穩定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通義千問-2.5、Kimi和Grok在信息提取方面表現優異,特別是在數據到信息轉化路徑上的表現尤為突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持語義一致性方面表現較好。
知識構建與推理部分的測評考察模型將信息整合為知識的能力,以及邏輯推理能力。結果顯示,通義千問-2.5、ChatGLM-4 Plus和ChatGPT-4o表現突出。
意圖識別與調整部分的測評重點考察模型對用戶意圖的理解能力,以及根據意圖調整輸出的能力。結果顯示,豆包和Gemini-2.0 Flash Thinking Experimental表現較好,能夠準確理解用戶的問題并提供相關回答。
關于我們 加入我們 聯系我們 商務合作
茶葉前線 www.cyqxw.com.cn 版權所有
投稿投訴聯系郵箱:8 8 6 2 3 9 5@qq.com