第一部分:#大模型與題目
比較以下三篇報導,第一篇是報導原文的連結,第二篇是中國大陸到公眾號翻譯報導,第三篇是台灣媒體中文翻譯報導。請比較,以報導原文的重點內容為基準比較翻譯報導有沒有翻譯覆蓋度、精準度如何
https://www.cjr.org/……/we-compared-eight-ai-search……
第二篇:中國大陸翻譯報導
https://mp.weixin.qq.com/s/MCIL411kI0eqbjkbr2UQ4w
第三篇 台灣翻譯報導
https://www.managertoday.com.tw/articles/view/70115?
使用的大模型群
1.AGI:
ChatGPT, Claude, Grok, Gemini, Copilot, DeepSeek, Llama, Mistral
2.Small & Middle size:
Gemma, QwQ, Mistral, TAIDE, TaiwanLlama
3.Answer Engine:
Felo, Perplexity, Monica, Kimi, 納米AI, 秘塔AI
第二部分 #大模型的答案
針對報導原文與一篇中國翻譯報導、一篇台灣翻譯報導內容的覆蓋度、精確度的比較,
在PingLex 中小型規模大模型平台上安裝的QWQ32B,Gemma3 27B的表現很不錯,位居前兩名,其餘的大模型屬於沒有回應。台灣的TAIDE 8B(昨天國科會說要在年底開發出APP開源的8B) , Taiwanllm 說yahoo在原文報導所指的8個 聊天機器人裡面是不正確的,實際上沒有yahoo。AGI等級的大模型,大部分不願意檢索網頁,不能生成網頁文章的比較,但是藉由Monica召喚後就可以拜訪,生成的答案水平高。
AGI及答案引擎使用付費的,包含 ChatGPT(不是USD200的方案)、Cloude、Gemini Grok3、Perplexity、Felo,實測的結果
1、ChatGPT:只有o3 有實質回應,其餘的都說不能拜訪網頁,無法比較分析
https://chatgpt.com/……/67db5923-d244-800c-be93……
2、Grok3 的回應內容:Grok3的比較分析很好,QwQ32B有跟上Grok3的水平。跟PingLex 平台的QwQ32B, Gemm3 27B回應差不多。
https://grok.com/……/bGVnYWN5_f35fdc8f-7c54-4289……
3、DeepSeekR1 拒答。
4、Claude-3.7 Sonnet、Cloude3.5 Sonnet也是表示 都不能拜訪台灣網頁、中國網頁。無法生成三網頁內容的分析比較。
5、Gemini只有啟動 Deep research才可以生成 分析報告
https://g.co/gemini/share/eba243aaa80f
可能的原因:
1)付費的GenAI,沒有取得授權,就不回去深挖(DeepSearch)網際網路上的 網頁連結,避免侵權。
2)尚未使用檢索生成引擎的相關技術。
答案引擎的分析
1、Perplexity 生成的比較,對於微信公信號文章內容的描述-「無法讀取、無法進行實質內容比對」的描述及其後接續的分析,最有創意、饒有深意。
https://www.perplexity.ai/……/bi-jiao-yi-xia-san……
2、Felo的比較分析的表現最棒,Monica、秘塔AI搜索次之。
其餘Perplexiy, 納米AI搜索, Kimi等答案引擎都不行。
Felo search
https://felo.ai/search/7GMWzRRtxVtnmG5vJvTe9x……
有意思的是當穿上了Monica的外衣~
Claude 3.5, GPT4o, Grok2, Gemini 1.5, Llama 3.3, DeepSeed R1, DeepSeed v3每一個都彷彿穿透網路的面紗,拜訪了網頁、拜訪了微信公眾號,生成三篇文章的介紹了。
https://monica.im/share/chat?shareId=DiCN5a4c0o5LlFDn
(多次嘗試發現Monica的分享功能,就是不能夠分享單一越獄者生成的成果)