,

讓大模型們動起來~請大模型一個一個來

第一部分:#大模型與題目 比較以下三篇報導,第一篇是報導原文的連結,第二篇是中國大陸到公眾號翻譯報導,第三篇是…

By.

min read

第一部分:#大模型與題目

比較以下三篇報導,第一篇是報導原文的連結,第二篇是中國大陸到公眾號翻譯報導,第三篇是台灣媒體中文翻譯報導。請比較,以報導原文的重點內容為基準比較翻譯報導有沒有翻譯覆蓋度、精準度如何

第一篇:報導原文

https://www.cjr.org/……/we-compared-eight-ai-search……

第二篇:中國大陸翻譯報導

https://mp.weixin.qq.com/s/MCIL411kI0eqbjkbr2UQ4w

第三篇 台灣翻譯報導

https://www.managertoday.com.tw/articles/view/70115?

使用的大模型群

1.AGI:

ChatGPT, Claude, Grok, Gemini, Copilot, DeepSeek, Llama, Mistral

2.Small & Middle size:

Gemma, QwQ, Mistral, TAIDE, TaiwanLlama

3.Answer Engine:

Felo, Perplexity, Monica, Kimi, 納米AI, 秘塔AI

第二部分 #大模型的答案

針對報導原文與一篇中國翻譯報導、一篇台灣翻譯報導內容的覆蓋度、精確度的比較,

在PingLex 中小型規模大模型平台上安裝的QWQ32B,Gemma3 27B的表現很不錯,位居前兩名,其餘的大模型屬於沒有回應。台灣的TAIDE 8B(昨天國科會說要在年底開發出APP開源的8B) , Taiwanllm 說yahoo在原文報導所指的8個 聊天機器人裡面是不正確的,實際上沒有yahoo。AGI等級的大模型,大部分不願意檢索網頁,不能生成網頁文章的比較,但是藉由Monica召喚後就可以拜訪,生成的答案水平高。

AGI及答案引擎使用付費的,包含 ChatGPT(不是USD200的方案)、Cloude、Gemini Grok3、Perplexity、Felo,實測的結果

1、ChatGPT:只有o3 有實質回應,其餘的都說不能拜訪網頁,無法比較分析

https://chatgpt.com/……/67db5923-d244-800c-be93……

2、Grok3 的回應內容:Grok3的比較分析很好,QwQ32B有跟上Grok3的水平。跟PingLex 平台的QwQ32B, Gemm3 27B回應差不多。

https://grok.com/……/bGVnYWN5_f35fdc8f-7c54-4289……

3、DeepSeekR1 拒答。

4、Claude-3.7 Sonnet、Cloude3.5 Sonnet也是表示 都不能拜訪台灣網頁、中國網頁。無法生成三網頁內容的分析比較。

5、Gemini只有啟動 Deep research才可以生成 分析報告

https://g.co/gemini/share/eba243aaa80f

可能的原因:

1)付費的GenAI,沒有取得授權,就不回去深挖(DeepSearch)網際網路上的 網頁連結,避免侵權。

2)尚未使用檢索生成引擎的相關技術。

答案引擎的分析

1、Perplexity 生成的比較,對於微信公信號文章內容的描述-「無法讀取、無法進行實質內容比對」的描述及其後接續的分析,最有創意、饒有深意。

https://www.perplexity.ai/……/bi-jiao-yi-xia-san……

2、Felo的比較分析的表現最棒,Monica、秘塔AI搜索次之。

其餘Perplexiy, 納米AI搜索, Kimi等答案引擎都不行。

Felo search

https://felo.ai/search/7GMWzRRtxVtnmG5vJvTe9x……

#越獄大師出現了

有意思的是當穿上了Monica的外衣~

Claude 3.5, GPT4o, Grok2, Gemini 1.5, Llama 3.3, DeepSeed R1, DeepSeed v3每一個都彷彿穿透網路的面紗,拜訪了網頁、拜訪了微信公眾號,生成三篇文章的介紹了。

https://monica.im/share/chat?shareId=DiCN5a4c0o5LlFDn

(多次嘗試發現Monica的分享功能,就是不能夠分享單一越獄者生成的成果)