讓大模型們動起來~請大模型一個一個來

第一部分：#大模型與題目

比較以下三篇報導，第一篇是報導原文的連結，第二篇是中國大陸到公眾號翻譯報導，第三篇是台灣媒體中文翻譯報導。請比較，以報導原文的重點內容為基準比較翻譯報導有沒有翻譯覆蓋度、精準度如何

第一篇：報導原文

https://www.cjr.org/……/we-compared-eight-ai-search……

第二篇：中國大陸翻譯報導

https://mp.weixin.qq.com/s/MCIL411kI0eqbjkbr2UQ4w

第三篇台灣翻譯報導

https://www.managertoday.com.tw/articles/view/70115?

使用的大模型群

1.AGI：

ChatGPT, Claude, Grok, Gemini, Copilot, DeepSeek, Llama, Mistral

2.Small & Middle size:

Gemma, QwQ, Mistral, TAIDE, TaiwanLlama

3.Answer Engine:

Felo, Perplexity, Monica, Kimi, 納米AI, 秘塔AI

第二部分 #大模型的答案

針對報導原文與一篇中國翻譯報導、一篇台灣翻譯報導內容的覆蓋度、精確度的比較，

在PingLex 中小型規模大模型平台上安裝的QWQ32B,Gemma3 27B的表現很不錯，位居前兩名，其餘的大模型屬於沒有回應。台灣的TAIDE 8B(昨天國科會說要在年底開發出APP開源的8B) , Taiwanllm 說yahoo在原文報導所指的8個聊天機器人裡面是不正確的，實際上沒有yahoo。AGI等級的大模型，大部分不願意檢索網頁，不能生成網頁文章的比較，但是藉由Monica召喚後就可以拜訪，生成的答案水平高。

AGI及答案引擎使用付費的，包含 ChatGPT(不是USD200的方案）、Cloude、Gemini Grok3、Perplexity、Felo，實測的結果

1、ChatGPT：只有o3 有實質回應，其餘的都說不能拜訪網頁，無法比較分析

https://chatgpt.com/……/67db5923-d244-800c-be93……

2、Grok3 的回應內容：Grok3的比較分析很好，QwQ32B有跟上Grok3的水平。跟PingLex 平台的QwQ32B, Gemm3 27B回應差不多。

https://grok.com/……/bGVnYWN5_f35fdc8f-7c54-4289……

3、DeepSeekR1 拒答。

4、Claude-3.7 Sonnet、Cloude3.5 Sonnet也是表示都不能拜訪台灣網頁、中國網頁。無法生成三網頁內容的分析比較。

5、Gemini只有啟動 Deep research才可以生成分析報告

https://g.co/gemini/share/eba243aaa80f

可能的原因：

1）付費的GenAI，沒有取得授權，就不回去深挖（DeepSearch)網際網路上的網頁連結，避免侵權。

2）尚未使用檢索生成引擎的相關技術。