2025-07-09 简讯 : GROK 4 在“人类最后测试”中得分45


头条


GROK 4 在“人类最后测试”中得分45

https://www.testingcatalog.com/grok-4-benchmarks-leak-with-45-score-on-humanity-last-exam/

泄露的基准测试显示,Grok 4将是最先进的。xAI控制台中已出现对该模型的引用, 如果这些基准测试是真的,Grok 4的性能可能超过Gemini 2.5 Pro、o3 Pro和Claude 4 Opus等领先模型。在市场再次变化之前,xAI面临着推出Grok 4的竞争压力,有传言称OpenAI、谷歌和Anthropic正准备推出新的版本。

Character AI的实时视频生成

https://blog.character.ai/character-ais-real-time-video-breakthrough/

Character.AI的TalkingMachines是一种实时、音频驱动的视频生成模型,能根据单一图像和语音输入创建FaceTime风格的动画。


深度分析


为双子座2.5 Chat Bot 增加内存

https://www.philschmid.de/gemini-with-memory

一份指南介绍了如何使用Gemini API和开源工具mem0,让Gemini 2.5聊天机器人拥有长期记忆。这样设置后,机器人能回忆过去的对话,使回复更个性化,减少重复,带来更具情境感知的对话。

美国深海探索项目

https://www.interconnects.ai/p/the-american-deepseek-project

Meta最近在人工智能方面表现不佳,这在开源人工智能生态系统中造成了空白,而这一空白很大程度上被中国模型填补。如果目前的态势持续下去,人工智能领域将分化为强大但昂贵的美国闭源模型,以及低成本、普及但可能有隐患的中国模型。美国可能只有大概未来两年的短暂窗口期,需投入1亿至5亿美元开发一个与最佳闭源模型相当的开源模型,来扭转这一趋势 。


工程


智能体到底能做什么?

https://lethain.com/what-can-agents-do/

人们对人工智能的能力满怀期待,但很多有关这项技术的讨论太过抽象,近乎毫无意义。这篇文章试图简要概括人工智能智能体的工作原理,并探讨该技术在现实世界中的一些应用案例。人工智能智能体可提升软件质量和系统设计水平。但如果软件或系统设计欠佳,智能体只会带来危害。

Sakana AI TreeQuest:部署多模型团队,性能比单个大语言模型高出30%

https://links.tldrnewsletter.com/USMysp

Sakana AI 的TreeQuest利用多语言大模型自适应分支蒙特卡洛树搜索算法(Multi-LLM AB-MCTS)将多个大语言模型(LLM)结合起来。这项技术通过自适应分支蒙特卡洛树搜索,发挥不同模型的独特优势,动态为每个任务分配最佳模型,比单个模型性能提升30%。TreeQuest作为一款开源工具,企业可以用它来解决复杂问题,提升人工智能能力,降低幻觉风险。

AGENT-SQUAD(GitHub 仓库)

https://github.com/awslabs/agent-squad

一个用于构建协作式多智能体人工智能系统的框架,该系统能够规划、分配任务并共同协作解决复杂任务。


其他


为何 AGI 并非近在咫尺

https://www.dwarkesh.com/p/timelines-june-2025

要从大语言模型(LLMs)中获得像人类那样正常的劳动力可不容易,因为它们缺乏一些基本能力。它们不会随着时间推移而进步,这种无法持续学习是个大问题。没办法给模型提供人类水平的反馈,所以用户只能用模型出厂就有的那些能力。捣鼓系统提示,也没法带来跟人类员工学习和进步差不多的效果。人类能积累背景知识,反思自身失误,在执行任务过程中不断取得小的进步、提高效率。

谷歌因人工智能评论面临欧盟投诉

https://techcrunch.com/2025/07/05/google-faces-eu-antitrust-complaint-over-ai-overviews/

独立出版商联盟向欧盟委员会提起反垄断投诉,称谷歌的AI概述滥用网络内容,导致出版商流量和收入受损。

马斯克证实XAI正购买一座海外发电厂,为其新数据中心供电

https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-xai-power-plant-overseas-to-power-1-million-gpus

xAI的下一批数据中心预计将容纳数百万个AI芯片。

天呐!德国TNG技术咨询有限公司实验室推出全新的DeepSeek R1-0528变体,速度快了200% !

https://links.tldrnewsletter.com/v1es4E

成立24年的德国公司TNG Technology Consulting GmbH的DeepSeek-TNG R1T2 Chimera在显著减少输出令牌使用量的同时,效率和速度都有显著提升。

NFDG:这只11亿美元的风投基金两年内增值4倍,随后被Meta收购

https://www.saastr.com/the-1-1b-vc-fund-that-4xd-in-two-years-then-got-acquired-by-meta/

这篇文章探讨了NFDG的投资组合、顾问委员会、业绩、成功因素等情况。

英伟达收购加拿大人工智能初创公司CentML的交易规模可能超4亿美元

https://thelogic.co/news/exclusive/nvidias-deal-centml-us400m/

CentML开发的软件可在用户的人工智能模型与为其供电的芯片之间运行,能让系统运行得更好。

GROK 4发布前现特殊编码功能

https://www.bleepingcomputer.com/news/artificial-intelligence/grok-4-spotted-ahead-of-launch-with-special-coding-features/

Grok 4(grok-4-0629)在自然语言、数学和推理方面有着无与伦比的表现。

研究人员试图用隐藏的人工智能提示影响同行评审

https://techcrunch.com/2025/07/06/researchers-seek-to-influence-peer-review-with-hidden-ai-prompts/

研究人员在arXiv上的学术论文中嵌入隐藏的人工智能提示,以对同行评审产生积极影响。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容