头条
法院驳回马斯克叫停OpenAI的企图
https://links.tldrnewsletter.com/s8ITQ5
一家法院驳回了马斯克起诉OpenAI案中的关键诉求,拒绝了他的初步禁令请求。
Mistral Small 3.1
https://mistral.ai/news/mistral-small-3-1
在Mistral Small 3的基础上,这个新模型在文本性能、多模态理解方面有所提升,上下文窗口扩展到了12.8万个词元。该模型比Gemma 3和GPT-4o Mini等同类模型表现更优,推理速度可达每秒150个 Token。
UiPath 通过收购Peak Agentic AI寻求增长之路
UiPath收购了Peak.ai,以增强其针对特定行业(尤其是零售和制造业)的人工智能和自动化服务。尽管最近面临营收挑战且营收预期下调,但UiPath旨在利用Peak的决策型人工智能能力,增加交叉销售机会,获取更多市场份额。此次收购体现了战略转变,因为UiPath试图将人工智能进展融入现有业务。
研究
基于连续时间一致性蒸馏的单步扩散
https://arxiv.org/abs/2503.09641
英伟达团队发布了其SANA图像生成模型的快速版本,名为SANA-sprint。这个模型生成图像的速度惊人地快,同时还能保证质量。该团队采用了一种基于一致性蒸馏的全新蒸馏方法。这一领域的一个待解决问题是,要确保这些一致性模型仍易于微调。
大语言模型驱动的遗传算法
https://arxiv.org/abs/2503.11061v1
Funsearch是一种由大语言模型(LLM)驱动的遗传算法的新应用,旨在帮助数学家解决组合和数论问题,且无需机器学习专业知识。
自动驾驶的视觉推理
https://arxiv.org/abs/2503.10621v1
DriveLMM-o1推出用于自动驾驶中逐步视觉推理的数据集和基准测试,提升人工智能驾驶场景中的推理准确性和决策能力。
工程
MLX 上的 CSM 语音模型(GitHub 仓库)
https://github.com/senstella/csm-mlx
芝麻公司上周发布了一款10亿参数模型用于对话语音生成。这个代码库包含一个苹果原生的MLX版本,能在大多数苹果笔记本电脑上快速运行。
一款专注于语音的多模态大语言模型(GitHub 仓库)
https://github.com/JeongHun0716/MMS-LLaMA
MMS-LLaMA是一种高效的多模态语音大语言模型框架,用于自动视觉语音识别(AVSR),能在保留语言内容的同时优化词元长度 。
使用TXAGENT进行个性化药物治疗
https://zitniklab.hms.harvard.edu/TxAgent/
TxAgent是一个由人工智能驱动的系统,能分析药物相互作用、禁忌情况以及患者特定数据,以生成适应性治疗方案。
其他
测试每一个开源手写检测模型
https://huggingface.co/blog/samuellimabraz/signature-detection-model
一篇全面的文章,探讨了Hugging Face上每个用于手写分类/签名检测模型的性能。
双子座2.0快速去除水印
谷歌Gemini 2.0 Flash能去除图片水印,还能智能填补缺失区域,这一先进功能引发了关于版权和合理使用的讨论 。
人工智能安全的路径与中转站
https://joecarlsmith.com/2025/03/11/paths-and-waystations-in-ai-safety
这篇文章概述了一个解决人工智能对齐问题的框架,方法是区分技术参数(“问题概况”)和文明的应对能力(“能力概况”)。该方法的关键是三个“安全因素”:安全进展、风险评估和能力限制。文章就利用未来的人工智能劳动力来强化这些因素展开讨论,并探讨了提高人工智能安全性的各个战略里程碑。
又一家人工智能机器人公司获得巨额资金,Dexterity 完成新一轮融资
德克斯特里蒂公司筹集了9500万美元,估值达16.5亿美元,用于推进其人工智能驱动的工业机器人。
马克·库班称人工智能“绝非答案”,而是“一种工具”
https://techcrunch.com/2025/03/11/mark-cuban-says-ai-is-never-the-answer-its-a-tool/
在西南偏南大会上,马克·库班强调,人工智能是助力小企业发展的工具,而非解决方案。
人工智能时代的定位初创企业
https://tomtunguz.com/office-hours-alan-hsia/
来参加与Fireworks AI营销副总裁夏亚伦的线下活动,了解如何打造强大的人工智能品牌,以及制定独特的产品上市策略。