https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
BEST AI中转 https://api.oaibest.com 2.8-4.2折 支持Deepseek、OpenAI(o3/GPTs/Sora/实时语音)、Claude、Gemini、Midjourney、文件上传
Buy ads: https://telega.io/c/AI_News_CN
🤔 AI模型进展放缓?开发者称近期提升多为“虚火”

一位AI安全初创公司创始人发文称,尽管基准测试分数不断提高,但自2024年8月左右Claude 3.5 Sonnet模型发布带来显著性能飞跃后,后续包括Claude 3.6(带来轻微提升)、Claude 3.7(提升更小)以及OpenAI的测试模型在内的新模型,在其公司复杂的代码库安全审计应用场景中并未带来实质性的改进。该公司成立于2024年6月,目前主要依赖Claude 3.7 Sonnet。作者指出,其公司的进展更多源于工程优化而非模型升级,且与其他AI应用初创公司交流发现,许多创始人也有类似体验:新模型基准亮眼,实际应用效果平平。

文章分析,这种现象可能源于:
1. 基准测试的局限性: 现有基准(尤其在安全领域)多为标准化测试式的、可在数百token内解决的短任务,未能有效衡量模型在处理大型代码库、推理复杂安全模型、长期记忆和执行现实世界复杂任务(如作者提到的应用安全测试)方面的通用能力和经济实用性。作者更倾向于关注如“Claude玩宝可梦”这类长时任务基准及个人使用体验。
2. 模型“对齐”问题: 模型可能被训练得倾向于“听起来聪明”而非严格遵循指令或承认无知,导致在实际应用中产生误导性输出(如报告无法利用的“潜在”问题),这在构建复杂系统时成为严重障碍。
3. 基准被“污染”或过度优化: 存在AI实验室为追求排名、投资和人才而过度优化甚至操纵基准结果的可能性,尽管有反驳意见认为存在真实进步(如Kagi的私有基准),但对公开基准的信任度降低。

作者认为,近期AI模型在完成全新任务或替代更大部分人类智力劳动方面的进展有限,对当前宣称的进步速度持怀疑态度,并指出未来硬件(如Nvidia Blackwell芯片)的部署可能带来改变。

(HackerNews)

via 茶馆 - Telegram Channel
OpenAI测试ChatGPT-4o图像生成添加水印功能

OpenAI正在为ChatGPT-4o的图像生成模型测试水印功能,免费用户生成的图像将带有水印,而付费Plus用户可保存无水印图像。

Bleepingcomputer

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel
Meta对其新AI模型的基准测试有点误导性

Meta 公司周六发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。但 Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。正如多位 AI 研究人员在 X 上指出的那样,Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。与此同时,Llama 官方网站上的一张图表显示,Meta 的 LM Arena 测试是使用“针对对话性优化的 Llama 4 Maverick”进行的。这种将模型针对某个基准进行优化,然后再发布模型的 “普通” 版本,使得开发者难以准确预测模型在特定场景中的实际表现。

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel
苹果智能可能会随着 iOS 18.6 在中国推出

彭博社记者马克·古尔曼周日表示,苹果人工智能系统可能会随着 iOS 18.6 系统在中国推出。古尔曼指出,一切迹象都表明,苹果公司正努力尽快将 Apple 智能引入中国。他此前表示,Apple 智能预计会在今年年中随 iOS 18.5 一同推出,操作系统代码中暗含的痕迹也表明,苹果正在进行相关开发工作。不过 iOS 18.5 的首个测试版并未在中国展示任何相关功能。如果苹果的计划延期,该公司可能会在今年夏季推出的iOS 18.6 (内部代号为 “G” ) 中面向中国市场推出人工智能功能。他还表示,Apple智能在中国会继续使用苹果的端侧 AI 模型,但会与阿里合作满足监管要求并与百度合作提供视觉智能和 Siri 服务。

—— 彭博社

via 风向旗参考快讯 - Telegram Channel
Apple Intelligence预计年中登陆中国,或延后至iOS 18.6发布

苹果公司正在加紧推进Apple Intelligence在中国的落地工作,原计划于年中随iOS 18.5版本上线。尽管操作系统代码中已有相关迹象,但首个测试版在中国尚未公开相关功能,或存在延迟。若无法如期发布,苹果可能将其推迟至夏季推出的iOS 18.6。

为符合中国监管要求,Apple Intelligence在华将继续采用本地设备AI模型,并通过阿里巴巴提供的“审查引擎”满足审查需求,同时采用百度替代OpenAI和谷歌,支持视觉智能和Siri服务。

彭博社

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel
部长称:两名被以色列拒绝入境的议员正返回英国

一位部长表示,两名被以色列拒绝入境的工党议员正在返回英国的途中。

袁阳(Yuan Yang)和阿卜蒂萨姆·穆罕默德(Abtisam Mohamed)表示,她们对以色列当局不允许她们入境的决定感到“震惊”。

(Bloomberg Politics)

via 茶馆 - Telegram Channel
ChatGPT印度用户激增但变现遇阻

数据分析显示,印度已成为ChatGPT增长最快的市场之一,今年安卓端下载量占全球20%以上。但SensorTower数据显示,印度用户通过应用内购仅贡献800万美元收入,远低于美国市场的3.3亿美元。

主要障碍在于定价策略——每月20美元的订阅费(约合1700卢比)超出当地主流消费水平。OpenAI正与印度电信巨头Reliance Jio洽谈合作,试图触达该国9.5亿互联网用户。

TechCrunch

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel
为应对竞争 OpenAI 计划向 ChatGPT 免费版用户提供深度研究功能

为应对竞争,OpenAI计划向ChatGPT免费版用户推出深度研究功能。该功能利用推理模型和全网信息搜集,可生成专业详实的研究报告,原先仅面向付费用户,并设有使用配额限制。消息人士透露,免费用户使用后每月可能仅限1至2次,目前具体上线时间尚未公布。

蓝点网

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel
iOS 18.5 Beta AI 解除 ID 锁限制,重力壁纸回归

- 现在,在外版设备上登录国区账号,也能正常使用苹果智能功能了。但是国行设备仍未开放

- 基带版本升级,运营商版本号变为 63.5.1

- 保修界面调整

- 邮件界面调整,新增「显示联系人照片开关」,该设置 在iOS 18.4 中强制开启

- 重力壁纸回归,该壁纸会随着你 iPhone 的晃动而轻轻移动

- 一键恢复照片,现在进入最近删除的相簿里面,无需多选照片,直接在底部就能看到一个「全部恢复」按钮。

🗒 标签: #Apple #iOS
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

via Yummy 😋 - Telegram Channel
Back to Top
oaibest.com 2023-2025
admin@oaibest.com