https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8-4.2折 支持Deepseek、OpenAI(o3/GPTs/Sora/实时语音)、Claude、Gemini、Midjourney、文件上传
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8-4.2折 支持Deepseek、OpenAI(o3/GPTs/Sora/实时语音)、Claude、Gemini、Midjourney、文件上传
Buy ads: https://telega.io/c/AI_News_CN
一位AI安全初创公司创始人发文称,尽管基准测试分数不断提高,但自2024年8月左右Claude 3.5 Sonnet模型发布带来显著性能飞跃后,后续包括Claude 3.6(带来轻微提升)、Claude 3.7(提升更小)以及OpenAI的测试模型在内的新模型,在其公司复杂的代码库安全审计应用场景中并未带来实质性的改进。该公司成立于2024年6月,目前主要依赖Claude 3.7 Sonnet。作者指出,其公司的进展更多源于工程优化而非模型升级,且与其他AI应用初创公司交流发现,许多创始人也有类似体验:新模型基准亮眼,实际应用效果平平。
文章分析,这种现象可能源于:
1. 基准测试的局限性: 现有基准(尤其在安全领域)多为标准化测试式的、可在数百token内解决的短任务,未能有效衡量模型在处理大型代码库、推理复杂安全模型、长期记忆和执行现实世界复杂任务(如作者提到的应用安全测试)方面的通用能力和经济实用性。作者更倾向于关注如“Claude玩宝可梦”这类长时任务基准及个人使用体验。
2. 模型“对齐”问题: 模型可能被训练得倾向于“听起来聪明”而非严格遵循指令或承认无知,导致在实际应用中产生误导性输出(如报告无法利用的“潜在”问题),这在构建复杂系统时成为严重障碍。
3. 基准被“污染”或过度优化: 存在AI实验室为追求排名、投资和人才而过度优化甚至操纵基准结果的可能性,尽管有反驳意见认为存在真实进步(如Kagi的私有基准),但对公开基准的信任度降低。
作者认为,近期AI模型在完成全新任务或替代更大部分人类智力劳动方面的进展有限,对当前宣称的进步速度持怀疑态度,并指出未来硬件(如Nvidia Blackwell芯片)的部署可能带来改变。
(HackerNews)
via 茶馆 - Telegram Channel
OpenAI正在为ChatGPT-4o的图像生成模型测试水印功能,免费用户生成的图像将带有水印,而付费Plus用户可保存无水印图像。
Bleepingcomputer
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel
Meta对其新AI模型的基准测试有点误导性
Meta 公司周六发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。但 Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。正如多位 AI 研究人员在 X 上指出的那样,Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。与此同时,Llama 官方网站上的一张图表显示,Meta 的 LM Arena 测试是使用“针对对话性优化的 Llama 4 Maverick”进行的。这种将模型针对某个基准进行优化,然后再发布模型的 “普通” 版本,使得开发者难以准确预测模型在特定场景中的实际表现。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
Meta 公司周六发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。但 Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。正如多位 AI 研究人员在 X 上指出的那样,Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。与此同时,Llama 官方网站上的一张图表显示,Meta 的 LM Arena 测试是使用“针对对话性优化的 Llama 4 Maverick”进行的。这种将模型针对某个基准进行优化,然后再发布模型的 “普通” 版本,使得开发者难以准确预测模型在特定场景中的实际表现。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
苹果智能可能会随着 iOS 18.6 在中国推出
彭博社记者马克·古尔曼周日表示,苹果人工智能系统可能会随着 iOS 18.6 系统在中国推出。古尔曼指出,一切迹象都表明,苹果公司正努力尽快将 Apple 智能引入中国。他此前表示,Apple 智能预计会在今年年中随 iOS 18.5 一同推出,操作系统代码中暗含的痕迹也表明,苹果正在进行相关开发工作。不过 iOS 18.5 的首个测试版并未在中国展示任何相关功能。如果苹果的计划延期,该公司可能会在今年夏季推出的iOS 18.6 (内部代号为 “G” ) 中面向中国市场推出人工智能功能。他还表示,Apple智能在中国会继续使用苹果的端侧 AI 模型,但会与阿里合作满足监管要求并与百度合作提供视觉智能和 Siri 服务。
—— 彭博社
via 风向旗参考快讯 - Telegram Channel
彭博社记者马克·古尔曼周日表示,苹果人工智能系统可能会随着 iOS 18.6 系统在中国推出。古尔曼指出,一切迹象都表明,苹果公司正努力尽快将 Apple 智能引入中国。他此前表示,Apple 智能预计会在今年年中随 iOS 18.5 一同推出,操作系统代码中暗含的痕迹也表明,苹果正在进行相关开发工作。不过 iOS 18.5 的首个测试版并未在中国展示任何相关功能。如果苹果的计划延期,该公司可能会在今年夏季推出的iOS 18.6 (内部代号为 “G” ) 中面向中国市场推出人工智能功能。他还表示,Apple智能在中国会继续使用苹果的端侧 AI 模型,但会与阿里合作满足监管要求并与百度合作提供视觉智能和 Siri 服务。
—— 彭博社
via 风向旗参考快讯 - Telegram Channel
Apple Intelligence预计年中登陆中国,或延后至iOS 18.6发布
苹果公司正在加紧推进Apple Intelligence在中国的落地工作,原计划于年中随iOS 18.5版本上线。尽管操作系统代码中已有相关迹象,但首个测试版在中国尚未公开相关功能,或存在延迟。若无法如期发布,苹果可能将其推迟至夏季推出的iOS 18.6。
为符合中国监管要求,Apple Intelligence在华将继续采用本地设备AI模型,并通过阿里巴巴提供的“审查引擎”满足审查需求,同时采用百度替代OpenAI和谷歌,支持视觉智能和Siri服务。
彭博社
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel
苹果公司正在加紧推进Apple Intelligence在中国的落地工作,原计划于年中随iOS 18.5版本上线。尽管操作系统代码中已有相关迹象,但首个测试版在中国尚未公开相关功能,或存在延迟。若无法如期发布,苹果可能将其推迟至夏季推出的iOS 18.6。
为符合中国监管要求,Apple Intelligence在华将继续采用本地设备AI模型,并通过阿里巴巴提供的“审查引擎”满足审查需求,同时采用百度替代OpenAI和谷歌,支持视觉智能和Siri服务。
彭博社
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel
一位部长表示,两名被以色列拒绝入境的工党议员正在返回英国的途中。
袁阳(Yuan Yang)和阿卜蒂萨姆·穆罕默德(Abtisam Mohamed)表示,她们对以色列当局不允许她们入境的决定感到“震惊”。
(Bloomberg Politics)
via 茶馆 - Telegram Channel
数据分析显示,印度已成为ChatGPT增长最快的市场之一,今年安卓端下载量占全球20%以上。但SensorTower数据显示,印度用户通过应用内购仅贡献800万美元收入,远低于美国市场的3.3亿美元。
主要障碍在于定价策略——每月20美元的订阅费(约合1700卢比)超出当地主流消费水平。OpenAI正与印度电信巨头Reliance Jio洽谈合作,试图触达该国9.5亿互联网用户。
TechCrunch
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel
为应对竞争,OpenAI计划向ChatGPT免费版用户推出深度研究功能。该功能利用推理模型和全网信息搜集,可生成专业详实的研究报告,原先仅面向付费用户,并设有使用配额限制。消息人士透露,免费用户使用后每月可能仅限1至2次,目前具体上线时间尚未公布。
蓝点网
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel