ChatGPT / AI新闻聚合

主流AI状态页通知 | 汇集全网ChatGPT/AI新闻 #AI #ChatGPT

小互: 你主动去关注一个人，没人强迫你没有诱导你，是你主动打开手机APP，搜索人名、点的关注。

然后他说你关注的人是个擦边人

给你自动取消了关注

这就相当于你的自由意志被剥夺了，变相的告诉你

你这个人也是没什么主见、没什么脑子、没什么智商

没...

----------------------
Wed Dec 25 2024 14:20:30 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: 一个视频告诉你什么是强去学习

🫢

----------------------
Wed Dec 25 2024 12:10:19 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: ↩️ 与传统模型对比：LCM 在生成长文本和多语言任务中优于传统模型（如 GPT 和轻量化 LLaMA），尤其在逻辑一致性和跨语言支持上表现突出。

生成长文本（如故事或论文）时，LCM 更连贯、更一致，适合复杂逻辑任务。

详细介绍：https://xiaohu.ai/p/16119
论文：https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space

----------------------
Wed Dec 25 2024 11:18:44 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: 重磅💥

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)

让模型更像人类思考，先从大框架入手，再填充细节。

与传统语言模型（比如GPT）逐字生成不同

LCM基于“概念”（concept）进行语言处理，把每个句子看作一个“概念”，在句子级别进行推理和生成，而不是在token级别操作。

在LCM中，一个概念通常对应一个完整的句子，它是语言和模态无关的高级语义表示。

让模型从更高的抽象层次进行推理和生成，超越现有模型局限，处理更复杂的任务。

- 思考方式像人类，从“概念”出发，逻辑更清晰。

- 能处理多语言、多模态任务，直接支持文本、语音甚至手语。支持200种语言的文本输入。76种语言的语音输入。

- 适合长文本处理，速度快，生成内容更连贯。

- 具备强大的零样本泛化能力，不用额外训练也能完成新任务。

----------------------
Wed Dec 25 2024 11:17:01 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: ↩️ 生物学问题解决

----------------------
Wed Dec 25 2024 10:57:41 GMT+0800 (China Standard Time)

via Twitter @小互

GfnMDmnbIAEwoMh.jpg

651.4 KB

5 天前

小互: ↩️ 化学问题解决

----------------------
Wed Dec 25 2024 10:57:40 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: ↩️ 计算沙发的占用空间

via Twitter @小互

Telegraph

小互: ↩️ 计算沙发的占用空间

Generated by RSStT. The copyright belongs to the original author. Source

5 天前

小互: 阿里巴巴推出QVQ-72B

一个基于Qwen2-VL-72B的新型多模态推理模型，结合了语言和视觉能力，能进行复杂问题的推理和分析。

QVQ-72B在视觉推理、数学和科学问题上表现出显著提升，特别是在多步推理任务中。

可在物理问题中结合文字和视觉信息推导因果关系。

在数学推理任务（如代数、微积分）中，模型通过分步推理显著减少错误率。

在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。

在精准识别图片中的细节，例如物体位置、颜色、空间关系，以及复杂情景。

----------------------
Wed Dec 25 2024 10:57:38 GMT+0800 (China Standard Time)

via Twitter @小互

GfnLPS4a0AAEprm.jpg

172.6 KB

5 天前

小互: 小熊猫 Recraft AI

更新了60 种新的图像风格

🫡

----------------------
Tue Dec 24 2024 23:29:06 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: Fireworks AI推出了一种叫“Document Inlining”功能

这是一种复合AI系统，能够将非结构化的文档（如PDF、截图、图像等）转化为LLM（大语言模型）可理解的结构化文本，变成能直接用于聊天机器人或者AI模型的文字内容。

它能自动识别和解析文档中的多种内容，包括文本、表格、图表以及嵌套布局。

简单易用，无需复杂的设置

兼容OpenAI API ，在 Fireworks 中，启用Document Inlining功能仅需在现有的 API 中添加一行代码即可实现。

1. 高质量输出

• Document Inlining 提供的文本质量能够匹配甚至超越传统的文本型 LLMs 输出，尤其是在推理和生成任务中表现优异。

• 相比 VLMs，LLMs 使用经转换的文本后，生成更准确、更专业的结果。

2. 多种文档格式支持

• 成功测试了包括 PDF、图片在内的多种文档格式。

• 例如：从 PDF 文档（如简历）中提取候选人的学术信息（如 GPA），结果显示解析清晰、准确。

3. 复杂文档解析能力

• 通过测试，Document Inlining 能够解析含有表格、图表和多段文字的复杂文档，并将其成功转换为 LLMs 可理解的文本。

----------------------
Tue Dec 24 2024 20:20:53 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: AI确实是撞墙了

🙃

----------------------
Tue Dec 24 2024 13:16:52 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: ↩️ OCTAVE能够生成丰富多样的情绪语音，包括愤怒、兴奋、悲伤、平静等。

能捕捉微妙的语音变化，并通过不同情绪语调来增强自然交互感，表现复杂的情绪。

在理解文本语义的基础上生成语音，与当前主流语言模型（如GPT系列）的语言理解能力相当。

----------------------
Tue Dec 24 2024 11:07:16 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: Hume AI 推出全能文本与语音引擎 OCTAVE

OCTAVE能够从简单的文本描述或5秒语音录音中生成或者克隆逼真的语音和人格特质。

包括性别、年龄、口音、情绪语调及职业特定说话风格等。

能在毫秒级别完成语音生成，实现真正的实时对话，还允许实时动态调整生成内容。

OCTAVE结合了EVI 2模型以及 OpenAI 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的 NotebookLM 等系统的能力。

支持多个虚拟角色的语音生成，角色之间的语音风格、情绪和口音可以完全不同，可以生成完整的播客内容。

----------------------
Tue Dec 24 2024 11:06:44 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: 波士顿动力电动Atlas机器人

扮成圣诞老人🎅🏻

进行后空翻

我进行了慢放，穿个衣服还真是分辨不出来呢！

----------------------
Tue Dec 24 2024 10:01:36 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: ↩️ 当然你还可以用简单的乐器演奏初步节奏旋律，模型会给你生成更复杂的完整的润色后的音乐或者其他声音。

----------------------
Mon Dec 23 2024 21:57:51 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: 这个项目有意思哈哈哈

Sketch2Sound：通过文本+简单的声音模仿即可生成绘声绘色的音频内容

就是你可以通过一段文字+哼唱、敲打节奏、手势比划等来指导模型，它会根据你的指导生成完美音频

例如：你用嘴嗡嗡嗡的模仿赛车发动机声音，它就能给你生成标准的赛车声音😅

看演示↓

模型可以根据用户提供的声音手、手势（比如你自己模仿的某个声音的节奏或变化）来生成类似的音频。

不仅是节奏模仿，文本+手势比划也行，比如你画一个“从低到高”的线，表示声音变得越来越大。

可以模拟小水流慢慢变成激烈的瀑布声音。

----------------------
Mon Dec 23 2024 21:57:50 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: ↩️ 完整榜单：https://flageval.baai.ac.cn/#/leaderboard

----------------------
Mon Dec 23 2024 21:35:18 GMT+0800 (China Standard Time)

via Twitter @小互

5 天前

小互: 都说豆包强在产品体验，其实豆包的模型能力也悄悄追上来了

智源刚刚发布的大模型评测榜单，被豆包刷屏霸榜：

简单总结，豆包获得了大语言模型第一、视觉理解第二、文生图第二、文生视频第二，全都是数一数二。

除了专业评测全面开花，豆包在匿名用户投票的大语言模型竞技场也获得第二，仅次于OpenAI o1-mini。

智源研究院是国家科技部和北京市支持下的非营利性研究机构

权威性不用多说了，国家队、非商业评测，这成绩可不是花钱就能买到的。

今年初，CEO梁汝波批评字节对大模型迟钝、低效、标准低，当时业界很多人也没把豆包当回事。但就是在这次批评之后，字节不光大举招人、各路技术大牛加盟，AI基建上也毫不含糊。

最近有炒股小作文说字节AI 2024年资本支出800亿、明年1600亿。虽然字节发布了风险提示，但投入力度无疑是非常大的。

付出真有回报，豆包今年可以说脱胎换骨，模型能力肉眼可见地每天都在进步。

单拿文生图来说，别看各家模型都说自己效果好，真正解决汉字生成痛点的，也就豆包做到了。

像火山引擎谭待在最近一次采访里说的，“很多人说觉得豆包好用，而且关键的是豆包的进步速度很快，（模型学习的）斜率很高，这一点非常重要”。

----------------------
Mon Dec 23 2024 21:34:50 GMT+0800 (China Standard Time)

via Twitter @小互

Before

After