主流AI状态页通知 | 汇集全网ChatGPT/AI新闻 #AI #ChatGPT
小互: 你主动去关注一个人,没人强迫你没有诱导你,是你主动打开手机APP,搜索人名、点的关注。

然后他说你关注的人是个擦边人

给你自动取消了关注

这就相当于你的自由意志被剥夺了,变相的告诉你

你这个人也是没什么主见、没什么脑子、没什么智商

没...

----------------------
Wed Dec 25 2024 14:20:30 GMT+0800 (China Standard Time)

via Twitter @小互
小互: 一个视频告诉你什么是强去学习

🫢

----------------------
Wed Dec 25 2024 12:10:19 GMT+0800 (China Standard Time)

via Twitter @小互
小互: ↩️ 与传统模型对比:LCM 在生成长文本和多语言任务中优于传统模型(如 GPT 和轻量化 LLaMA),尤其在逻辑一致性和跨语言支持上表现突出。

生成长文本(如故事或论文)时,LCM 更连贯、更一致,适合复杂逻辑任务。

详细介绍:https://xiaohu.ai/p/16119
论文:https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space

----------------------
Wed Dec 25 2024 11:18:44 GMT+0800 (China Standard Time)

via Twitter @小互
小互: 重磅💥

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)

让模型更像人类思考,先从大框架入手,再填充细节。

与传统语言模型(比如GPT)逐字生成不同

LCM基于“概念”(concept)进行语言处理,把每个句子看作一个“概念”,在句子级别进行推理和生成,而不是在token级别操作。

在LCM中,一个概念通常对应一个完整的句子,它是语言和模态无关的高级语义表示。

让模型从更高的抽象层次进行推理和生成,超越现有模型局限,处理更复杂的任务。

- 思考方式像人类,从“概念”出发,逻辑更清晰。

- 能处理多语言、多模态任务,直接支持文本、语音甚至手语。支持200种语言的文本输入。76种语言的语音输入。

- 适合长文本处理,速度快,生成内容更连贯。

- 具备强大的零样本泛化能力,不用额外训练也能完成新任务。

----------------------
Wed Dec 25 2024 11:17:01 GMT+0800 (China Standard Time)

via Twitter @小互
小互: ↩️ 生物学问题解决

----------------------
Wed Dec 25 2024 10:57:41 GMT+0800 (China Standard Time)

via Twitter @小互
GfnMDmnbIAEwoMh.jpg
651.4 KB
小互: ↩️ 化学问题解决

----------------------
Wed Dec 25 2024 10:57:40 GMT+0800 (China Standard Time)

via Twitter @小互
小互: 阿里巴巴推出QVQ-72B

一个基于Qwen2-VL-72B的新型多模态推理模型,结合了语言和视觉能力,能进行复杂问题的推理和分析。

QVQ-72B在视觉推理、数学和科学问题上表现出显著提升,特别是在多步推理任务中。

可在物理问题中结合文字和视觉信息推导因果关系。

在数学推理任务(如代数、微积分)中,模型通过分步推理显著减少错误率。

在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。

在精准识别图片中的细节,例如物体位置、颜色、空间关系,以及复杂情景。

----------------------
Wed Dec 25 2024 10:57:38 GMT+0800 (China Standard Time)

via Twitter @小互
GfnLPS4a0AAEprm.jpg
172.6 KB
小互: 小熊猫 Recraft AI

更新了60 种新的图像风格

🫡

----------------------
Tue Dec 24 2024 23:29:06 GMT+0800 (China Standard Time)

via Twitter @小互
小互: Fireworks AI推出了一种叫“Document Inlining”功能

这是一种复合AI系统,能够将非结构化的文档(如PDF、截图、图像等)转化为LLM(大语言模型)可理解的结构化文本,变成能直接用于聊天机器人或者AI模型的文字内容。

它能自动识别和解析文档中的多种内容,包括文本、表格、图表以及嵌套布局。

简单易用,无需复杂的设置

兼容OpenAI API ,在 Fireworks 中,启用Document Inlining功能仅需在现有的 API 中添加一行代码即可实现。

1. 高质量输出

• Document Inlining 提供的文本质量能够匹配甚至超越传统的文本型 LLMs 输出,尤其是在推理和生成任务中表现优异。

• 相比 VLMs,LLMs 使用经转换的文本后,生成更准确、更专业的结果。

2. 多种文档格式支持

• 成功测试了包括 PDF、图片在内的多种文档格式。

• 例如:从 PDF 文档(如简历)中提取候选人的学术信息(如 GPA),结果显示解析清晰、准确。

3. 复杂文档解析能力

• 通过测试,Document Inlining 能够解析含有表格、图表和多段文字的复杂文档,并将其成功转换为 LLMs 可理解的文本。

----------------------
Tue Dec 24 2024 20:20:53 GMT+0800 (China Standard Time)

via Twitter @小互
小互: AI确实是撞墙了

🙃

----------------------
Tue Dec 24 2024 13:16:52 GMT+0800 (China Standard Time)

via Twitter @小互
小互: ↩️ OCTAVE能够生成丰富多样的情绪语音,包括愤怒、兴奋、悲伤、平静等。

能捕捉微妙的语音变化,并通过不同情绪语调来增强自然交互感,表现复杂的情绪。

在理解文本语义的基础上生成语音,与当前主流语言模型(如GPT系列)的语言理解能力相当。

----------------------
Tue Dec 24 2024 11:07:16 GMT+0800 (China Standard Time)

via Twitter @小互
小互: Hume AI 推出全能文本与语音引擎 OCTAVE

OCTAVE能够从简单的文本描述或5秒语音录音中生成或者克隆逼真的语音和人格特质。

包括性别、年龄、口音、情绪语调及职业特定说话风格等。

能在毫秒级别完成语音生成,实现真正的实时对话,还允许实时动态调整生成内容。

OCTAVE结合了EVI 2模型以及 OpenAI 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的 NotebookLM 等系统的能力。

支持多个虚拟角色的语音生成,角色之间的语音风格、情绪和口音可以完全不同,可以生成完整的播客内容。

----------------------
Tue Dec 24 2024 11:06:44 GMT+0800 (China Standard Time)

via Twitter @小互
小互: 波士顿动力电动Atlas机器人

扮成圣诞老人🎅🏻

进行后空翻

我进行了慢放,穿个衣服还真是分辨不出来呢!

----------------------
Tue Dec 24 2024 10:01:36 GMT+0800 (China Standard Time)

via Twitter @小互
小互: ↩️ 当然你还可以用简单的乐器演奏初步节奏旋律,模型会给你生成更复杂的完整的润色后的音乐或者其他声音。

----------------------
Mon Dec 23 2024 21:57:51 GMT+0800 (China Standard Time)

via Twitter @小互
小互: 这个项目有意思 哈哈哈

Sketch2Sound:通过文本+简单的声音模仿即可生成绘声绘色的音频内容

就是你可以通过一段文字+哼唱、敲打节奏、手势比划等来指导模型,它会根据你的指导生成完美音频

例如:你用嘴嗡嗡嗡的模仿赛车发动机声音,它就能给你生成标准的赛车声音😅

看演示↓

模型可以根据用户提供的声音手、手势(比如你自己模仿的某个声音的节奏或变化)来生成类似的音频。

不仅是节奏模仿,文本+手势比划也行,比如你画一个“从低到高”的线,表示声音变得越来越大。

可以模拟小水流慢慢变成激烈的瀑布声音。

----------------------
Mon Dec 23 2024 21:57:50 GMT+0800 (China Standard Time)

via Twitter @小互
小互: ↩️ 完整榜单:https://flageval.baai.ac.cn/#/leaderboard

----------------------
Mon Dec 23 2024 21:35:18 GMT+0800 (China Standard Time)

via Twitter @小互
小互: 都说豆包强在产品体验,其实豆包的模型能力也悄悄追上来了

智源刚刚发布的大模型评测榜单,被豆包刷屏霸榜:

简单总结,豆包获得了大语言模型第一、视觉理解第二、文生图第二、文生视频第二,全都是数一数二。

除了专业评测全面开花,豆包在匿名用户投票的大语言模型竞技场也获得第二,仅次于OpenAI o1-mini。

智源研究院是国家科技部和北京市支持下的非营利性研究机构

权威性不用多说了,国家队、非商业评测,这成绩可不是花钱就能买到的。

今年初,CEO梁汝波批评字节对大模型迟钝、低效、标准低,当时业界很多人也没把豆包当回事。但就是在这次批评之后,字节不光大举招人、各路技术大牛加盟,AI基建上也毫不含糊。

最近有炒股小作文说字节AI 2024年资本支出800亿、明年1600亿。虽然字节发布了风险提示,但投入力度无疑是非常大的。

付出真有回报,豆包今年可以说脱胎换骨,模型能力肉眼可见地每天都在进步。

单拿文生图来说,别看各家模型都说自己效果好,真正解决汉字生成痛点的,也就豆包做到了。

像火山引擎谭待在最近一次采访里说的,“很多人说觉得豆包好用,而且关键的是豆包的进步速度很快,(模型学习的)斜率很高,这一点非常重要”。

----------------------
Mon Dec 23 2024 21:34:50 GMT+0800 (China Standard Time)

via Twitter @小互
Back to Top