小互: 你主动去关注一个人,没人强迫你没有诱导你,是你主动打开手机APP,搜索人名、点的关注。
然后他说你关注的人是个擦边人
给你自动取消了关注
这就相当于你的自由意志被剥夺了,变相的告诉你
你这个人也是没什么主见、没什么脑子、没什么智商
没...
----------------------
Wed Dec 25 2024 14:20:30 GMT+0800 (China Standard Time)
via Twitter @小互
然后他说你关注的人是个擦边人
给你自动取消了关注
这就相当于你的自由意志被剥夺了,变相的告诉你
你这个人也是没什么主见、没什么脑子、没什么智商
没...
----------------------
Wed Dec 25 2024 14:20:30 GMT+0800 (China Standard Time)
via Twitter @小互
小互: 一个视频告诉你什么是强去学习
🫢
----------------------
Wed Dec 25 2024 12:10:19 GMT+0800 (China Standard Time)
via Twitter @小互
🫢
----------------------
Wed Dec 25 2024 12:10:19 GMT+0800 (China Standard Time)
via Twitter @小互
生成长文本(如故事或论文)时,LCM 更连贯、更一致,适合复杂逻辑任务。
详细介绍:https://xiaohu.ai/p/16119
论文:https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space
----------------------
Wed Dec 25 2024 11:18:44 GMT+0800 (China Standard Time)
via Twitter @小互
Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)
让模型更像人类思考,先从大框架入手,再填充细节。
与传统语言模型(比如GPT)逐字生成不同
LCM基于“概念”(concept)进行语言处理,把每个句子看作一个“概念”,在句子级别进行推理和生成,而不是在token级别操作。
在LCM中,一个概念通常对应一个完整的句子,它是语言和模态无关的高级语义表示。
让模型从更高的抽象层次进行推理和生成,超越现有模型局限,处理更复杂的任务。
- 思考方式像人类,从“概念”出发,逻辑更清晰。
- 能处理多语言、多模态任务,直接支持文本、语音甚至手语。支持200种语言的文本输入。76种语言的语音输入。
- 适合长文本处理,速度快,生成内容更连贯。
- 具备强大的零样本泛化能力,不用额外训练也能完成新任务。
----------------------
Wed Dec 25 2024 11:17:01 GMT+0800 (China Standard Time)
via Twitter @小互
小互: ↩️ 生物学问题解决
----------------------
Wed Dec 25 2024 10:57:41 GMT+0800 (China Standard Time)
via Twitter @小互
----------------------
Wed Dec 25 2024 10:57:41 GMT+0800 (China Standard Time)
via Twitter @小互
----------------------
Wed Dec 25 2024 10:57:40 GMT+0800 (China Standard Time)
via Twitter @小互
小互: 阿里巴巴推出QVQ-72B
一个基于Qwen2-VL-72B的新型多模态推理模型,结合了语言和视觉能力,能进行复杂问题的推理和分析。
QVQ-72B在视觉推理、数学和科学问题上表现出显著提升,特别是在多步推理任务中。
可在物理问题中结合文字和视觉信息推导因果关系。
在数学推理任务(如代数、微积分)中,模型通过分步推理显著减少错误率。
在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。
在精准识别图片中的细节,例如物体位置、颜色、空间关系,以及复杂情景。
----------------------
Wed Dec 25 2024 10:57:38 GMT+0800 (China Standard Time)
via Twitter @小互
一个基于Qwen2-VL-72B的新型多模态推理模型,结合了语言和视觉能力,能进行复杂问题的推理和分析。
QVQ-72B在视觉推理、数学和科学问题上表现出显著提升,特别是在多步推理任务中。
可在物理问题中结合文字和视觉信息推导因果关系。
在数学推理任务(如代数、微积分)中,模型通过分步推理显著减少错误率。
在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。
在精准识别图片中的细节,例如物体位置、颜色、空间关系,以及复杂情景。
----------------------
Wed Dec 25 2024 10:57:38 GMT+0800 (China Standard Time)
via Twitter @小互
小互: 小熊猫 Recraft AI
更新了60 种新的图像风格
🫡
----------------------
Tue Dec 24 2024 23:29:06 GMT+0800 (China Standard Time)
via Twitter @小互
更新了60 种新的图像风格
🫡
----------------------
Tue Dec 24 2024 23:29:06 GMT+0800 (China Standard Time)
via Twitter @小互
这是一种复合AI系统,能够将非结构化的文档(如PDF、截图、图像等)转化为LLM(大语言模型)可理解的结构化文本,变成能直接用于聊天机器人或者AI模型的文字内容。
它能自动识别和解析文档中的多种内容,包括文本、表格、图表以及嵌套布局。
简单易用,无需复杂的设置
兼容OpenAI API ,在 Fireworks 中,启用Document Inlining功能仅需在现有的 API 中添加一行代码即可实现。
1. 高质量输出
• Document Inlining 提供的文本质量能够匹配甚至超越传统的文本型 LLMs 输出,尤其是在推理和生成任务中表现优异。
• 相比 VLMs,LLMs 使用经转换的文本后,生成更准确、更专业的结果。
2. 多种文档格式支持
• 成功测试了包括 PDF、图片在内的多种文档格式。
• 例如:从 PDF 文档(如简历)中提取候选人的学术信息(如 GPA),结果显示解析清晰、准确。
3. 复杂文档解析能力
• 通过测试,Document Inlining 能够解析含有表格、图表和多段文字的复杂文档,并将其成功转换为 LLMs 可理解的文本。
----------------------
Tue Dec 24 2024 20:20:53 GMT+0800 (China Standard Time)
via Twitter @小互
🙃
----------------------
Tue Dec 24 2024 13:16:52 GMT+0800 (China Standard Time)
via Twitter @小互
能捕捉微妙的语音变化,并通过不同情绪语调来增强自然交互感,表现复杂的情绪。
在理解文本语义的基础上生成语音,与当前主流语言模型(如GPT系列)的语言理解能力相当。
----------------------
Tue Dec 24 2024 11:07:16 GMT+0800 (China Standard Time)
via Twitter @小互
小互: Hume AI 推出全能文本与语音引擎 OCTAVE
OCTAVE能够从简单的文本描述或5秒语音录音中生成或者克隆逼真的语音和人格特质。
包括性别、年龄、口音、情绪语调及职业特定说话风格等。
能在毫秒级别完成语音生成,实现真正的实时对话,还允许实时动态调整生成内容。
OCTAVE结合了EVI 2模型以及 OpenAI 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的 NotebookLM 等系统的能力。
支持多个虚拟角色的语音生成,角色之间的语音风格、情绪和口音可以完全不同,可以生成完整的播客内容。
----------------------
Tue Dec 24 2024 11:06:44 GMT+0800 (China Standard Time)
via Twitter @小互
OCTAVE能够从简单的文本描述或5秒语音录音中生成或者克隆逼真的语音和人格特质。
包括性别、年龄、口音、情绪语调及职业特定说话风格等。
能在毫秒级别完成语音生成,实现真正的实时对话,还允许实时动态调整生成内容。
OCTAVE结合了EVI 2模型以及 OpenAI 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的 NotebookLM 等系统的能力。
支持多个虚拟角色的语音生成,角色之间的语音风格、情绪和口音可以完全不同,可以生成完整的播客内容。
----------------------
Tue Dec 24 2024 11:06:44 GMT+0800 (China Standard Time)
via Twitter @小互
小互: 波士顿动力电动Atlas机器人
扮成圣诞老人🎅🏻
进行后空翻
我进行了慢放,穿个衣服还真是分辨不出来呢!
----------------------
Tue Dec 24 2024 10:01:36 GMT+0800 (China Standard Time)
via Twitter @小互
扮成圣诞老人🎅🏻
进行后空翻
我进行了慢放,穿个衣服还真是分辨不出来呢!
----------------------
Tue Dec 24 2024 10:01:36 GMT+0800 (China Standard Time)
via Twitter @小互
小互: ↩️ 当然你还可以用简单的乐器演奏初步节奏旋律,模型会给你生成更复杂的完整的润色后的音乐或者其他声音。
----------------------
Mon Dec 23 2024 21:57:51 GMT+0800 (China Standard Time)
via Twitter @小互
----------------------
Mon Dec 23 2024 21:57:51 GMT+0800 (China Standard Time)
via Twitter @小互
小互: 这个项目有意思 哈哈哈
Sketch2Sound:通过文本+简单的声音模仿即可生成绘声绘色的音频内容
就是你可以通过一段文字+哼唱、敲打节奏、手势比划等来指导模型,它会根据你的指导生成完美音频
例如:你用嘴嗡嗡嗡的模仿赛车发动机声音,它就能给你生成标准的赛车声音😅
看演示↓
模型可以根据用户提供的声音手、手势(比如你自己模仿的某个声音的节奏或变化)来生成类似的音频。
不仅是节奏模仿,文本+手势比划也行,比如你画一个“从低到高”的线,表示声音变得越来越大。
可以模拟小水流慢慢变成激烈的瀑布声音。
----------------------
Mon Dec 23 2024 21:57:50 GMT+0800 (China Standard Time)
via Twitter @小互
Sketch2Sound:通过文本+简单的声音模仿即可生成绘声绘色的音频内容
就是你可以通过一段文字+哼唱、敲打节奏、手势比划等来指导模型,它会根据你的指导生成完美音频
例如:你用嘴嗡嗡嗡的模仿赛车发动机声音,它就能给你生成标准的赛车声音😅
看演示↓
模型可以根据用户提供的声音手、手势(比如你自己模仿的某个声音的节奏或变化)来生成类似的音频。
不仅是节奏模仿,文本+手势比划也行,比如你画一个“从低到高”的线,表示声音变得越来越大。
可以模拟小水流慢慢变成激烈的瀑布声音。
----------------------
Mon Dec 23 2024 21:57:50 GMT+0800 (China Standard Time)
via Twitter @小互
----------------------
Mon Dec 23 2024 21:35:18 GMT+0800 (China Standard Time)
via Twitter @小互