Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。

加载中
置顶
发表了博客
04/07 10:17

Advanced RAG 02:揭开 PDF 文档解析的神秘面纱

> **编者按:** 自 2023 年以来,RAG 已成为基于 LLM 的人工智能系统中应用最为广泛的架构之一。由于诸多产品的关键功能(如:领域智能问答、知识库构建等)严重依赖RAG,优化其性能、提高检索效率和准确性迫在眉睫,成为当前 RAG 相关研究的核心问题。如何高效准确地从PDF等非结构化数据中提取信息并加以利用,是其中一个亟待解决的重要问题。本文比较分析了多种解决方案的优缺点,着重探讨了这一问题的应对之策。 > > 文章首先... 展开更多

收藏 3
1
置顶
发表了博客
03/01 11:29

有道QAnything背后的故事---关于RAG的一点经验分享

近日,我们开源了有道自研的RAG(Retrieval Augmented Generation) 引擎QAnything。该引擎允许用户上传PDF、图片、Word、Excel、PowerPoint等多种格式的文档,并实现类似于ChatGPT的互动问答功能,其中每个答案都能精确追溯到相应的文档段落来源。QAnything 支持纯本地部署,上传文档数量无上限,问答准确率高。 QAnything自开源以来,迅速吸引了开发者社区的广泛关注,并很快登上了GitHub trending榜单。短短一个月内,下载次数... 展开更多

收藏 2
1
置顶
产品经理
发表了博客
03/01 10:00

开源代码生成模型 StarCoder 2 全新上线!

BigCode 正式推出 StarCoder2 —— 一系列新一代的开放源代码大语言模型 (LLMs)。这些模型全部基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。我们不仅公开了所有的模型和数据集,还包括了数据处理和训练代码的详细信息,详情请参阅 相关论文。 StarCoder2 是什么? StarCoder2 是一套面向代码的开放式大语言模型系列,提供 3 种规模的模型,分别包括 30 亿 (3B)、70 亿 (7B) 和 150 亿 (15B) 参数。特别地,... 展开更多

收藏 1
0
置顶
发表了博客
02/01 17:55

完蛋!我把AI喂吐了!

当我们用RAG构建一个知识库问答应用的时候,总是希望知识库里面灌的数据越多,问答的效果越好,事实真是如此吗?这篇文章给大家答案。 引言 在人工智能问答系统的发展中,RAG(Retrieval-Augmented Generation)技术以其独特的检索增强生成方式,为减少大模型幻觉开辟了新的天地。然而,在实际落地过程中有一个很大的疑问:RAG系统,数据越多效果越好吗?本文将深入分析数据量如何影响RAG系统的问答效果,并讨论如何优化这一系统... 展开更多

收藏 29
3
置顶
发表了博客
2023/11/14 16:04

CodeFuse开源ModelCache大模型语义缓存

CodeFuse 开源火热进行中!本次开源的是 ModelCache 大模型语义缓存,可大幅降低大模型应用的推理成本,提升用户体验。 CodeFuse-ModelCache 项目地址: https://github.com/codefuse-ai/CodeFuse-ModelCache 0 背景 在LLM技术浪潮席卷全球的背景下,大型模型快速增长的参数规模,对部署所需的推理资源带来了极大的挑战。为了提高大型模型的推理性能和效率,我们尝试从缓存角度解决当前大模型规模化服务部署的困境。类似传统应用... 展开更多

收藏 2
0
置顶
发表了博客
2023/08/22 17:18

走进大模型

1、应用大模型 AIGC 是基于大模型的,而大模型的基础是深度学习。上一篇文章对深度学习进行了初步介绍,首先是深度学习的神经元起源,引发了基于线性函数的模拟,又因为线性函数无法习得逻辑异或,因此引入了非线性的激活函数,再通过三层神经网络给出了MNIST手写数字识别的模型,接着又介绍了神经网络是如何通过数据与反向传播来学习与调整参数的,最后给出了神经网络的分层结构。 大模型的直观应用当然首先体现在包括ChatGPT... 展开更多

收藏 1
0
置顶
发表了博客
2022/06/29 11:15

揭秘百度智能测试在测试自动执行领域实践

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/fb8f06c7b18b41fabf52de3a9ba9030f~tplv-k3u1fbpfcp-zoom-1.image) 上一篇,介绍了测试活动测试输入、测试执行、测试分析、测试定位和测试评估五个步骤中测试输入智能化研究和实践,包含异常单测生成、接口用例生成、动作集生成等研究与实践。本章节重点介绍测试执行环节的智能化实践。测试执行是指将测试生成的用例集、数据集利用手动和自动化的方式对这些集合运行... 展开更多

收藏 0
0
置顶
发表了博客
2021/11/10 11:19

小数据,大前景 !美国智库最新报告:长期被忽略的小数据人工智能潜力不可估量

本文分享自百度开发者中心https://developer.baidu.com/article/detail.html?id=294220 编译 | 莓酊 编辑 | 青暮 2021年9月,美国网络安全和新兴技术局(Center for Security and Emerging Technology,简称CSET)发布了研究报告《小数据人工智能的巨大潜力》(Small Data’s Big AI Potential )。报告指明一点:长期被忽略的小数据(Small Data)人工智能潜力不可估量! 论文地址:https://cset.georgetown.edu/publication/s... 展开更多

收藏 2
0
置顶
发表了博客
2021/09/27 15:10

AI专家一席谈:复用算法、模型、案例,AI Gallery带你快速上手应用开发

摘要: 华为云社区邀请到了AI Gallery的负责人严博,听他谈一谈AI Gallery的设计初衷、经典案例以及未来规划。 本文分享自华为云社区《AI专家一席谈:复用算法、模型、案例,AI Gallery带你快速上手应用开发》,作者:华为云社区精选 。 你见过哪些有趣又实用的AI开发案例呢? 比如让静态照片上的人物开口唱歌,动漫角色也可以哦;再比如通过识别各类野生动物并分析种群结构,进而实施保护;又或者智能检测口罩佩戴的规范性,助... 展开更多

收藏 1
0
置顶
发表了博客
2021/09/09 14:59

国内数十位NLP大佬合作,综述预训练模型的过去、现在与未来

BERT 、GPT 等大规模预训练模型(PTM)近年来取得了巨大成功,成为人工智能领域的一个里程碑。由于复杂的预训练目标和巨大的模型参数,大规模 PTM 可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调,巨大参数中隐式编码的丰富知识可以使各种下游任务受益。现在 AI 社区的共识是采用 PTM 作为下游任务的主干,而不是从头开始学习模型。 本文中,来自清华大学计算机科学与技术系... 展开更多

收藏 1
0
置顶
发表了博客
2021/08/24 11:25

简单、快捷、低成本的超写实虚拟人平台来了……

本篇文章探讨数字虚拟人大爆发前的必要条件。 虽然数字虚拟人越来越受关注,如果要迎来大爆发,虚拟偶像甚至能部分替代频频爆雷的真人偶像地位,但是还需要新平台的出现。 因为,数字虚拟人从表面上看是一种娱乐,但本质上,数字虚拟人是新的网络应用服务,像社交、电商、外卖一样,需要强大专门的、专为虚拟人/虚拟偶像服务的平台。 新平台首先要做到:将打造超写实数字虚拟人的高门槛、高投入真正降下来,变成普及化服务。解决... 展开更多

收藏 2
0
置顶
发表了博客
2021/07/29 19:28

想聊天?自己搭建个聊天机器人吧!

本文分享自百度开发者中心想聊天?自己搭建个聊天机器人吧! 1聊天机器人的“前世今生” 在 1964 年至 1966 年间,麻省理工学院人工智能实验室的德裔美国计算机科学家约瑟夫·维森鲍姆(Joseph Weizenbaum)开发了历史上第一个聊天机器人 —— Eliza。 Eliza 的名字源于爱尔兰剧作家萧伯纳的戏剧作品《卖花女》中的角色,剧中出身贫寒的卖花女 Eliza 通过学习与上流社会沟通的方式,变成大使馆舞会上人人艳羡的“匈牙利王家公主... 展开更多

收藏 2
0
置顶
发表了博客
2021/07/27 18:54

一个Bot的自白

本文分享自百度开发者中心一个Bot的自白 我是谁?从哪里来?到哪里去? 作为一个bot,思考这样带有哲学色彩的问题,是否有点可笑?别笑,我是认真的。 1我是谁 我是bot,从亲缘上看,和机器人Robot 沾亲带故。 Robot是一种自动化的机器,这种机器具备一些与人或生物相似的智能能力,如感知能力、规划能力、动作能力和协同能力,是一种具有高度灵活性的自动化机器。但是,我实际上更多地被认为是chatbot,即聊天机器人,然而聊天... 展开更多

收藏 0
0
置顶
发表了博客
2021/07/26 18:10

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家,为参会的开发者和技术爱好者带来了最硬的行业技术干货,提供了一个难得的技术交流平台。 在本次会议上,腾讯云高级工程师高策进行了题为“公有云上构建云原生 AI 平台的探索与实践”的技术分享,介绍了 AI 类业务在公有云上的现状以及相应... 展开更多

收藏 0
0
置顶
发表了博客
2021/07/21 16:50

AI+脑机接口技术让“失语”瘫痪患者实现沟通自由

本文分享自百度开发者中心NEJM:全球首例,AI+脑机接口技术让“失语”瘫痪患者实现沟通自由 每年,全球有成千上万的人因中风、事故或疾病而丧失说话的能力。这让他们像一座座孤岛,默默承受着生命带来的沉重。如何帮助这些无法言语的瘫痪患者提高生活质量,是脑机接口领域一直希望攻克的课题。 近日,美国加州大学旧金山分校 Chang Lab 的研究人员发表论文称,他们首次用脑机接口帮助一位瘫痪超过 15 年的失语男子 BRAVO1 恢复了... 展开更多

收藏 0
0
置顶
程序员
发表了博客
2021/07/20 09:12

AI 预测蛋白质结构「GitHub 热点速览 v.21.29」

![](https://img2020.cnblogs.com/blog/759200/202107/759200-20210719205413593-1760797738.jpg) 作者:HelloGitHub-小鱼干 虽然 AI 领域藏龙卧虎,但是本周预测蛋白质结构的 alphafold 一开源出来就刷爆了朋友圈,虽然项目与我无关,但是看着科技进步能探寻到生命机理,吃瓜群众也有点小激动。虽然不能参与这个了不起的项目,但是我们可以手持编程书籍参与 Anime-Girls-Holding-Programming-Books 这个项目,通过图片让其他人... 展开更多

收藏 0
0
置顶
发表了博客
2021/07/13 11:12

下一代人工智能:逻辑理解?物理理解?

近日,由开放原子开源基金会与 Linux 基金会联合开源中国共同举办的首届“GOTC 全球开源技术峰会”在上海世博中心圆满落幕。作为LF AI & Data子基金会的理事会成员之一,OPPO数智工程系统资深技术专家Liam Zheng在GOTC「AI大数据与数字经济」分论坛发表了名为《下一代人工智能:逻辑理解?物理理解?》的演讲。本文通过对Liam的访谈,向大家分享他对下一代人工智能的看法与理解。 Q1:在本次GOTC分论坛上发表《下一代人工智能的... 展开更多

收藏 1
0
置顶
发表了博客
2021/07/02 14:49

不装了,我摊牌了!人像卡通化的功能我实现了

大家好,我是辰哥! 不装了,我摊牌了!辰哥实现了人像卡通化的功能,玩了绝对上瘾! 今天咱们来搞点有趣的事情:人像卡通化。本文的人像卡通化功能没有使用第三方接口功能,辰哥知道百度有提供接口,并且十来行代码就可以搞定,但是有使用次数限制,所以辰哥就通过搭建神经网络模型,借助数据集进行训练,最后得到模型。 这样得到的人像卡通化的功能可以顺便使用,并且还可以通过提高数据集的质量或者调整参数,让生成的卡通人... 展开更多

收藏 15
3
置顶
发表了博客
2021/06/26 14:12

教你用python搭建一个「生活常识解答」机器人

今天教大家如何用Python爬虫去搭建一个「**生活常识解答**」机器人。 思路:这个机器人主要是依托于“阿里达摩院发布的语言模型PLUG”,通过爬虫的方式,发送post请求(提问),然后返回json数据(回答) # 1、问答平台 这个「生活常识解答」机器人采用的是:阿里达摩院发布的语言模型PLUG(最近刚发布的,目前是测试阶段),地址链接如下: ```python https://nlp.aliyun.com/portal#/BigText_chinese ``` ![](https://img-blo... 展开更多

收藏 2
0
置顶
发表了博客
2021/06/25 10:28

代码开源|阿里云多媒体 AI 团队分享 CVPR2021 5 冠 1 亚背后的实战经验

![](https://oscimg.oschina.net/oscnet/up-cbd7300f6cde5e0ee7faf776659d48da01d.png) 6 月 19-25 日,备受全球瞩目的国际顶级视觉会议 **CVPR2021**(Computer Vision and Pattern Recognition,即国际机器视觉与模式识别)在线上举行,但依然人气爆棚,参会者的激情正如夏日般火热。 今年阿里云多媒体 AI 团队(由阿里云视频云和达摩院视觉团队组成,以下简称 MMAI)参加了大规模人体行为理解公开挑战赛 ActivityNet、当前最... 展开更多

收藏 1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
返回顶部
顶部