Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。

加载中
置顶
发表了博客
02/01 17:55

完蛋!我把AI喂吐了!

当我们用RAG构建一个知识库问答应用的时候,总是希望知识库里面灌的数据越多,问答的效果越好,事实真是如此吗?这篇文章给大家答案。 引言 在人工智能问答系统的发展中,RAG(Retrieval-Augmented Generation)技术以其独特的检索增强生成方式,为减少大模型幻觉开辟了新的天地。然而,在实际落地过程中有一个很大的疑问:RAG系统,数据越多效果越好吗?本文将深入分析数据量如何影响RAG系统的问答效果,并讨论如何优化这一系统... 展开更多

收藏 29
3
置顶
发表了博客
2023/08/22 17:18

走进大模型

1、应用大模型 AIGC 是基于大模型的,而大模型的基础是深度学习。上一篇文章对深度学习进行了初步介绍,首先是深度学习的神经元起源,引发了基于线性函数的模拟,又因为线性函数无法习得逻辑异或,因此引入了非线性的激活函数,再通过三层神经网络给出了MNIST手写数字识别的模型,接着又介绍了神经网络是如何通过数据与反向传播来学习与调整参数的,最后给出了神经网络的分层结构。 大模型的直观应用当然首先体现在包括ChatGPT... 展开更多

收藏 1
0
置顶
发表了博客
2021/10/08 17:27

机器人自主学习新进展,百度飞桨发布四足机器人控制强化学习新算法

近日,百度强化学习团队发布了四足机器人控制上的最新研究进展,采用自进化的步态生成器与强化学习联合训练,从零开始学习并掌握多种运动步态,一套算法解决包括独木桥、跳隔板、钻洞穴等多种场景控制难题。百度已开源全部仿真环境和训练代码,并公开相关论文。 足式机器人的控制一直是机器人控制领域的研究热点,因为相比于常见的轮式机器人,足式机器人可以像人类一样灵活地跨越障碍,极大地扩展机器人的活动边界。波士顿动力... 展开更多

收藏 1
0
置顶
发表了博客
2021/07/19 10:34

带你了解两种线性规划的方法:稀疏矩阵存储和预处理

摘要:本文为大家带来线性规划的稀疏矩阵存储和数据预处理。 本文分享自华为云社区《线性规划--稀疏矩阵》,原文作者:Bale10 。 随着AI时代的发展,线性规划问题的规模越来越大是一种必然。面对大规模的线性规划问题,如何存储数据,使得存储空间节省以避免资源的浪费,并且使得数据的查询、修改和增删方便快捷,是一个急需解决的问题。本文为大家带来线性规划的稀疏矩阵存储和数据预处理。 稀疏矩阵 LP的规模通常是由约束矩阵... 展开更多

收藏 2
0
置顶
发表了博客
2021/07/02 15:26

你斗地主打得过AI吗?卡牌游戏的强化学习工具包RLCard来了!

**项目名称:** RLCard **项目作者:** Daochen Zha **开源许可协议:** MIT **项目地址:[https://gitee.com/daochenzha/rlcard](https://gitee.com/daochenzha/rlcard)** ### 项目简介 RLCard 是一款卡牌游戏强化学习 (Reinforcement Learning, RL) 的工具包。 它支持多种卡牌游戏环境,具有易于使用的接口,以用于实现各种强化学习和搜索算法。 RLCard 的目标是架起强化学习和非完全信息游戏之间的桥梁。 RLCard 由 DATA Lab... 展开更多

收藏 1
0
置顶
发表了博客
2021/05/26 17:23

分钟级在线深度学习在手淘信息流排序模型中的探索与实践

天下武功,无坚不摧,唯快不破。近些年,深度学习如玄铁重剑在推荐系统中无坚不摧,给搜索/推荐/广告等业务场景带来巨大的收益,而在线学习则如唯快不破的独孤九剑,也在推荐算法中以快制胜,创建巨大的业务价值。 前些年流行的FTRL等在线学习算法在深度学习中已不太适用,为此信息流推荐算法团队从2019年开始探索在线学习的下一式——在线深度学习(Online Deep Learning, ODL),在首页商品信息流全量小时级在线深度学习,使得... 展开更多

收藏 1
0
置顶
发表了博客
2021/04/20 16:39

⼤规模短⽂本聚类的设计和实践

![图片](https://oscimg.oschina.net/oscnet/up-a86c3538fe6e9a9bb8c713ad8f8fa78f524.png) 导读:大规模短文本聚类系统,旨在精准高效地将海量搜索query进行总结归纳,凝练成为含义内聚表达清晰的“需求”,不仅可以更好地满足用户需求,还能找到内容满足的长短版。**如何保证聚类系统的高准确性,如何提高聚类系统的运行效率,是我们团队的工作重点。**我们通过**多级拆分、精准匹配语义相似度、误差修正**等手段,逐步提升了... 展开更多

收藏 3
1
置顶
发表了博客
2021/05/20 12:00

浅析决策树的生长和剪枝

摘要:决策树剪枝策略:先剪枝、后剪枝,用于解决过拟合问题。 本文分享自华为云社区《浅析决策树的生长和剪枝》,原文作者:chengxiaoli。 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测... 展开更多

收藏 0
0
置顶
发表了博客
2021/05/20 11:15

OCR性能优化:从认识BiLSTM网络结构开始

摘要: 想要对OCR进行性能优化,首先要了解清楚待优化的OCR网络的结构,本文从动机的角度来推演下基于Seq2Seq结构的OCR网络是如何一步步搭建起来的。 本文分享自华为云社区《OCR性能优化系列(一):BiLSTM网络结构概览》,原文作者:HW007。 OCR是指对图片中的印刷体文字进行识别,最近在做OCR模型的性能优化,用 Cuda C 将基于TensorFlow 编写的OCR网络重写了一遍,最终做到了5倍的性能提升。通过这次优化工作对OCR网络的通用... 展开更多

收藏 0
0
置顶
发表了博客
2021/05/11 15:40

详解百度富媒体检索比对系统的关键技术

![图片](https://img-blog.csdnimg.cn/img_convert/c22fbb28dd3d44cf7629c7f51864b4a5.png) **导读**:百度富媒体检索比对系统是一套基于Ann(approximate nearest neighbor)检索和内容特征比对技术,旨在提供针对图像、音频、视频等多媒体资源的相似检索系统。包括离线训练、建库,在线特征提取、检索。目前百度富媒体检索比对系统除了承接了百度FEED所有视频、图像的反作弊、下发去重以及关联推荐和黄反等业务,另外还支持了包... 展开更多

收藏 0
0
置顶
发表了博客
2021/03/08 11:02

手把手教你集成华为机器学习服务(ML Kit)人脸检测功能

当给自己拍一张美美的自拍照时,却发现照片中自己的脸不够瘦、眼睛不够大、表情不够丰富可爱…如果此时能够一键美颜瘦脸并且添加可爱的贴纸的话,是不是很棒? 当家里的小孩观看iPad屏幕时间过长或者眼睛离屏幕距离过近,家长没能时刻关注到时,如果有一款可以实现parent control的应用,那是不是很方便?面对以上问题,华为机器学习服务(ML Kit)的人脸检测功能轻松帮你搞定! 华为机器学习服务的人脸检测功能可以对人脸多达8... 展开更多

收藏 1
1
置顶
程序员
发表了博客
2021/02/24 10:15

KNN 算法-实战篇-如何识别手写数字

上篇文章介绍了[KNN 算法的原理](https://my.oschina.net/codeshell/blog/4958897),今天来介绍如何**使用KNN 算法识别手写数字**? ### 1,手写数字数据集 手写数字数据集是一个用于图像处理的数据集,这些数据描绘了 **[0, 9]** 的数字,我们可以用**KNN 算法**来识别这些数字。 [MNIST](http://yann.lecun.com/exdb/mnist/) 是完整的手写数字数据集,其中包含了60000 个训练样本和10000 个测试样本。 **sklearn** 中也有一个... 展开更多

收藏 0
0
置顶
发表了博客
2021/02/01 12:18

机器学习基础 - 偏度、正态化以及 Box-Cox 变换

1引言 对于数据挖掘、机器学习中的很多算法,往往会假设变量服从正态分布。例如,在许多统计技术中,假定误差是正态分布的。这个假设使得能够构建置信区间并进行假设检验。因此,在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布,如果偏离就通过一定变换将该数据的分布正态化。 一般来说,数据的直方图如果单峰并近似正态但看上去又有些扭曲,可以考虑正态化。比如整体看上去还是一个山峰,但可能峰顶很尖或... 展开更多

收藏 0
0
置顶
发表了博客
2021/01/29 22:51

经典算法回顾 - 快速 get 核-PCA 的要点

引言 在机器学习中,将数据点按行摆放,所有数据点就构成一个矩阵(也可以看成表格、二维数组)。矩阵的一行对应一个数据,矩阵的一列对应一个特征,因此也称为特征矩阵。如下图所示,用矩阵 表示一个具有 个数据和 个特征的数据集, 对于已经零中心化(即 )的 个数据 ( ),其中每个数据都有 个特征,即 。而主成分分析(PCA)可以看作一种对协方差矩阵进行对角化的方法。那么有必要看一下协方差矩阵的定义。 上面矩阵的元素... 展开更多

收藏 0
0
置顶
发表了博客
2020/12/31 08:45

理解高斯混合模型中期望最大化的M-Step

在本篇文章中将解释高斯混合模型(GMM)的关键部分背后的数学原理,即期望最大化(EM),以及如何将这些概念转换为Python。这个故事的重点是EM或M-Step。 注意:这不是有关端到端GMM算法的全面说明。要进行更深入的研究,请参阅我们以前翻译的文章。 期望最大化 GMM中有一系列步骤,通常称为“期望最大化”,简称“ EM”。要解释如何理解EM数学,请首先考虑您可能要处理的模型。 样本由图形上的点表示。这些点形成一些不同的斑点... 展开更多

收藏 0
0
置顶
发表了博客
2020/12/24 13:00

基于元学习和人机协同的端到端对话模型

Dialog Studio 是达摩院NLP-小蜜Conversational AI团队研发的面向开发者的智能对话开发平台,目前已经在云(多省市政务12345热线、中移动10086、金融、医疗等)、钉钉(通过钉钉官方智能工作助理服务几百万企业)、集团内(淘宝优酷等十几个BU)、淘宝天猫商家以及Lazada东南亚6国大规模应用。 为了应对疫情,基于 Dialog Studio 紧急开发的智能疫情外呼机器人,截止3月底,总共呼出了1600多万通电话,帮助23个省筛查出了18万健... 展开更多

收藏 1
0
置顶
发表了博客
2020/09/19 10:08

基于 OpenCV 的图像分割

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达 本期我们将一起来实现一个有趣的问题 -图像分割的算法。 本文的示例代码可以在以下链接中找到: https://github.com/kiteco/kite-python-blog-post-code/tree/master/image-segmentation 作为我们的例子,我们将对KESM显微镜获取的图像进行分割以获取其中的血管组织。 数据科学家和医学研究人员可以将这种方法作为模板,用于更加复杂的图像的数据集(如... 展开更多

收藏 0
0
置顶
发表了博客
2020/09/15 09:01

深入SVM:支持向量机核的作用是什么

您可能听说过所谓的内核技巧,这是一种支持向量机(SVMs)处理非线性数据的小技巧。这个想法是将数据映射到一个高维空间,在这个空间中数据变成线性,然后应用一个简单的线性支持向量机。听起来很复杂,但操作起来确实如此。尽管理解该算法的工作原理可能比较困难,但理解它们试图实现的目标却相当容易。往下读,自然就会明白了! 当数据是线性可分的:线性支持向量机 支持向量机是如何工作的呢?支持向量机可用于分类和回归任务,但... 展开更多

收藏 2
1
置顶
发表了博客
2020/02/27 15:15

用飞桨检测谣言,新技能get!

【飞桨开发者说】文瑞洁,中科院信工所工程师,主要研究领域:深度学习、自然语言处理。 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu 本实验代码已在AI Studio公开,访问链接进入: https://aistudio.baidu.com/aistudio/projectdetail/263255 社交媒...... 展开更多

收藏 0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
返回顶部
顶部