开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
博客专区 - 开源中国社区

精彩阅读

  • 最新推荐

  • 今日热门

  • 本周热门

  • 每日一博

  • 最新文章

2048小游戏ai设计

最近突然想到一个之前很火的游戏
大巴0007 发布于 5小时前 阅读 46 评论 3 点赞 1

K-NN算法与K-Means算法的原理与区别(附带源码示例)

  KNN算法 K-Means算法 目标  确定某个元素所属的分类 将已存在的一系列元素分类 算法类别 监督的分类算法 无监督的聚类算法 数据区别 训练数据中,有明确的标签。 如:一个数据集中有几万张图片,都被打上了“苹果”的标签,另外还有几万张图片,被打上了“香蕉”的标签,数据是完全正确,知道结果的数据 几十万张各种各样水果的图片放一起,杂乱无章。 训练过程 无需训练(或者没有很明显的训练过程),将数据与训练数据直接对比 需要前期训练 K的含义 K指的是相邻数据的数目。 举个例子,假设某张图片相邻的20张图片中,有18张是打着“苹果”标签的数据,有1张是“香蕉”,1张是“樱桃”,那么这张图片的标签也是“苹果”。 那么在这个例子中,K就是20,20张相邻的图片。 K指的是分类的数目,人为设定好分为K个簇。 对比结果 K值不变的情况下,每次结果都是一样的。 K值确定后每次结果可能不同。   1、KNN算法,本质是一种数据统计的方法。 1.1  欧几里得距离 欧几里得距离通俗来讲就是高中数学中直角坐标系求两点间的距离,二维公式:|x| = √( x2 + y2 ) 1.2  距离计算 假设我们现在要对某张图片进行识别,大概是个怎样的思路呢(仅供理解,实际开发中更复杂)?...
NateHuang 发布于 23小时前 阅读 190 打赏 3

更新之后微软机器人框架不太会用?所有的改动都在这一篇

文章作者:Pablo Gomez Guerrero 原文链接:《[How to Work with Microsoft Bot Framework Since Last Update 》](https://chatbotsmagazine.com/how-to-work-with-microsoft-bot-framework-since-last-update-a748fd3bbec8) 翻译:[一熊翻译组](http://translation.bearychat.com) Mason ![输入图片说明](https://static.oschina.net/uploads/img/201801/18111158_hxfD.png "在这里输入图片标题") 如果你有使用微软机器人框架的话,你很有可能已经看见提示你迁移机器人的提示了。你也可能会发现创建机器人的网页似乎和之前不大一样,有一些东西也不见了。尽管更新前已创建机器人的「设定」与「测试」部分在[dev.botframework.com](https://dev.botframework.com/)上仍旧可用。然而,如果你创建一个新的机器人,设定部分已经有了一定的改动。 没准就算在已创建的机器人设定中,如果它们还没有被迁移,网页看起来也会很奇怪。接下来,就让我来告诉你这是怎么一回事: # 1 .开始 创建机器人的方式有了一点改变。现在微软会重新定向至 Azure 并强制发送一个订阅至 Azure 以生成一个机器人服务。Azure 会给你一个 170 欧元的贷记额度用来做订阅,至少我的情况是这样。 ![重定向...
BearyChat 发布于 6天前 阅读 124

开源自动机器学习(AutoML)框架盘点

自从Google推出了能自动设计神经网络自我进化的AutoML论文后,我便开始持续关注这个领域 到目前为止,从网上显示的信息来看,深度学习这块大多没有实现的源码,还出于理论和论文阶段,而机器学习领域则产生了一些在一定程度上可以自动化的工具。 目前,在github上能实现一定程度auto ml的主要有如下几类: 1.tpot     https://github.com/rhiever/tpot     工作流程:               1.分析数据集的多项式特征(线性回归等);     2.分析数据集的主成份(PCA);     3.将多项式特征与主成份分析结果合并起来;     4.使用GP算法反复迭代,选取交叉熵最小的组合;     5.使用随机森林对结果分类;     输出结果:     最佳模型组合及其参数(python文件)和最佳得分     优劣:     tpot在数据治理阶段采用了PCA主成份分析,在模型选择过程中可以使用组合方法,分析的过程比起其他工具更科学,并能直接生成一个写好参数的python文件,但输出可参考的结果较少,不利于进一步分析。 2.auto_ml     https://github.com/ClimbsRocks/auto_ml     工作流程:     1.首先自动将所有字段归一化;    2.自动尝试选用tree-...
邵可佳 发布于 1周前 阅读 177

火车票抢票代码公开揭秘

火车票抢票代码公开揭秘
闵开慧 发布于 2周前 阅读 7510 评论 55 点赞 14

将训练图片转换成tfrecord格式

**如果需要使用tensorflow构建自己的图片分类模型,那么最好将图片转换成tfrecord格式的文件。** ### 具体步骤 #### 1.图片准备 ①将图片放置到指定的目录下: 图片需要按照文件夹进行分类,文件夹名就是分类的名称,具体可以参考下图: ![image](https://github.com/caibobit/blog-picture/blob/master/file.PNG?raw=true) 文件夹中是该分类的图片信息: ![image](https://github.com/caibobit/blog-picture/blob/master/picture.PNG?raw=true) #### 2.运行代码转换格式 代码比较简单,官方也给出过样例,这里仅供参考: ```python #导入相应的模块 import tensorflow as tf import os import random import math import sys #划分验证集训练集 _NUM_TEST = 40 #random seed _RANDOM_SEED = 0 #数据块 _NUM_SHARDS = 2 #数据集路径 DATASET_DIR = 'D:/jupyterworkplace/slim/images/' #标签文件 LABELS_FILENAME = 'D:/jupyterworkplace/slim/images/labels.txt' #定义tfrecord 的路径和名称 def _get_dataset_filename(dataset_dir,split_name,shard_id): output_filename = 'image_%s_%05d-of-%05d.tfrecord' % (split_name,shard_id,_NUM_SHARDS) return os.path.join...
caibobit 发布于 2周前 阅读 105 评论 2

【码云周刊第 54 期】5款国产虚拟(VR)现实与增强(AR)现实项目实例

每周为您推送最有价值的开源技术内参!
码云Gitee 发布于 2周前 阅读 1341 评论 9 点赞 2

神经网络和深度学习-第二周神经网络基础-第八节:计算图的导数计算

本系列博客是吴恩达(Andrew Ng)[深度学习工程师](http://mooc.study.163.com/smartSpec/detail/1001319001.htm) 课程笔记。全部课程请查看[吴恩达(Andrew Ng)深度学习工程师课程目录](http://blog.geekidentity.com/deeplearning_specialization/catalogues/) 上一节中,我们使用计算图来计算函数$J$,现在我们理清一下计算图的描述,看看我们如何利用它计算出函数$J$的导数。 下图是一个流程图,假设你要计算$J$对$v$的导数$\frac{dJ}{dv}$,比如我们改变$v$值那么$J$的值怎么呢?定义上$J$是$3v$,现在$v=11$,所以如果让$v$增加一点点,比如到11.001,那么$J$增加到33.003。所以这里$v$增加了1.001,最终结果是$J$上升到原来3倍,所以$J$对$v$的导数等于3。因为对于任何$v$的增量,$J$都会有三倍增量。 ![](http://blog.geekidentity.com/images/deeplearning_specialization/neural-networks-deep-learning/week2/8_derivatives-with-a-computation-graph/computing-derivatives.png) 在反向传播算法中,我们看到如果你想计算最后输出变量的导数,使用你最关心的变量对v的导数。那么我们就做完了一步反向传播,所以在这个流程图中是一个反向步。 我们来看另一个例子,$...
侯法超 发布于 3周前 阅读 151 点赞 1

神经网络和深度学习-第二周神经网络基础-第七节:计算图

本系列博客是吴恩达(Andrew Ng)[深度学习工程师](http://mooc.study.163.com/smartSpec/detail/1001319001.htm) 课程笔记。全部课程请查看[吴恩达(Andrew Ng)深度学习工程师课程目录](http://blog.geekidentity.com/deeplearning_specialization/catalogues/) 可以说,一个神经网络的计算都是按照前向或反向传播过程来实现的。首先计算出神经网络的输出,紧接着进行一个反向传输操作,后者我们用来计算出对应梯度或者导数。而计算图解释了为什么用这样的方式这样实现。 为了阐明这个计算过程,我们举一个比logistic回归更加简单的,不那么正式的神经网络的例子。我们计算函数$J$: $$ J(a,b,c)=3(a+bc) $$ 计算这个函数实际上有三个不同的步骤第一个首先是计算b乘以c,我们把它存储在变量u中: $$ u=bc $$ 然后计算$v=a+u$,最后计算$J=3v$。我们可以把这三步画成如下计算图: ![](http://blog.geekidentity.com/images/deeplearning_specialization/neural-networks-deep-learning/week2/7_computation-graph/computation-graph-1.png) 可以看出,通过一个从左向右的过程,你可以计算出J的值。在接下的课程中我们会看到,为了计算导数从右到左的这个过程,和这个蓝色的过程...
侯法超 发布于 3周前 阅读 66

神经网络和深度学习-第二周神经网络基础-第四节:梯度下降法

本系列博客是吴恩达(Andrew Ng)[深度学习工程师](http://mooc.study.163.com/smartSpec/detail/1001319001.htm) 课程笔记。全部课程请查看[吴恩达(Andrew Ng)深度学习工程师课程目录](http://blog.geekidentity.com/deeplearning_specialization/catalogues/) 在上一节中学习了损失函数,损失函数是衡量单一训练样例的效果,成本函数用于衡量参数w和b的效果,在全部训练集上来衡量。下面我们讨论如何使用梯度下降法,来训练和学习训练集上的参数w和b,使得$J(w,b)$尽可能地小。 ![](http://blog.geekidentity.com/images/deeplearning_specialization/neural-networks-deep-learning/week2/4_gradient-descent/gradient-descent-function.png) 这个图中的横轴表示空间参数w和b,在实践中,w可以是更高维的。成本函数$J(w,b)$是在水平轴w和b上的曲面,曲面的高度表示了$J(w,b)$在某一点的值,我们所想要做的就是找到这样的w和b,使其对应的成本函数J值是最小值。可以看到成本函数$J$是一个凸函数,因此我们的成本函数$J(w,b)$之所以是凸函数,其性质是我们使用logistic回归的个特定成本函数$J$的重要原因之一。为了找到更好的参数值,我们要做的就是用某初始值初始化w和b,用...
侯法超 发布于 4周前 阅读 330

文本识别OCR浅析:特征篇

OCR技术浅探:特征提取(1) 研究背景 关于光学字符识别(Optical Character Recognition, 下面都简称OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader不仅正确率高(包括对中文的识别),而且还能保留大部分的排版效果,是一个非常强大的OCR商业软件. 然而,在诸多的OCR成品中,除了Tesseract OCR外,其他的都是闭源的、甚至是商业的软件,我们既无法将它们嵌入到我们自己的程序中,也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR,但它的识别效果不算很好,而且中文识别正确率偏低,有待进一步改进. 综上所述,不管是为了学术研究还是实际应用,都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面,逐步进行解决,最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别,以判断上面信息的真伪. 研究假设 在本文中,我们假设图像的文字部分有以下的特征: 1. 假设...
失败人士 发布于 4周前 阅读 1689 评论 8 点赞 8

一文看懂机器学习流程(客户流失率预测)

本文通过电信客户流失率预测问题, 详细介绍了如何把机器学习算法应用到具体问题中。 从提出问题, 分析数据, 准备数据, 评估算法, 提升结果到最终展示结果,一步步介绍机器学习基本流程。 注意:用户数据库来源于互联网。
zzbb 发布于 1个月前 阅读 232

Elasticsearch全文检索与余弦相似度

一、单个词语的全文搜索 见 《Elasticsearch全文搜索与TF/IDF》https://my.oschina.net/stanleysun/blog/1594220   二、多个词语的全文搜索 向量空间模型 向量空间模型提供了一种对文档进行多词查询对方法,返回值就是一个数字,它表示相关度。这个模型,将文档和查询当作向量。 一个向量就是一个一维数组,比如[2, 3.5, 5, 2.1]。在向量里面,每个数字都是一个词语对TF-IDF权重. TF-IDF的解释参见我的另一篇文章《Elasticsearch全文搜索与TF/IDF》https://my.oschina.net/stanleysun/blog/1594220   举例 假如现在我要在文档中搜索“Python语言”,系统会如何处理呢? Python是一个非常用词,权重高一点,比如5;语言是一个常用词,权重低一点,比如2;那么,我们就可以将这个词组转变为一个二维向量 [5,2]。 可以用图表示: 假设我们有3个文档,分别是 1. Python语言基础 2. Python的高级应用 3. 各种编程语言的比较 我们可以对每一个文档创建相似的向量,向量中包含“Python”和“语言”两个维度。 文档1: Python, 语言  ------ [5, 2] 文档2: Python, _____  ------ [5, 0] 文档3: ____, 语言  ------ [0, 2] 我们比较查询向量和3个文档向量后,可以发现,查询向...
StanleySun 发布于 1个月前 阅读 700

掌握Python 机器学习 读书笔记 10(性能提升)

摘要:本章是在以前章节基本的算法之后, 介绍了一些提升算法:boosting, bagging, voting。 这些算法可以提高算法 的精确性。 以下是详细内容。
zzbb 发布于 1个月前 阅读 529 点赞 1

利用回归预测数值型数据

回归的目的是预测一个数值型的数据,例如根据输入的特征x,代入y=w1*x1+w2*x2求得预测值.
南寻 发布于 1个月前 阅读 162

推荐 10 个饱受好评且功能独特的开源人工智能项目

十个有趣的开源人工智能项目,千万不要错过了~~
编辑部的故事 发布于 1个月前 阅读 3158 评论 1 点赞 5 打赏 1

视频通信系统的关键技术与挑战

当我们观看各类直播时,当我们与家人朋友进行视频通话时,当我们利用远程监控查看孩子在幼儿园的状况时,我们所使用的技术就是视频通信技术。 随着现代通信技术和业务的发展,以传送语言视频为一体的视频通信业务已经成为通信领域发展的热点,其在视频会议、远程视频医疗、远程视频教育等方面得到越来越广泛的应用。而高效稳定的视频通信系统是开展各类视频通信业务的基础。 一、如何构建视频通信系统 构建视频通信系统是一项综合了数据采集、处理和显示技术,数据压缩编解码技术和网络传输技术的系统性工程。而一个基础的视频通信系统过程主要包含以下三个步骤: 1)数据发送方采集数据:包括音频、视频以及文本等多媒体数据。 2)通过网络将压缩的数据传送到接收方。 3)数据接收方接收到数据后,解码得到多媒体数据,进行显示和播放。 但是在日常的业务中,不同的业务对视频通信系统的技术要求的侧重点是不一样的,例如:对于视频会议,要求双方或多方的视频通信过程能实时进行,延时尽可能低,同时要保持通信过程流畅不卡顿;而对于视频监控系统,则对视频清晰度要求较高,能保留画面中的重要细节内容,而对延时比较宽容。 尽管不同的业务有不同的侧重点,构建一个高效...
图鸭科技研究员 发布于 1个月前 阅读 485 点赞 2

设计聊天机器人技术栈的终极攻略

本文作者:Sébastien Fourault 原文地址:[《The Ultimate Guide To Designing A Chatbot Tech Stack》](https://chatbotsmagazine.com/the-ultimate-guide-to-designing-a-chatbot-tech-stack-333eceb431da) 翻译:一熊翻译组 Mason ![输入图片说明](https://static.oschina.net/uploads/img/201712/19112745_DWgO.png "在这里输入图片标题") 如果你正在在一家聊天机器人公司工作(咨询,开发,UX 设计……),这段对话可能听起来很熟悉: **客户:「助力我的机器人最佳技术的是什么?」** 我:「不仅仅是一项技术,而是一系列的多种技术。每项技术都可以解决一个问题,所以这取决于你的项目。」 客户:「好吧,那你能给我什么建议吗?」 我:「你知道吗,要回答这个问题,我差不多需要问你将近 10 个聊天机器人问题!」 在这篇文章中,我会详细讲述**我自己为客户设计高效聊天机器人的技术栈框架**。 # 聊天机器人目前景象一片混乱……讲真 ![来自 KeyReply 的聊天机器人景观图](https://static.oschina.net/uploads/img/201712/19112945_57XJ.png "在这里输入图片标题") 正如你所看到的,有太多作者在做太多的东西。所以,该为聊天机器人付多少钱算是一个合理的价格,对...
BearyChat 发布于 1个月前 阅读 413 评论 1

神经网络和深度学习-第二周神经网络基础-第一节:二分分类

本系列博客是吴恩达(Andrew Ng)[深度学习工程师](http://mooc.study.163.com/smartSpec/detail/1001319001.htm) 课程笔记。全部课程请查看[吴恩达(Andrew Ng)深度学习工程师课程目录](http://blog.geekidentity.com/deeplearning_specialization/catalogues/) 本周,我们会学习神经网络编程的基础知识。当你要构建一个神经网络,有些技巧是相当重要的。例如,如果你有m个样本的训练集,你可能会习惯性地去用一个for循环来遍历这m个样本。但事实上实现一个神经网络,如果你要遍历整个训练集,燕不需要直接使用for循环。在本周的课程,你会学到如何做到。 另外,在神经网络的计算过程中,通常有一个正向过程或者叫正向传播步骤,接着会有一个反向步骤也叫做反向传播步骤。在本周的课程中会讲解为什么神经网络的计算过程可以分为正向传播和反向传播两个分开的过程。 在本周课程中,我会用logistic回归来阐述,以便你能更好地理解。如果你之前学习过logistic回归,我也认为,这周的学习材料也会带给你一些新的、有意思的想法。下面正式开始。 Logistic回归是一个用于二分分类的算法,我们从一个问题开始。这里有一个二分分类问题的例子,例如你有一张图片作为输入,就像这样,你...
侯法超 发布于 1个月前 阅读 324 评论 5

掌握Python 机器学习 读书笔记 9 (流水线 && 算法保存)

在机器学习里可以看到有一些必要的步骤, 这些步骤是可以作为workflow 自动化的。 而且流水线可以对每个fold来进行处理, 这样很大程度避免了数据泄露。 这也是为什么使用流水线的原因。 之后也介绍了如何保存和使用你的算法, 然后如何实际使用。 通过本章的学习, 你可以知道 - 序列化算法的重要性 - 使用pickle来序列化和反序列化学习模型 - 使用joblib来序列化和反序列化学习模型
zzbb 发布于 1个月前 阅读 198 点赞 1

火车票抢票代码公开揭秘

火车票抢票代码公开揭秘
闵开慧 发布于 2周前 阅读 7510 评论 55 点赞 14

K-NN算法与K-Means算法的原理与区别(附带源码示例)

  KNN算法 K-Means算法 目标  确定某个元素所属的分类 将已存在的一系列元素分类 算法类别 监督的分类算法 无监督的聚类算法 数据区别 训练数据中,有明确的标签。 如:一个数据集中有几万张图片,都被打上了“苹果”的标签,另外还有几万张图片,被打上了“香蕉”的标签,数据是完全正确,知道结果的数据 几十万张各种各样水果的图片放一起,杂乱无章。 训练过程 无需训练(或者没有很明显的训练过程),将数据与训练数据直接对比 需要前期训练 K的含义 K指的是相邻数据的数目。 举个例子,假设某张图片相邻的20张图片中,有18张是打着“苹果”标签的数据,有1张是“香蕉”,1张是“樱桃”,那么这张图片的标签也是“苹果”。 那么在这个例子中,K就是20,20张相邻的图片。 K指的是分类的数目,人为设定好分为K个簇。 对比结果 K值不变的情况下,每次结果都是一样的。 K值确定后每次结果可能不同。   1、KNN算法,本质是一种数据统计的方法。 1.1  欧几里得距离 欧几里得距离通俗来讲就是高中数学中直角坐标系求两点间的距离,二维公式:|x| = √( x2 + y2 ) 1.2  距离计算 假设我们现在要对某张图片进行识别,大概是个怎样的思路呢(仅供理解,实际开发中更复杂)?...
NateHuang 发布于 23小时前 阅读 190 打赏 3

2048小游戏ai设计

最近突然想到一个之前很火的游戏
大巴0007 发布于 5小时前 阅读 46 评论 3 点赞 1

【码云周刊第 54 期】5款国产虚拟(VR)现实与增强(AR)现实项目实例

每周为您推送最有价值的开源技术内参!
码云Gitee 发布于 2周前 阅读 1341 评论 9 点赞 2

文本识别OCR浅析:特征篇

OCR技术浅探:特征提取(1) 研究背景 关于光学字符识别(Optical Character Recognition, 下面都简称OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader不仅正确率高(包括对中文的识别),而且还能保留大部分的排版效果,是一个非常强大的OCR商业软件. 然而,在诸多的OCR成品中,除了Tesseract OCR外,其他的都是闭源的、甚至是商业的软件,我们既无法将它们嵌入到我们自己的程序中,也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR,但它的识别效果不算很好,而且中文识别正确率偏低,有待进一步改进. 综上所述,不管是为了学术研究还是实际应用,都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面,逐步进行解决,最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别,以判断上面信息的真伪. 研究假设 在本文中,我们假设图像的文字部分有以下的特征: 1. 假设...
失败人士 发布于 4周前 阅读 1689 评论 8 点赞 8

推荐 10 个饱受好评且功能独特的开源人工智能项目

十个有趣的开源人工智能项目,千万不要错过了~~
编辑部的故事 发布于 1个月前 阅读 3158 评论 1 点赞 5 打赏 1

手把手教你用1行代码实现人脸识别 -- Python Face_recognition

1行代码实现人脸识别,1. 首先你需要提供一个文件夹,里面是所有你希望系统认识的人的图片。其中每个人一张图片,图片以人的名字命名。2. 接下来,你需要准备另一个文件夹,里面是你要识别的图片。3. 然后你就可以运行face_recognition命令了,把刚刚准备的两个文件夹作为参数传入,命令就会返回需要识别的图片中都出现了谁,1行代码足以!!!
kangvcar 发布于 3个月前 阅读 4185 评论 34 点赞 8 打赏 2

开源自动机器学习(AutoML)框架盘点

自从Google推出了能自动设计神经网络自我进化的AutoML论文后,我便开始持续关注这个领域 到目前为止,从网上显示的信息来看,深度学习这块大多没有实现的源码,还出于理论和论文阶段,而机器学习领域则产生了一些在一定程度上可以自动化的工具。 目前,在github上能实现一定程度auto ml的主要有如下几类: 1.tpot     https://github.com/rhiever/tpot     工作流程:               1.分析数据集的多项式特征(线性回归等);     2.分析数据集的主成份(PCA);     3.将多项式特征与主成份分析结果合并起来;     4.使用GP算法反复迭代,选取交叉熵最小的组合;     5.使用随机森林对结果分类;     输出结果:     最佳模型组合及其参数(python文件)和最佳得分     优劣:     tpot在数据治理阶段采用了PCA主成份分析,在模型选择过程中可以使用组合方法,分析的过程比起其他工具更科学,并能直接生成一个写好参数的python文件,但输出可参考的结果较少,不利于进一步分析。 2.auto_ml     https://github.com/ClimbsRocks/auto_ml     工作流程:     1.首先自动将所有字段归一化;    2.自动尝试选用tree-...
邵可佳 发布于 1周前 阅读 177

【码云周刊第 45 期】人工智能工程师必备干货

每周为您推送最有价值的开源技术内参!
码云Gitee 发布于 3个月前 阅读 3336 评论 5 点赞 2

进行人工智能机器人研发,应该选择哪种编程语言? 

在本文中,我们将介绍机器人研发中使用的十大最流行的编程语言。
编辑部的故事 发布于 2个月前 阅读 3534 评论 17 点赞 3

设计聊天机器人技术栈的终极攻略

本文作者:Sébastien Fourault 原文地址:[《The Ultimate Guide To Designing A Chatbot Tech Stack》](https://chatbotsmagazine.com/the-ultimate-guide-to-designing-a-chatbot-tech-stack-333eceb431da) 翻译:一熊翻译组 Mason ![输入图片说明](https://static.oschina.net/uploads/img/201712/19112745_DWgO.png "在这里输入图片标题") 如果你正在在一家聊天机器人公司工作(咨询,开发,UX 设计……),这段对话可能听起来很熟悉: **客户:「助力我的机器人最佳技术的是什么?」** 我:「不仅仅是一项技术,而是一系列的多种技术。每项技术都可以解决一个问题,所以这取决于你的项目。」 客户:「好吧,那你能给我什么建议吗?」 我:「你知道吗,要回答这个问题,我差不多需要问你将近 10 个聊天机器人问题!」 在这篇文章中,我会详细讲述**我自己为客户设计高效聊天机器人的技术栈框架**。 # 聊天机器人目前景象一片混乱……讲真 ![来自 KeyReply 的聊天机器人景观图](https://static.oschina.net/uploads/img/201712/19112945_57XJ.png "在这里输入图片标题") 正如你所看到的,有太多作者在做太多的东西。所以,该为聊天机器人付多少钱算是一个合理的价格,对...
BearyChat 发布于 1个月前 阅读 413 评论 1

掌握python机器学习系列

掌握python机器学习-读书笔记1 (介绍) [链接](https://my.oschina.net/sizhe/blog/1585353) 掌握python机器学习-读书笔记2 (导入数据 && 数据描述) [链接](https://my.oschina.net/sizhe/blog/1585904) 掌握python机器学习-读书笔记3 (图形化&&数据预处理) [链接](https://my.oschina.net/sizhe/blog/1587431) 掌握python机器学习-读书笔记4(特征选择) [链接](https://my.oschina.net/sizhe/blog/1588135) 掌握python机器学习-读书笔记 5 (评估算法) [链接](https://my.oschina.net/sizhe/blog/1588788) 掌握python机器学习-读书笔记 6 (算法的度量) [链接](https://my.oschina.net/sizhe/blog/1590112) 掌握python机器学习-读书笔记7 - (抽样分类方法) [链接](https://my.oschina.net/sizhe/blog/1590931) 掌握python机器学习-读书笔记8 (抽样回归算法) [链接](https://my.oschina.net/sizhe/blog/1591003) 掌握Python 机器学习 读书笔记 9 (流水线 && 算法保存) [链接](https://my.oschina.net/sizhe/blog/1591642) 掌握Python 机器学习 读书笔记 10(性能提升) [链接](https://my.oschina.net/sizhe/blog/1592530) 一文看懂机器学习流程(客户流失率预测...
zzbb 发布于 3周前 阅读 115

tensorflow常用函数之tf.nn.softmax

文章来源:http://www.datacups.com/post/35 关于softmax的详细说明,请看Softmax。  通过Softmax回归,将logistic的预测二分类的概率的问题推广到了n分类的概率的问题。通过公式    可以看出当月分类的个数变为2时,Softmax回归又退化为logistic回归问题。   下面的几行代码说明一下用法 # -*- coding: utf-8 -*- import tensorflow as tf A = [1.0,2.0,3.0,4.0,5.0,6.0] with tf.Session() as sess:         print sess.run(tf.nn.softmax(A))   结果 [ 0.00426978  0.01160646  0.03154963  0.08576079  0.23312201  0.63369131]  
TensorF学习网 发布于 1个月前 阅读 17

掌握python机器学习-读书笔记4(特征选择)

摘要: 在机器学习建模中,你所选择的数据特征对结果会有巨大的影响。 不相关和部分相关的特征可能会影响到模型的效果。 本章你将会学习用scikit-learn来 探索自动特征选择技术。 如下: - 单变量选择 - 回归的特征消除 - 主成因分析- 这个前面做过单独的学习 - 特征重要性分析
zzbb 发布于 1个月前 阅读 580

掌握Python 机器学习 读书笔记 10(性能提升)

摘要:本章是在以前章节基本的算法之后, 介绍了一些提升算法:boosting, bagging, voting。 这些算法可以提高算法 的精确性。 以下是详细内容。
zzbb 发布于 1个月前 阅读 529 点赞 1

人工智能,机器学习和深度学习之间的差异是什么?

如果你在科技领域,你经常会听到人工智能,机器学习,甚至是深度学习。怎样才可以在正确的时间正确的使用这些词?他们都是一样的意思吗?然而更多时候,人们总是混淆的使用它们。 人工智能,机器学习和深度学习都是属于一个领域的一个子集。但是人工智能是机器学习的首要范畴。机器学习是深度学习的首要范畴。 深度学习是机器学习的一个子集,机器学习是人工智能的一个子集 这个领域的兴起应该归功于深度学习。人工智能和机器学习这个领域近年来一直在解决一系列有趣的问题,比如从自动化的杂货店购买到自动驾驶汽车。 人工智能: 人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。 尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容...
编辑部的故事 发布于 2个月前 阅读 3417 评论 10 点赞 7

论hbase创建优化

每周一篇博文,坚持自我提升。 以下内容,来自《HBase实战》阅读记录部分知识总结,以此分享。 1、关闭缓存 如果一张表和表里的列族只被顺序扫描访问或者很少被访问,不介意Get和Scan时间长些,可以选择关闭缓存,如果只是执行很多顺序扫描,将会多次倒腾缓存,并可能会滥用缓存并把应用放进获得性能提升的数据给排挤出去。 创建表时关闭:create 'mytable',{NAME => 'colfam1',BLOCKCACHE => 'false' } 2、激进缓存 选择一些列族,赋予它们在数据块缓存中更高的优先级,如果预期一个列族比另一个列族的随机读更多,这个特性迟早用得上。 创建设置:create 'mytable'.{NAME => 'colfam1',IN_MOMERY => 'true'} 3、布隆过滤器 存储一个多余索引,它随着行或列限定符的增加而增加。 create 'mytable',{NMAME => 'colfam1',BLOOMFILTER => 'ROWCOL'} 行级布隆过滤器:ROW 列限定符布隆过滤器:ROWCOL 设置生存时间(TTL) create 'mytable',{ 'NAME' => 'colfam1', TTL => '18000'} //18000秒 5小时 4、压缩 推荐使用压缩,除非服务器CPU有限定要求。支持LZO、Snappy和GZIP。LZO和Snappy是比较流行的两种,Snappy是google发布,不必单独安装,LZO受源生路影响,必须单独运行。...
悲喜世界 发布于 7小时前 阅读 4

一文看懂机器学习流程(客户流失率预测)

本文通过电信客户流失率预测问题, 详细介绍了如何把机器学习算法应用到具体问题中。 从提出问题, 分析数据, 准备数据, 评估算法, 提升结果到最终展示结果,一步步介绍机器学习基本流程。 注意:用户数据库来源于互联网。
zzbb 发布于 1个月前 阅读 232

神经网络和深度学习-第一周深度学习概论-第二节:什么是神经网络

原文链接:http://blog.geekidentity.com/deeplearning_specialization/1_neural-networks-deep-learning/week1/2_what-is-a-neural-network/ 本系列博客是吴恩达(Andrew Ng)[深度学习工程师](http://mooc.study.163.com/smartSpec/detail/1001319001.htm) 课程笔记。全部课程请查看[吴恩达(Andrew Ng)深度学习工程师课程目录](http://blog.geekidentity.com/deeplearning_specialization/catalogues/) # 什么是神经网络 “深度学习”指的是训练神经网络,那么什么是神经网络呢? 我们从房价预测的例子开始,假设我们有一个 6 个房间的数据集,已知房屋的面积,单位是平方英尺或平方米,已知房屋价格。我们需要找到一个根据房屋面积预测房价的函数。 如果你熟悉线性回归(Linear Regression),你可以用这些数据来拟合一条直线: ![image](http://blog.geekidentity.com/images/deeplearning_specialization/neural-networks-deep-learning/week1/2_what-is-a-neural-network/what_is_neural_network_01.png) 但我们知道,价格永远不能为负,因此这条直线不太合适,因此我们这条线弯曲,让它结束在0 点(原点)。下面这条粗的蓝线,就是你想要的函数:根据房屋面积预测价格...
侯法超 发布于 1个月前 阅读 44

神经网络和深度学习-第二周神经网络基础-第一节:二分分类

本系列博客是吴恩达(Andrew Ng)[深度学习工程师](http://mooc.study.163.com/smartSpec/detail/1001319001.htm) 课程笔记。全部课程请查看[吴恩达(Andrew Ng)深度学习工程师课程目录](http://blog.geekidentity.com/deeplearning_specialization/catalogues/) 本周,我们会学习神经网络编程的基础知识。当你要构建一个神经网络,有些技巧是相当重要的。例如,如果你有m个样本的训练集,你可能会习惯性地去用一个for循环来遍历这m个样本。但事实上实现一个神经网络,如果你要遍历整个训练集,燕不需要直接使用for循环。在本周的课程,你会学到如何做到。 另外,在神经网络的计算过程中,通常有一个正向过程或者叫正向传播步骤,接着会有一个反向步骤也叫做反向传播步骤。在本周的课程中会讲解为什么神经网络的计算过程可以分为正向传播和反向传播两个分开的过程。 在本周课程中,我会用logistic回归来阐述,以便你能更好地理解。如果你之前学习过logistic回归,我也认为,这周的学习材料也会带给你一些新的、有意思的想法。下面正式开始。 Logistic回归是一个用于二分分类的算法,我们从一个问题开始。这里有一个二分分类问题的例子,例如你有一张图片作为输入,就像这样,你...
侯法超 发布于 1个月前 阅读 324 评论 5

火车票抢票代码公开揭秘

火车票抢票代码公开揭秘
闵开慧 发布于 2周前 阅读 7510 评论 55 点赞 14

推荐 10 个饱受好评且功能独特的开源人工智能项目

十个有趣的开源人工智能项目,千万不要错过了~~
编辑部的故事 发布于 1个月前 阅读 3158 评论 1 点赞 5 打赏 1

[face_recognition中文文档] 第1节 人脸识别

face_recognition中文文档,这是世界上最简单的人脸识别库了。你可以通过Python引用或者命令行的形式使用它,来管理和识别人脸。 该软件包使用dlib中最先进的人脸识别深度学习算法,使得识别准确率在《Labled Faces in the world》测试基准下达到了99.38%。 它同时提供了一个叫face_recognition的命令行工具,以便你可以用命令行对一个文件夹中的图片进行识别操作。
kangvcar 发布于 3个月前 阅读 222

文本识别OCR浅析:特征篇

OCR技术浅探:特征提取(1) 研究背景 关于光学字符识别(Optical Character Recognition, 下面都简称OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader不仅正确率高(包括对中文的识别),而且还能保留大部分的排版效果,是一个非常强大的OCR商业软件. 然而,在诸多的OCR成品中,除了Tesseract OCR外,其他的都是闭源的、甚至是商业的软件,我们既无法将它们嵌入到我们自己的程序中,也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR,但它的识别效果不算很好,而且中文识别正确率偏低,有待进一步改进. 综上所述,不管是为了学术研究还是实际应用,都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面,逐步进行解决,最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别,以判断上面信息的真伪. 研究假设 在本文中,我们假设图像的文字部分有以下的特征: 1. 假设...
失败人士 发布于 4周前 阅读 1689 评论 8 点赞 8

手把手教你用1行代码实现人脸识别 -- Python Face_recognition

1行代码实现人脸识别,1. 首先你需要提供一个文件夹,里面是所有你希望系统认识的人的图片。其中每个人一张图片,图片以人的名字命名。2. 接下来,你需要准备另一个文件夹,里面是你要识别的图片。3. 然后你就可以运行face_recognition命令了,把刚刚准备的两个文件夹作为参数传入,命令就会返回需要识别的图片中都出现了谁,1行代码足以!!!
kangvcar 发布于 3个月前 阅读 4185 评论 34 点赞 8 打赏 2

前途光明的机器学习将走向何方?这里有 5 个关于它的未来预测

关于机器学习的 5 个未来预测
编辑部的故事 发布于 1个月前 阅读 2630 评论 8 点赞 1

一文看懂机器学习流程(客户流失率预测)

本文通过电信客户流失率预测问题, 详细介绍了如何把机器学习算法应用到具体问题中。 从提出问题, 分析数据, 准备数据, 评估算法, 提升结果到最终展示结果,一步步介绍机器学习基本流程。 注意:用户数据库来源于互联网。
zzbb 发布于 1个月前 阅读 232

[face_recognition中文文档] 第6节 作者

face_recognition中文文档,这是世界上最简单的人脸识别库了。你可以通过Python引用或者命令行的形式使用它,来管理和识别人脸。 该软件包使用dlib中最先进的人脸识别深度学习算法,使得识别准确率在《Labled Faces in the world》测试基准下达到了99.38%。 它同时提供了一个叫face_recognition的命令行工具,以便你可以用命令行对一个文件夹中的图片进行识别操作。
kangvcar 发布于 3个月前 阅读 53

掌握Python 机器学习 读书笔记 10(性能提升)

摘要:本章是在以前章节基本的算法之后, 介绍了一些提升算法:boosting, bagging, voting。 这些算法可以提高算法 的精确性。 以下是详细内容。
zzbb 发布于 1个月前 阅读 529 点赞 1

OpenCV + VTK + WebCam 采集和显示图像

#include <iostream> #include <vtkAutoInit.h> VTK_MODULE_INIT(vtkRenderingOpenGL2) VTK_MODULE_INIT(vtkInteractionStyle) ; VTK_MODULE_INIT(vtkRenderingFreeType); #include <opencv2/opencv.hpp> #include <vtkImageActor.h> #include <vtkImageImport.h> #include <vtkImageData.h> #include <vtkRenderWindowInteractor.h> #include <vtkRenderWindow.h> #include <vtkRenderer.h> #include <vtkCommand.h> //Function prototypes void Ipl2VTK(cv::Mat& src, vtkImageData *dst); //!Class vtkTimerCallback /** * This class add support for timing events */ class vtkTimerCallback : public vtkCommand { public: vtkTimerCallback(){} ~vtkTimerCallback(){} public: static vtkTimerCallback *New() { vtkTimerCallback *cb = new vtkTimerCallback; cb->TimerCount = 0; return cb; } virtual void Execute(vtkObject *vtkNotUsed(caller), unsigned long eventId, void *vtkNotUsed(callData)) { if (vtkCommand::TimerEvent == eventId) { ++this->TimerCount; } ...
IOTService 发布于 2天前 阅读 8

掌握python机器学习-读书笔记2 (导入数据 && 数据描述)

这是这本书笔记的第二部分, 对于课程的一些章节的整理。 有代码的例子。
zzbb 发布于 2个月前 阅读 224 评论 1 点赞 1

【码云周刊第 54 期】5款国产虚拟(VR)现实与增强(AR)现实项目实例

每周为您推送最有价值的开源技术内参!
码云Gitee 发布于 2周前 阅读 1341 评论 9 点赞 2

掌握python机器学习系列

掌握python机器学习-读书笔记1 (介绍) [链接](https://my.oschina.net/sizhe/blog/1585353) 掌握python机器学习-读书笔记2 (导入数据 && 数据描述) [链接](https://my.oschina.net/sizhe/blog/1585904) 掌握python机器学习-读书笔记3 (图形化&&数据预处理) [链接](https://my.oschina.net/sizhe/blog/1587431) 掌握python机器学习-读书笔记4(特征选择) [链接](https://my.oschina.net/sizhe/blog/1588135) 掌握python机器学习-读书笔记 5 (评估算法) [链接](https://my.oschina.net/sizhe/blog/1588788) 掌握python机器学习-读书笔记 6 (算法的度量) [链接](https://my.oschina.net/sizhe/blog/1590112) 掌握python机器学习-读书笔记7 - (抽样分类方法) [链接](https://my.oschina.net/sizhe/blog/1590931) 掌握python机器学习-读书笔记8 (抽样回归算法) [链接](https://my.oschina.net/sizhe/blog/1591003) 掌握Python 机器学习 读书笔记 9 (流水线 && 算法保存) [链接](https://my.oschina.net/sizhe/blog/1591642) 掌握Python 机器学习 读书笔记 10(性能提升) [链接](https://my.oschina.net/sizhe/blog/1592530) 一文看懂机器学习流程(客户流失率预测...
zzbb 发布于 3周前 阅读 115

【教育部出大招】人工智能进入全国高中新课标,2018秋季学期执行

教育部出大招了。2018秋季入学的高中生,将要学习人工智能。 1月16日上午,教育部召开新闻发布会,介绍了《普通高中课程方案和语文等学科课程标准(2017年版)》的有关情况,并重新修订了语文等14门学科的课程标准。在此次“新课标”改革中,正式将人工智能、物联网、大数据处理正式划入新课标。 人工智能进入高中“新课标” 修订版本的方案中,把高中学习内容分成了必修课、选择性必修课和选修课。具体在信息技术课程上,课程结构如下图所示: 高中信息技术必修课程是全面提高高中生信息素养的基础,包括“数据与计算”和“信息系统与社会”两个模块。 数据与计算: (1)了解数据编码 (2)学会采集、分析、可视化数据 (3)学会一种程序语言,并使用程序语言完成简单的算法 (4)了解人工智能的重要性 信息系统与社会 (1)知道信息系统基本工作原理 (2)可以开发简单的信息系统 (3)判断安全风险,了解安全防范技术 (4)学会遵守相关法律和道德伦理规范 高中信息技术选择性必修课程是根据学生升学、个性化发展需要而设计的,包括“数据与数据结构”“网络基础”“数据管理与分析”“人工智能初步”“三维设计与创意”“开源硬件项目设计”六个模块。 高中信息技术选...
mcy0425 发布于 1天前 阅读 8

更新之后微软机器人框架不太会用?所有的改动都在这一篇

文章作者:Pablo Gomez Guerrero 原文链接:《[How to Work with Microsoft Bot Framework Since Last Update 》](https://chatbotsmagazine.com/how-to-work-with-microsoft-bot-framework-since-last-update-a748fd3bbec8) 翻译:[一熊翻译组](http://translation.bearychat.com) Mason ![输入图片说明](https://static.oschina.net/uploads/img/201801/18111158_hxfD.png "在这里输入图片标题") 如果你有使用微软机器人框架的话,你很有可能已经看见提示你迁移机器人的提示了。你也可能会发现创建机器人的网页似乎和之前不大一样,有一些东西也不见了。尽管更新前已创建机器人的「设定」与「测试」部分在[dev.botframework.com](https://dev.botframework.com/)上仍旧可用。然而,如果你创建一个新的机器人,设定部分已经有了一定的改动。 没准就算在已创建的机器人设定中,如果它们还没有被迁移,网页看起来也会很奇怪。接下来,就让我来告诉你这是怎么一回事: # 1 .开始 创建机器人的方式有了一点改变。现在微软会重新定向至 Azure 并强制发送一个订阅至 Azure 以生成一个机器人服务。Azure 会给你一个 170 欧元的贷记额度用来做订阅,至少我的情况是这样。 ![重定向...
BearyChat 发布于 6天前 阅读 124

Ubuntu下安装和使用OpenNMT翻译以及其中系统中遇到的问题

海量的数据背景下,人工翻译已经无法承载所有的翻译任务,机器翻译效果并不十分理想,但在有些情况下可以减少理解外语文本所需要的时间和精力。我本人出身英语专业,但是仍然感觉阅读英文文本所花费的时间和精力是中文文本的2-3倍,比如中文一分钟能够阅读600-1000字甚至更多,但英语文章书籍,一般也就200-300单词而已,而且时间长了,大脑更疲劳,难以有效获取信息。所以借助机器翻译,先大致浏览所需理解的外语文本,不失为一种节约时间精力的方式。随着机器翻译的效果越来越好,它的应用场景也越来越广泛,甚至可能彻底改变人类相互沟通的方式。 目前机器翻译已经基本都从传统的统计翻译,变成了神经网络机器翻译,效果有较大的提升,特别是西方语种之间,比如英德互译。而中英互译仍然有差距,不过我想达到令人满意的效果只是时间问题,Google 和 百度 的机器翻译,在某些类型的文档翻译上,已经几乎超过人类,比如科技类的论文,Google 的机器翻译效果尤其好。如果让一个译者去翻译一篇科技类的论文,成本非常高,有很多专业词汇,还有数学符号,懂的人并不多,翻译起来也费时费力,但机器翻译却对这类文本有着很高的效率,十分令人欣喜。 现前最流行的几种神经机器翻...
费氏家族 发布于 3个月前 阅读 22

深度学习之文本摘要自动生成

当我们点开某个网站或某个新闻APP的时候,经常能看到这样的题目:“14亿人都不知道的真相,历史的血泪……”、“删前速看!XXX视频流出”等,可是当我们点进去的时候,往往会发现,都是标题党,文章和内容完全不符合! 如果这时候有一种工具能先替我们阅读新闻,再提炼出关键内容,那么我们肯定不会再受到标题党的影响,这对我们的生活无疑会有非常大的便利。而这需要的就是“文本摘要自动生成”技术! 文本摘要充斥着我们生活的方方面面,往小了说,新闻关键词的提炼是文本摘要;往宽泛看,文本摘要也可以应用在像Google、百度等搜索引擎的结果优化中,真正实现搜索中的“所见即所得”,“Smarter & Faster”,再也不会翻好几页都找不到想要的信息了。                      (Google开源的Textsum人类/机器摘要结果对比) 主流的文本摘要方式 目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式 (abstractive)。 抽取式顾名思义,就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。 抽取式的摘要目前已经...
图鸭科技研究员 发布于 2个月前 阅读 429 点赞 1

[face_recognition中文文档] 第4节 Face Recognition API

face_recognition中文文档,这是世界上最简单的人脸识别库了。你可以通过Python引用或者命令行的形式使用它,来管理和识别人脸。 该软件包使用dlib中最先进的人脸识别深度学习算法,使得识别准确率在《Labled Faces in the world》测试基准下达到了99.38%。 它同时提供了一个叫face_recognition的命令行工具,以便你可以用命令行对一个文件夹中的图片进行识别操作。
kangvcar 发布于 3个月前 阅读 157

[face_recognition中文文档] 第7节 历史

face_recognition中文文档,这是世界上最简单的人脸识别库了。你可以通过Python引用或者命令行的形式使用它,来管理和识别人脸。 该软件包使用dlib中最先进的人脸识别深度学习算法,使得识别准确率在《Labled Faces in the world》测试基准下达到了99.38%。 它同时提供了一个叫face_recognition的命令行工具,以便你可以用命令行对一个文件夹中的图片进行识别操作。
kangvcar 发布于 3个月前 阅读 32

设计聊天机器人技术栈的终极攻略

本文作者:Sébastien Fourault 原文地址:[《The Ultimate Guide To Designing A Chatbot Tech Stack》](https://chatbotsmagazine.com/the-ultimate-guide-to-designing-a-chatbot-tech-stack-333eceb431da) 翻译:一熊翻译组 Mason ![输入图片说明](https://static.oschina.net/uploads/img/201712/19112745_DWgO.png "在这里输入图片标题") 如果你正在在一家聊天机器人公司工作(咨询,开发,UX 设计……),这段对话可能听起来很熟悉: **客户:「助力我的机器人最佳技术的是什么?」** 我:「不仅仅是一项技术,而是一系列的多种技术。每项技术都可以解决一个问题,所以这取决于你的项目。」 客户:「好吧,那你能给我什么建议吗?」 我:「你知道吗,要回答这个问题,我差不多需要问你将近 10 个聊天机器人问题!」 在这篇文章中,我会详细讲述**我自己为客户设计高效聊天机器人的技术栈框架**。 # 聊天机器人目前景象一片混乱……讲真 ![来自 KeyReply 的聊天机器人景观图](https://static.oschina.net/uploads/img/201712/19112945_57XJ.png "在这里输入图片标题") 正如你所看到的,有太多作者在做太多的东西。所以,该为聊天机器人付多少钱算是一个合理的价格,对...
BearyChat 发布于 1个月前 阅读 413 评论 1

一个身份证号码验证接口[1]

接上面,这里实现了爬取统计局网站的脚本 #!/usr/bin/python # -*- coding: UTF-8 -*- # Filename: cityZone.py ''' - desc:获取全国行政区划号码和地址 - author : "yunjie.yi" - email : "yunjieyi@126.com" - date : "2017.12.27" ''' import urllib2 from bs4 import BeautifulSoup import re import operator class CityZone: def __init__(self): self.urlList = ['http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/index.html', 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/index_1.html'] self.mainUrl = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/' # 爬取各个时间段的连接 def getPageHTML(self, url): try: # url请求公共的参数 user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' headers = {'User-Agent': user_agent} print '正在获取%s的内容' % url request = urllib2.Request(url, headers=headers) response = urllib2.urlopen(request) htmlP...
vinci321 发布于 3小时前 阅读 2

一个身份证号码验证接口[0]

背景:之前在地铁站遇到有警察查身份证,没有带身份证报身份证号码也可以,实际上是调用公安部身份证数据库的接口进行查询的,他们能做,为什么我不能做来看看? 实现功能: 输入一个身份证号码,判断该号码是否符合编码规则,如果符合,返回该身份证号码的籍贯信息,如果不符合,返回不符合的提示信息。 思路: 1, 先获取到身份证号码的编码规则: 详见《中华人民共和国国家标准GB 11643-1999》中关于身份证号码的规定,通过代码实现它; 2, 根据规则验证输入的身份证号码是否合规,是否进入3; 3, 提取身份证第1-6位,进入行政区划数据库中进行查询,返回对应的地址信息; 4, 为了实现行政区划数据库,进入国家统计局网站搜索相关公开数据,使用爬虫将行政区划编号和地址爬取解析出来,用代码将其存入数据库中; 准备: 1, 一个爬取统计局网站的脚本; 2, 一个处理爬取到的数据,并将数据写入数据库的程序; 3, 一个对外开发的查询接口;
vinci321 发布于 3小时前 阅读 2

2048小游戏ai设计

最近突然想到一个之前很火的游戏
大巴0007 发布于 5小时前 阅读 46 评论 3 点赞 1

论hbase创建优化

每周一篇博文,坚持自我提升。 以下内容,来自《HBase实战》阅读记录部分知识总结,以此分享。 1、关闭缓存 如果一张表和表里的列族只被顺序扫描访问或者很少被访问,不介意Get和Scan时间长些,可以选择关闭缓存,如果只是执行很多顺序扫描,将会多次倒腾缓存,并可能会滥用缓存并把应用放进获得性能提升的数据给排挤出去。 创建表时关闭:create 'mytable',{NAME => 'colfam1',BLOCKCACHE => 'false' } 2、激进缓存 选择一些列族,赋予它们在数据块缓存中更高的优先级,如果预期一个列族比另一个列族的随机读更多,这个特性迟早用得上。 创建设置:create 'mytable'.{NAME => 'colfam1',IN_MOMERY => 'true'} 3、布隆过滤器 存储一个多余索引,它随着行或列限定符的增加而增加。 create 'mytable',{NMAME => 'colfam1',BLOOMFILTER => 'ROWCOL'} 行级布隆过滤器:ROW 列限定符布隆过滤器:ROWCOL 设置生存时间(TTL) create 'mytable',{ 'NAME' => 'colfam1', TTL => '18000'} //18000秒 5小时 4、压缩 推荐使用压缩,除非服务器CPU有限定要求。支持LZO、Snappy和GZIP。LZO和Snappy是比较流行的两种,Snappy是google发布,不必单独安装,LZO受源生路影响,必须单独运行。...
悲喜世界 发布于 7小时前 阅读 4

详解SLB、EIP、NAT网关, 合理选择云上公网入口

开始 阿里云的公网入口产品共有三个,SLB、EIP、NAT网关,这几个产品都可以作为云上资源的公网入口,他们之间有何区别,又分别应该在什么场景下使用呢? 概念 负载均衡SLB 对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 可见云计算中的负载均衡除了通过流量分发让后端的服务器负载均衡,还有两个重要的用途,一就是消除单点故障,因为一般负载均衡后端挂载有多台ecs服务器,当某一台不工作时,系统的可用性不会受到影响;二是通过多台后端服务器一起工作,以扩展应用系统的整体处理能力。 拿刚刚过去的双十一举例,大家都知道,2017年双11又创造了新纪录,全天交易额1682亿,交易峰值32.5万笔/秒,支付峰值25.6W笔/秒,如此海量的访问请求,是再强大的服务器也无法支撑的,因此需要n多台服务器一起来提供服务,而这些服务器的调度都需要依赖负载均衡SLB,负载均衡SLB接收到用户的请求,智能调度到后端的服务器进行处理,并将处理后的结果返回给用户,完成了单台服务器不可能完成的任务。 注意:负载均衡SLB仅提供被动访问公网的能力,即后端ECS只能在收到通过负载均衡SLB转发来的公网的...
Mr_zebra 发布于 8小时前 阅读 2

阿里云上弹性伸缩kubernetes集群 - autoscaler

阿里云Kubernetes服务简化了K8S集群的创建、升级和手动扩缩容。然而使用Kubernetes集群经常问到的一个问题是,我应该保持多大的节点规模来满足应用需求呢? Autoscaler的出现解决了这个问题,它可以自动的根据部署的应用所请求的资源量来动态的伸缩集群。 tips: 一个好的实践是显示的为你的每个应用指定资源请求的值request. 前置条件 为了实现集群规模的自动扩展,需要完成以下工作。 使用阿里云Kubernete服务在阿里云某个Region创建一个kubernetes集群,这里以杭州Region为例。创建集群请参考。 在相应的Region(示例杭州)创建ESS弹性伸缩实例,并配置。 获取kubernetes集群的添加节点命令 为了使得ESS实例节点可以动态加入Kubernetes集群,我们需要获取Kubernetes集群添加节点命令作为,ESS伸缩组的userdata数据。 进入上一步创建好的Kubernetes集群的管理控制台,选择刚刚创建的集群,点击[更多]->[添加已有节点]: 拷贝黑框中的内容备用: 我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。 curl http://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/pkg/run/a...
Mr_zebra 发布于 8小时前 阅读 1

何勉:第一性原理和精益敏捷的规模化实施

导读:什么是第一性原理?第一性原理如何指导我们的精益敏捷开发?阿里资深解决方案架构师、畅销书《精益产品开发:原则、方法与实施》作者何勉,结合实践案例,详述第一性原理和精益敏捷的规模化实施。   前言   今天分享的题目是第一性原理和精益敏捷的规模化实施。   我们讲第一性原理,先从它的反面“货物崇拜”说起。   货物崇拜发生在西南太平洋的小岛,二战时期美军在这里驻军,美军撤走以后小岛发生一个很奇特的现象,小岛的原住民部落中兴起一个宗教仪式——他们用草木搭起飞机模型,并作为图腾来崇拜。   他们每年定期会在自己的身体上画出USA三个大字母立队行军,拿着木头枪游行,并拜飞机,手里还会拿树叶翻来翻去,大家猜猜他们在干什么?     他们觉得美军不需要打猎、捕鱼却有充分的物资,这些物资都是岛民没有见过的好东西。他们认为美军只是普普通通的人,美军的种种行为是在召唤神灵——也就是被他们称为铁鸟的飞机,铁鸟带来无穷无尽的物资,而这本是祖先赐予他们礼物的,结果却被美军劫持了。 我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。   他们...
Mr_zebra 发布于 8小时前

阿里云视频AI全能力解读

摘要: 结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。 点此查看原文:http://click.aliyun.com/m/40746/ 写在前面 近期,阿里视频云推出了智能视频解决方案,依托阿里云强大的计算能力和多媒体人工智能技术,可以提高视频审核、处理的效率,助力视频产业加速。 行业背景 根据行业报告显示,2017上半年中国在线视频行业用户规模已经接近6亿,而2017年在线视频市场规模已经达到了503.3亿元,视频行业进入了用户规模稳中有升、市场规模快速扩大的阶段。其中直播、短视频等视频形态的崛起和大范围的行业交叉分布也带动了PGC、UGC的内容发展,海量的视频等多媒体数据随之产生。 市场...
阿里云云栖社区 发布于 8小时前 阅读 2

移动互联网、物联网、大数据、人工智能加持的智能家居要如何改进安全?

随着互联网时代的到来,人们的生活和生产技术水平不断提高,在人工智能技术的引领下,智慧生活已经开始由想象变成现实。在过去的一年中,人工智能技术的发展正在悄然推动着智能家居市场竞争格局的变化,而在众多的科技巨头企业促进人工智能市场发展成熟之后,人工智能家居也迎来了智能家居时代的风口。 在移动互联网快速发展的时代,互联网信息共享和大数据、云计算等互联网技术在不断更新换代,而在互联网的发展和硬件技术进步推动下,各行各业发展都已经离不开互联网技术,从而形成“万物互联”的物联网时代,人工智能技术对万物赋能让实物对人类有了更大的帮助。根据《2017年中国消费升级研究分析报告》数据,在智能化成为人们生活水平提高的推手之后,人们对智能产品的期待度日益提高,并且随着人工智能技术的不断进步,预计到2020年,智能手机、智能电视、智能洗衣机、智能空调、智能冰箱等智能家居产品的普及程度预计将达99%、93%、45%、55%、38%,人工智能家居的未来市场广阔。 我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。 但是在智能家电快速发展的同时,安全问题也不...
Mr_zebra 发布于 8小时前

阿里云智能视频 AI 重装来袭

摘要: 近日,阿里云重磅推出视频点播新功能——视频AI ,基于深度学习、计算机视觉技术和海量数据,为广大用户提供多场景的视频AI服务。 点此查看原文:http://click.aliyun.com/m/40809/ 近日,阿里云重磅推出视频点播新功能——视频AI,基于深度学习、计算机视觉技术和海量数据,为广大用户提供多场景的视频AI服务。   全新项目 视频智能AI服务是阿里云全新推出的新功能,不仅可以极大提高工作效率,还能够节省人工成本和计算成本,具有完善的标签体系、高精准度、检测快速、服务方式灵活等核心优势:     多模态分析,标签体系完善。视觉、语音、文本、运动等多模态信息分析技术,并且综合优酷、土豆、UC海外视频标签体系打造最全面的视频标签系统; 千人千面,高精准度。利用多项AI技术,深度理解视频,并基于用户的信息和行为,结合封面图属性,精准定向输出视频封面; 实战检验,海量数据快速检测。基于云计算平台,经阿里强大视频生态环境的验证,拥有海量样本及丰富模型分析经验,稳定成熟应对海量数据的快速检测; 灵活的服务方式。与视频点播产品无缝对接,同时支持通过API方式,与用户媒资系统、审核系统快速集成,进而提供更灵活的服务方式。   场景应用...
阿里云云栖社区 发布于 8小时前 阅读 1

(Tensorflow系列2)Anaconda里安装Tensorflow

选择Anaconda的原因是之前了解pandas的时候就是用的这个工具,使用起来很方便。
bingyanlengyu 发布于 8小时前 阅读 1

利用python对nmon文件提取相关属性

在对上篇博文从集群中提取监控文件nmon上传ftp后,从ftp下载到本地。如果利用nmon analyser对上百个的每个nmon文件做打开,提取操作的话会非常麻烦,故写了一个python脚本用来提取各种指标。但是,还没有实现全自动化,还需手动调整,后期继续修改
九_天 发布于 14小时前 阅读 3

K-NN算法与K-Means算法的原理与区别(附带源码示例)

  KNN算法 K-Means算法 目标  确定某个元素所属的分类 将已存在的一系列元素分类 算法类别 监督的分类算法 无监督的聚类算法 数据区别 训练数据中,有明确的标签。 如:一个数据集中有几万张图片,都被打上了“苹果”的标签,另外还有几万张图片,被打上了“香蕉”的标签,数据是完全正确,知道结果的数据 几十万张各种各样水果的图片放一起,杂乱无章。 训练过程 无需训练(或者没有很明显的训练过程),将数据与训练数据直接对比 需要前期训练 K的含义 K指的是相邻数据的数目。 举个例子,假设某张图片相邻的20张图片中,有18张是打着“苹果”标签的数据,有1张是“香蕉”,1张是“樱桃”,那么这张图片的标签也是“苹果”。 那么在这个例子中,K就是20,20张相邻的图片。 K指的是分类的数目,人为设定好分为K个簇。 对比结果 K值不变的情况下,每次结果都是一样的。 K值确定后每次结果可能不同。   1、KNN算法,本质是一种数据统计的方法。 1.1  欧几里得距离 欧几里得距离通俗来讲就是高中数学中直角坐标系求两点间的距离,二维公式:|x| = √( x2 + y2 ) 1.2  距离计算 假设我们现在要对某张图片进行识别,大概是个怎样的思路呢(仅供理解,实际开发中更复杂)?...
NateHuang 发布于 23小时前 阅读 190 打赏 3

阿里云MaxCompute印度开服,加速大数据产业升级

摘要: 2018年1月18日,阿里云大数据计算服务MaxCompute将在印度正式开服。通过MaxCompute强大的计算能力,阿里云将加速印度大数据产业的全面升级。 点此查看原文:http://click.aliyun.com/m/40728/ 2018年1月18日,阿里云大数据计算服务MaxCompute将在印度正式开服。通过MaxCompute强大的计算能力,阿里云将加速印度大数据产业的全面升级。 印度作为全球为数不多能保持互联网高增长的新兴市场,是全球各云厂商的必争之地。在半年前的云栖大会上海峰会上,阿里云宣布正式进入印度市场,并将于2018年3月31日前在孟买建成首个数据中心。 届时,阿里云大数据计算旗舰平台MaxCompute将同期开服,有望成为印度大数据产业发展加速器。    印度,以软件行业闻名于世,无论硅谷,还是各大科技公司,都不乏印度的软件精英。而近年来大数据产业的迅猛发展,更是让印度软件行业找到的新的增长机遇,带来了新的爆发点。由此可见大数据产业势必成为影响印度经济的重要因素。有行业专家日前透露,印度的大数据分析行业规模预计将从当前的20亿美元增长到2025年的160亿美元,增幅达8倍。而在这一增幅背后,必须以强劲的计算能力作为支撑。 据了解,本次在印度开服的阿里云大数据计算服务...
阿里云云栖社区 发布于 1天前 阅读 3

(Tensorflow系列1)把Fedora linux安装在U盘里

为了学习人工智能,我需要一个稳定的Linux系统,经过思考选择了fedora。 访问Fedora官网:https://getfedora.org/en/workstation/download/ 阅读后发现可以在U盘里启动Fedora,如果成功的话我就不用在电脑上安装双系统或者在虚拟机里跑linux了。于是找了个16G的u盘开始了我的安装之路。 首先下载一个Fedora Media Writer 并安装,我是在windows7系统里下载的,页面自动帮我检测了下载的版本。 手动下载Fedora的iso镜像,因为在Fedora Media Writer里无法下载,始终都报无法连接的错误。 运行Fedora Media Writer,选择Custom image,然后选择下载的ISO镜像文件,然后写到准备好的U盘里(会删掉U盘里的文件哦!)。 重启电脑,选择U盘启动。然后就进入了Fedora Linux,非常好看的桌面背景图片。可惜这个系统每次启动后之前对系统的修改都消失了,就是说系统只可以读不可写的。 使用这个usb可以给另外一个usb安装可以读写的Fedora Linux。usb我用的是16G的,感觉有点小。 这里提供一个不错的帖子,是基于Ubuntu安装的tensorflow。 http://www.leiphone.com/news/201606/ORlQ7uK3TIW8xVGF.html  ...
bingyanlengyu 发布于 1天前 阅读 5

洪泰智造工场&腾讯云创业加速营全球招募

洪泰智造工场&腾讯云创业加速营全球招募 招募时间:2018年 1 月 22日-2018年 2 月 28日 创业加速营 洪泰智造工场与腾讯云联合创办的创业加速营项目,旨在依靠洪泰智造工场的王牌专家团队和技术孵化平台,借力腾讯云全面先进的云服务和人工智能技术,结合全面、深度、高水平的创业课程培训体系,帮助优质的智能制造创业项目克服技术、资源、资金、市场推广等方面的困难,完成从创业项目到行业独角兽的成长。 创业加速营内容 【创业培训课程】+【腾讯云AI赋能】+【智能制造技术孵化】 创业加速营入孵项目收益 从概念到量产的技术孵化:华为、摩托罗拉技术专家亲自一对一指导 创业培训课程:涵盖智能制造技术、人工智能服务、投融资技巧的名师培训课程 投融资服务:为毕业项目提供资本对接服务 腾讯云服务免费使用:涵盖云计算、大数据、管理工具等上百种服务 腾讯云AI技术植入与指导:智能鉴黄、文字识别、人脸识别、语音识别等,应用于顺丰、大众点评、知乎等知名产品与品牌的人工智能服务 腾讯效果广告服务:腾讯云给获奖企业赠送的腾讯效果广告平台的代金券,支持在QQ、微信朋友圈等流量平台的广告投放 【洪泰智造工场&腾讯云扶持与奖励服务包】 入选创业加速营的项目即可...
云加社区 发布于 1天前 阅读 4

机器学习、深度学习 知识点总结及面试题

1、反向传播思想: 计算出输出与标签间的损失函数值,然后计算其相对于每个神经元的梯度,根据梯度方向更新权值。   (1)将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;   (2)由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层; (3)在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。   2、无监督逐层训练:预训练:每次训练一层隐结点。训练时将上一层隐结点的输出作为输入,而本层隐结点的输出作为 下一层隐结点的输入。在预训练结束后,再对整个网络进行微调训练。   3、DNN:指深度神经网络,与RNN循环神经网络、CNN卷积神经网络的区别就是,DNN特指全连接的神经元结构,并不包含卷积单元 或时间上的关联。   一、DBN:(预训练+微调) 思想:整个网络看成是多个RBM的堆叠,在使用无监督逐层训练时,首先训练第一层,然后将第一层预训练好的隐结点视为第二层的输入节点,对第二层进行预训练,各层预训练完成后,再用BP算法对整个网络进行训练。   整体解释:预训练+微调 的做法可视为将大量参数分组...
Mr_zebra 发布于 1天前 阅读 1

【AI比人更擅长妥协】Nature子刊全新机器学习算法探讨人机合作

电脑可以轻松在国际象棋中取胜,并能够很快在其他零和游戏中成为人们的对手。因为教它们竞争很容易,但教它们合作和妥协就不一定了。 BYU计算机科学教授Jacob Crandall和Michael Goodrich以及麻省理工学院和其他大学的同事创造了一种新算法,让机器的妥协和合作不仅变成可能,而且有时甚至比人类更有效。 研究人员使用S#算法对机器进行编程,并通过各种双人游戏运行它们,以了解它们在某些关系中的合作程度。该团队测试了机器之间、人机之间和人与人之间的相互作用。在大多数情况下,使用S#编程的机器在寻找让双方都受益的妥协方面胜过了人类。 Crandall说:“最终的目标是我们了解与人合作背后的数学,人工智能需要用什么来培养社交技能。”他的研究是关注人工智能需要能够对我们做出回应并阐明它在做什么,它必须能够与其他人进行互动。 这项研究最近发表在Nature Communications上,以下是对研究的要点介绍。 研究概述:开发能够与人合作的机器学习算法 自从图灵提出人工智能开始,技术进步往往是通过在零和博弈(例如,象棋、扑克或围棋)中,机器击败人类的能力来衡量。较少有人关注人机合作这一有利且重要的情景,例如人类与机器的利益偏好既不完全一致,但也不完全...
Mr_zebra 发布于 1天前

基于容器技术的阿里云区块链优势和实现方法

以下内容根据演讲PPT及现场分享整理:     在2017年北京云栖大会的“开发者服务专场”上,阿里云高级技术专家余珊带来了《敏捷智连——基于容器技术的区块链业务创新》的精彩分享。分享中,他重点从阿里云容器服务和区块链项目解决方案等方面介绍了阿里云区块链技术优势。   区块链的基本概念 区块链技术是分布式共享账本技术,主要运用于互联网数据库技术,旨在参与区块链网络的交易各方及监管方共享,每方均持有一份账本。特点是一旦交易经过各方确认达成共识并写进账本,则账本不可被更改;交易历史可以回溯;交易信息和交易方身份均获得隐私保护;交易通过智能合同自行执行。   区块链类型划分为公有链、私有链和联盟链。关键技术有共识算法、密码学和分布式体系架构。该技术可用于解决信任问题、实现去中心化/多中心化。我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。   Hyperledger Fabric隶属于Linux基金会,是超级账本Hyperledger项目下最具影响力的子项目,同时也是最具应影响力的区块链基础架构之一。项目基于Apache License v2进行开发,使用Go语言进行编程。C...
Mr_zebra 发布于 1天前 阅读 1

阿里安全工程师“还原”网络黄牛软件之“黑江湖”

阿里安全归零实验室成立于2017年11月,实验室致力于对黑灰产技术的研究,愿景通过技术手段解决当前日益严重的网络违规和网络犯罪问题,为阿里新经济体保驾护航。目前团队也在不断的招聘各种优秀人才,研发专家、数据分析专家、情报分析与体系化专家等,欢迎加盟,联系邮箱back2zero@service.alibaba.com。 楔子 天下熙熙,皆为利来;天下攘攘,皆为利往。有人的地方就有江湖,有江湖的地方就有利益纷争,就有勾心斗角,就有尔虞我诈,这个社会从来如此。众生百态,如今这种传统在互联网圈内以一种赤裸裸的方式展现在每个人的面前,黄牛只是其中的冰山一角。但窥一斑而知全豹,黄牛软件作者、代理、用户,在这种奇妙的三角关系中,相爱相杀,而这背后映射着的是今天整个互联网黑灰产的普相。 老枪 老枪的软件几乎圈内人手一份,这些人的大多数都是靠老枪的软件起家的。有次各大电商平台安全防护升级,圈内其他软件都崩盘了,包括老枪的软件。但老枪是圈内唯一一个在一天时间内解了这个问题的人。老枪的这一尊称并未浪得虚名。 我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。 老枪并...
Mr_zebra 发布于 1天前

火车票抢票代码公开揭秘

火车票抢票代码公开揭秘
闵开慧 发布于 2周前 阅读 7510 评论 55 点赞 14

文本识别OCR浅析:特征篇

OCR技术浅探:特征提取(1) 研究背景 关于光学字符识别(Optical Character Recognition, 下面都简称OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader不仅正确率高(包括对中文的识别),而且还能保留大部分的排版效果,是一个非常强大的OCR商业软件. 然而,在诸多的OCR成品中,除了Tesseract OCR外,其他的都是闭源的、甚至是商业的软件,我们既无法将它们嵌入到我们自己的程序中,也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR,但它的识别效果不算很好,而且中文识别正确率偏低,有待进一步改进. 综上所述,不管是为了学术研究还是实际应用,都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面,逐步进行解决,最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别,以判断上面信息的真伪. 研究假设 在本文中,我们假设图像的文字部分有以下的特征: 1. 假设...
失败人士 发布于 4周前 阅读 1689 评论 8 点赞 8

手把手教你用1行代码实现人脸识别 -- Python Face_recognition

1行代码实现人脸识别,1. 首先你需要提供一个文件夹,里面是所有你希望系统认识的人的图片。其中每个人一张图片,图片以人的名字命名。2. 接下来,你需要准备另一个文件夹,里面是你要识别的图片。3. 然后你就可以运行face_recognition命令了,把刚刚准备的两个文件夹作为参数传入,命令就会返回需要识别的图片中都出现了谁,1行代码足以!!!
kangvcar 发布于 3个月前 阅读 4185 评论 34 点赞 8 打赏 2

调用腾讯优图开放平台进行人脸识别-Java调用API实现

调用腾讯优图开放平台进行人脸识别-Java调用API实现
小帅帅丶 发布于 5个月前 阅读 3218 评论 10 点赞 5

TensorFlow入门

TensorFlow入门介绍
随风溜达的向日葵 发布于 9个月前 阅读 5176 评论 17 点赞 9

人工神经网络之几何原理Ⅰ:单(隐藏)层神经网络

本文旨在通过几何方法来阐述为何人工神经网络能够有效地工作。
chishaxie 发布于 11个月前 阅读 2708 评论 16 点赞 5 打赏 1
顶部