精彩博客

最近邻搜索

* [The Homepage of Nearest Neighbors and Similarity Search](http://simsearch.yury.name/tutorial.html) * [Approximate Nearest Neighbor search in Go](https://mathetake.github.io/blogs/gann.html)

2018/08/29 10:47
634
0
基于KD-Tree的最近邻搜索

目标:查询目标点附近的10个最近邻邻居。 load fisheriris x = meas(:,3:4); figure(100); g1=gscatter(x(:,1),x(:,2),species); %species分类中是有三个分类:setosa,versicolor,virginica legend('Location','best') newpoint = [5 1.45]; line(newpoint(1),newpoint(2),'marker','x','color','k',... 'markersize',10,'linewidth',2) Mdl = KDTreeSearcher(x) ; [n,d] = knnsearch(Mdl,newpoint,'...

2018/11/27 20:01
670
0
PCL近邻搜索相关的类

首先PCL定义了搜索的基类pcl::search::Search<PointInT> template<typename PointT> class Search 其子类包括:KD树,八叉树,FLANN快速搜索,暴力搜索(brute force),有序点云搜索。 The pcl_search library provides methods for searching for nearest neighbors using different data structures, including: kd-trees (via libpcl_kdtree); octrees (via libpcl_octree); brute force; specialized search for org...

2018/11/20 16:57
54
0
结构化、半结构化、非结构化数据

结构化数据:具有既定格式的实体化数据,如常用的XML文档 半结构化数据:格式松散,即使有格式也常被忽略,结构只能作为数据结构的一般性指导,如电子表格 非结构化数据:没结构数据,如图像、纯文本.

2017/10/30 09:57
819
0
MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

摘要: MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断扩展,新的数据使用场景也在不断产生。在这样的背景下,MaxCompute(ODPS)计算框架持续演化,而原来主要面对内部特殊格式数据的强大计算能力,也正在一步步的通过新增的非结构化数据处理框架,开放给不同的外部数据。 前言 MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件...

2018/03/30 11:42
421
0
MaxCompute(ODPS)上处理非结构化数据的Best Practice

摘要: 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取OSS数据进行计算处理; 本文:MaxCompute(ODPS)上处理非结构化数据的Best Practice。 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 1、MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取O...

2018/05/14 19:51
569
0
MaxCompute读取分析OSS非结构化数据的实践经验总结

摘要: 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。 1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的...

2018/06/20 15:12
532
0
我被“非结构化数据包围了”,请求支援!

阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”...

2019/09/09 10:44
378
0
Python爬虫(七)_非结构化数据与结构化数据

页面解析与数据提取 实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全部爬下来) 取(分析数据,去掉对我们没用处的数据) 存(按照我们想要的方式存储和使用) 表(可以根据数据的类型通过一些图标展示) 以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。 数据,可分为非结构化数据和结构化数据 非结构化数据:先有数据,再有...

2019/09/22 23:14
666
0
非结构化数据与结构化数据提取---正则表达式re模块

页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 文本、电话号码、邮箱地址 正则表达式 HTML 文件 正则表达式 XPath CSS选择器 结构化的数据处理 JSON 文件 JSON Path 转化成P...

2018/10/13 10:40
149
0
非结构化数据与结构化数据提取----XPath与lxml类库

什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官方文档:http://www.w3school.com.cn/xml/index.asp XML 和 HTML 的区别 数据格式 描述 设计目标 XML Extensible Markup Language (可扩展标记语言) 被设计为传输和存储数据,其焦点是数...

2018/10/13 10:47
92
0
非结构化数据存储方案

ceph 官方网站:http://docs.ceph.org.cn/ 简单介绍: Ceph是一个开源的分布存储系统,同时提供对象存储、块存储和文件存储。linux内核2.6.34将ceph加入到内核中,红帽基于ceph出了redhat ceph storage. 支持TB级存储 支持高可用、容灾备份(当然了,这是存储的常见功能) 支持上百节点的负载均衡 系统架构: OpenStack Swift 官方网站:https://docs.openstack.org/swift/latest/ 简单介绍: OpenStack的存储项目,提供了弹性可...

2018/08/17 18:09
73
0
非结构化数据和结构化数据提取

页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 文本、电话号码、邮箱地址 正则表达式 HTML 文件 正则表达式 XPath CSS选择器 结构化的数据处理 JSON 文件 JSON Path 转化成P...

2018/08/08 07:17
146
0

没有更多内容

加载失败,请刷新页面

没有更多内容

逃离 HTML + CSS

背景 当下,构建交互式应用程序的主流技术是 Web 技术,其中包括 HTML、CSS 与 JavaScript。在过去的 10 年,Web 技术生态发生了翻天覆地的变化,包括层出不穷的开发框架,诸如 React、Vue、...

05/09 17:17
1.5W
0
用一只小猪来解释 On-Prem, IaaS, PaaS 和 SaaS 的区别

亚马逊云科技首席布道师 Jeff Barr 在[推](https://x.com/jeffbarr/status/892767314168365056)上发过一张图,用一只小猪🐷讲清了 On-Prem, IaaS, PaaS 和 SaaS 的区别。 虽然历史悠久,但...

05/09 12:34
6.8K
2
揭露 FileSystem 引起的线上 JVM 内存溢出问题

作者:来自 vivo 互联网大数据团队-Ye Jidong 本文主要介绍了由FileSystem类引起的一次线上内存泄漏导致内存溢出的问题分析解决全过程。 内存泄漏定义(memory leak):一个不再被程序使用的...

05/08 11:32
4.1K
1
视觉语言模型详解

视觉语言模型可以同时从图像和文本中学习,因此可用于视觉问答、图像描述等多种任务。本文,我们将带大家一览视觉语言模型领域: 作个概述、了解其工作原理、搞清楚如何找到真命天“模”、如何...

05/06 11:42
6.8K
0
模型量化与量化在LLM中的应用 | 得物技术

一、模型推理优化 随着模型在各种场景中的落地实践,模型的推理加速早已成为AI工程化的重要内容。而近年基于Transformer架构的大模型继而成为主流,在各项任务中取得SoTA成绩,它们在训练和推...

04/30 10:10
5K
1
大模型下B端前端代码辅助生成的思考与实践 | 得物技术

一、背景 重复工作,代码规范:B端前端代码开发过程中开发者总会面临重复开发的痛点,很多CRUD页面的元素模块基本相似,但仍需手动开发,将时间花在简单的元素搭建上,降低了业务需求的开发效...

04/25 10:26
6.4K
1
短视频文案提取原来如此简单

结婚十年游西湖 过春风十里,尽荠麦青青。春天总是让人舒坦,而今年的三月,也因为与媳妇结婚十年,显得格外不同。两人奢侈的请了一天假,瞒着孩子,重游西湖,去寻找13年前的冰棍店(给当时...

04/22 14:50
9.7K
0
见鬼了!我家的 WiFi 只有下雨天才能正常使用...

这是作者大学时期在家里遇到的一个非常奇怪的网络问题,作者的父亲是一名经验丰富的网络工程师,他们家里使用了一个复杂的网络设置,通过 Wi-Fi 桥接的方式,将父亲公司的高速商业网络连接到...

04/22 10:01
2.1W
0
AI生图美学在淘宝的实践应用

本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。 美学的定...

04/19 16:20
5.4K
0
秒开率破90%!交易后台渲染性能优化 | 得物技术

一、前言 一直以来,体验都是得物技术部的关键词之一,对于前端开发而言,提高用户体验更是一项至关重要的工作。 本文从本次交易后台性能优化实践出发,同时介绍应用整体架构和设计,希望可以...

04/16 11:51
2.5K
2
高速服务框架HSF的基本原理

SOA解决方案——HSF(High-speed Service Framework)是阿里系主要采用的服务框架,其目的是作为桥梁联通不同的业务系统,解耦系统之间的实现依赖。 HSF简介 ▐ 背景 单体应用的主要问题是不同...

04/12 16:20
7.7K
2
实践总结|前端架构设计的一点考究

本文总结了作者在日常/大促业务的“敏捷”开发过程中产生的疑惑,并尝试做出思考得到一些解决思路和方案。在前端开发和实践过程中,梳理了一些简单设计方案可以缓解当时 “头疼” 的几个敏捷...

04/03 16:20
1.9K
0
C++从遗忘到入门

本文主要面向的是曾经学过、了解过C++的同学,旨在帮助这些同学唤醒C++的记忆,提升下自身的技术储备。如果之前完全没接触过C++,也可以整体了解下这门语言。 面向受众 本文主要面向的是曾...

04/01 16:20
7.8K
3
Docker容器编排技术解析与实践

本文全面探索了容器编排技术的核心概念、工具和高级应用,包括Docker Compose、Kubernetes等主要平台及其高级功能如网络和存储管理、监控、安全等。此外,文章还探讨了这些技术在实际应用中的...

04/01 15:28
1W
0
一文搞懂 Kafka consumer 与 broker 交互机制与原理

01 前言 AutoMQ 致力于构建下一代云原生 Kafka 系统,解决过去 Kafka 的诸多痛点问题,引领 Kafka 走向云原生时代。作为国内 Kafka 生态的忠实拥护者,我们将持续为 Kafka 技术爱好者带来优质...

03/29 18:40
7.7K
0
消息队列的七种经典应用场景

在笔者心中,消息队列,缓存,分库分表是高并发解决方案三剑客。 在职业生涯中,笔者曾经使用过 ActiveMQ 、RabbitMQ 、Kafka 、RocketMQ 这些知名的消息队列 。 这篇文章,笔者结合自己的真...

03/28 15:06
1.6W
1
同城双活:交易链路的稳定性与可靠性探索

知易行难,双活过程中遇到了非常多的问题,但是回过头看很难完美的表述出来,之所以这么久才行文也是这个原因,总是希望可以尽可能的复现当时的思考、问题细节及解决方案,但是写出来才发现能...

03/27 14:07
1.9K
0
分布式数据库技术的演进和发展方向

这些年大家都在谈分布式数据库,各大企业也纷纷开始做数据库的分布式改造。那么,所谓的分布式数据库到底是什么?采用什么架构?优势在哪?为什么越来越多企业选择它?分布式数据库技术会向什...

03/26 09:26
2K
0
消息队列选型之 Kafka vs RabbitMQ

在面对众多的消息队列时,我们往往会陷入选择的困境:“消息队列那么多,该怎么选啊?Kafka 和 RabbitMQ 比较好用,用哪个更好呢?”想必大家也曾有过类似的疑问。对此本文将在接下来的内容中...

03/22 14:52
3.4K
1
重新审视 CXL 时代下的分布式内存

消息传递与分布式共享内存 随着摩尔定律增长的逐渐减缓,系统规模的水平扩展已经成为提升系统性能的关键策略。然而,这种扩展依赖于分布式系统架构的支持,而分布式编程的固有复杂性给构建高...

03/21 16:23
766
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部