本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。
本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
4 月 29 日,开源研发数据平台 DevLake 通过投票决议,正式成为 Apache 软件基金会 (ASF) 的孵化项目。 ![file](https://oscimg.oschina.net/oscnet/up-866fad019537fc9304028f812446cc84333.jpg) 进入孵化器后,Apache DevLake 将遵循 The Apache Way[1],在导师们的引导下,坚持以人为本、社区高于代码的理念,持续建设包容、多元、崇尚知识的社区。 ## Apache DevLake 主要特性 作为开源的研发数据平台,DevLake 向软件研发团... 展开更多
1 什么是数据倾斜 数据倾斜即指在大数据计算任务中某个处理任务的进程(通常是一个JVM进程)被分配到的任务量过多,导致任务运行时间超长甚至最终失败,进而导致整个大任务超长时间运行或者失败。外部表现的话,在HiveSQL任务里看到map或者reduce的进度一直是99%持续数小时没有变化;在SparkSQL里则是某个stage里,正在运行的任务数量长时间是1或者2不变。总之如果任务进度信息一直在输出,但内容长时间没有任何变化的时候,大概... 展开更多
摘要:传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。 本文分享自华为云社区《FusionInsight MRS透明加密方案》,作者: 一枚核桃 。 概述 传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。 FusionInsight MRS引入了Hadoop KMS服务并进行... 展开更多
摘要:是否对面试官在 Hadoop 面试中可能会问的所有问题感到不知所措?现在是时候通过一系列涵盖 Hadoop 框架不同方面的 Hadoop 面试问题了。 本文分享自华为云社区《2021 年你必须准备的 50 大 Hadoop 面试问题》,作者:Donglian Lin 。 在本文中,我们将涵盖所有常见问题,这些问题将帮助您通过最佳解决方案在面试中胜出。但在此之前,让我告诉您对大数据和 Hadoop 专家的需求是如何持续增长的。 美国大数据 Hadoop 开发人员... 展开更多
作者:韦斯·麦金尼(Wes McKinney) 译者:徐敬一 来源:大数据DT(ID:hzdashuju) 导读:在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列。本文将讨论用于缺失值处理的工具。缺失数据会在很多数据分析应用中出现。pandas的目标之一就是尽可能无痛地处理缺失值。 pandas对象的所有描述性统计信息默认情况下是排除缺失值的。 pandas对象中表现缺失值的方式并不完美,但是它对大部分用户来... 展开更多
Spark 开源地址:https://spark.apache.org/ 开源的、强大的计算引擎。 官网下载Release,比如:Spark 3.1.2 进入解压目录,运行: sbin/start-master.sh 启动 Spark Master 运行: sbin/start-worker.sh spark://_YOUR_HOST_NAME_:7077 启动 Spark Worker Spark Standalone集群启动成功! Kyuubi 开源地址:https://kyuubi.apache.org/ 支持多租户的升级版的Hive Thrift Server。大大降低了Spark的使用门槛,只用SQL就能使用Spa... 展开更多
导读 / Introduction 近日,在国际顶级图学习标准OGB(Open Graph Benchmark)挑战赛中,腾讯大数据Angel Graph团队联合北京大学-腾讯协同创新实验室,以较大优势在三个最大的OGB分类数据集:ogbn-papers100M、ogbn-products和ogbn-mag三项任务榜单第一! OGB是目前公认最权威的图学习通用性能评价基准数据集,由斯坦福大学Jure Leskovec教授团队建立并开源,并吸引了斯坦福大学、康奈尔大学、Facebook、NVIDIA、百度、阿里巴巴... 展开更多
>作者:Mochou > >来源:[恒生LIGHT云社区](https://developer.hs.net/thread/1262 "恒生LIGHT云社区") 在当前大数据的背景下,数据处理占了极大的份额,就像一个西红柿做成西红柿炒鸡蛋,需要经过调料整合,菜料清洗,饭菜加工等等才能发布到生产,不,发送到餐桌。 这里简单分享一下我对数据清洗的理解,其具有很重要的地位,不然面对着脏乱差的西红柿炒鸡蛋,没人愿意下口。 **一份未经清洗过的数据一般会存在这些不符合分析... 展开更多
![图片](https://oscimg.oschina.net/oscnet/up-aa8276b65a35505f0fef28ca6129d7d8bbf.png) **导读**:简述了大数据处理的技术实践,从高实时性、秒级查询、交互式分析等方面进行详述。同时,介绍了离线任务管理的拓展领域。希望给读者带来一些启发,更希望能引起志同道合者的共鸣和探讨。 _全文2054字,预计阅读时间 6分钟。_ ![图片](https://oscimg.oschina.net/oscnet/up-93ade16ead76551a194504fa784f4bc95f1.png) ![图片]... 展开更多
摘要:业界期望使用机器学习技术来构建硬盘故障预测的模型,更准确地提前感知硬盘故障,降低运维成本,提升业务体验。本案例将使用随机森林算法来训练一个硬盘故障预测模型。 本文分享自华为云社区《基于随机森林算法进行硬盘故障预测》,原文作者:山海之光。 实验目标 掌握使用机器学习方法训练模型的基本流程; 掌握使用pandas做数据分析的基本方法; 掌握使用scikit-learn进行随机森林模型的构建、训练、保存、加载、预测、... 展开更多
# 01、前言 很多电影也上映,看电影前很多人都喜欢去 **『豆瓣』** 看影评,所以我爬取44130条 **『豆瓣』** 的用户观影数据,分析**用户之间**的关系,**电影之间**的联系,以及**用户和电影之间**的隐藏关系。 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/a128f93372f34cbc8a1ace62f6ac8413~tplv-k3u1fbpfcp-zoom-1.image) # 02、爬取观影数据 ## 数据来源 ```python https://movie.douban.com/ ``` ![](https://... 展开更多
> 常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。 ## 一、引言 在自然语言处理中,我们经常思考,怎么样才能做好自然语言的理解工作。对我们人类来说,理解某一个自然语言的文本信息,通常都是通过当前的信息,关联自己大... 展开更多
![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/7e4c6bf1ac45470cb75e0965f2ae6d35~tplv-k3u1fbpfcp-zoom-1.image) **导读**:所谓黑灰产,包含网络黑产、灰产两条产业链,随着互联网的飞速发展,网络黑灰产也在不断演变,当前网络黑灰产已经趋于平台化、专业化、精细化运作。基于黑灰产攻击特点,我们提出了一种基于社群编码的黑灰产攻击识别方法,社群发现部分基于图关系,编码部分引入大规模的图嵌入表示学习。... 展开更多
> 在深度学习时代,算力的需求和消耗日益增长,如何降低算力成本,提高算力效率,逐渐成为一个重要的新课题。智能算力旨在对算力进行精细化和个性化分配,实现最优化资源利用。本文主要分享美团外卖广告在智能算力探索和实践过程中积累的经验,希望能给大家带来一些帮助或者启发。 ![](https://oscimg.oschina.net/oscnet/up-9f736aac8249a3e43152fcae05903536ed5.JPEG) ## 1. 业务背景 目前,美团外卖日订单量已突破4000万,成... 展开更多
图片拍摄于郑州大学新校区 大家好,我是一哥,最近有小伙伴私聊我说他们的调度系统经常出问题,领导要求大家人在哪电脑背到哪,家庭生活一地鸡毛……,其实我也有类似的经历,今天给大家分享一下做调度系统的一些经验! 目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑hive/spark任务,定时推送日报、月报指标数据。任务调度系统已经俨然成为了大数据处理平台不可或... 展开更多
前言 随着大数据时代的快速发展,企业每天需要存储、计算、分析数以万亿的数据,同时还要确保分析的数据具备及时性、准确性和完整性。面对如此庞大的数据体系,ETL工程师(数据分析师)如何能高效、准确地进行计算并供业务方使用,就成了一个难题。 作为一家数据智能公司,个推在大数据计算领域沉淀了丰富的经验。本篇文章将对大数据离线计算过程中出现的任务缓慢和任务中断这两大痛点问题提出解决思路,期望读者能够有所收获。... 展开更多
本文总结了数据分析的几个阶段中最常犯的10个错误,以及规避的方法,收藏起来,分析不翻车! 一、数据采集阶段 1、数据失真 数据是可能骗人的,比如店铺、电影的评分,可能被人为操控;比如某公司发布的行业分析报告,也具有很大的主观性。 基于错误的数据,做出的分析结论是无益甚至是有害的。所以在采集数据时,我们先要考证数据的来源及可信度,还要关注不符合常理的数据变化,对数据采集方法进行调整。 2、幸存者偏差 就算数... 展开更多
跟数据打的交道越多,就越可能对数据产生绝对的信赖感,但其实在实际业务中,数据往往会“说谎”,今天给大家介绍三个数据分析中常见的悖论: 1、辛普森悖论 辛普森悖论是数据分析中最常见的悖论之一,举个最实际的例子来说: 鸭堡某学期期末考试,考数学、物理、化学三科,A的数学比B高2分,物理比B高15分,化学比C高3分,请问A的总分是否比B高? 很多人会说,这不是废话么,问题太简单了,当然是A的总分比B高了! 实际上很可能... 展开更多
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star! github开源项目:https://github.com/DTStack/flinkx gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx 2020年春节期间,一场突如其来的疫情... 展开更多