+
DevOps研发效能
媒体矩阵
开源中国APP
登录
注册
AI & 大数据
Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。
关注
181.9W
分享内容
链接分享
README badge
所有圈子
人工智能
大数据
深度学习
机器学习
流处理
推荐
项目
加载中
StreamPark
发表了博客
首个个人捐赠 Apache 的大数据项目毕业了
北京时间 2025 年 1 月 28 日,正值中国的除夕,在这辞旧迎新的除夕之夜,万家灯火点亮了团圆,全球最大的开源软件基金会 Apache Software Foundation(以下简称 ASF)的一则公告,为这个特别的夜晚增添了一份属于技术人的激动与自豪:Apache StreamPark 正式从 Apache 孵化器毕业,成为 Apache 软件基金会顶级项目(Top-Level Project, TLP),这一里程碑的达成标志着 StreamPark 在开源软件开发领域的突破,也象征着 StreamPa...
D
DevLake技术组
发表了博客
DevLake 加入 Apache 孵化器,开源共建 Apache 生态首个研发大数据平台
4 月 29 日,开源研发数据平台 DevLake 通过投票决议,正式成为 Apache 软件基金会 (ASF) 的孵化项目。  进入孵化器后,Apache DevLake 将遵循 The Apache Way[1],在导师们的引导下,坚持以人为本、社区高于代码的理念,持续建设包容、多元、崇尚知识的社区。 ## Apache DevLake 主要特性 作为开源的研发数据平台,DevLake 向软件研发团...
OPPO数智技术
发表了博客
大数据SQL优化之数据倾斜解决案例全集
1 什么是数据倾斜 数据倾斜即指在大数据计算任务中某个处理任务的进程(通常是一个JVM进程)被分配到的任务量过多,导致任务运行时间超长甚至最终失败,进而导致整个大任务超长时间运行或者失败。外部表现的话,在HiveSQL任务里看到map或者reduce的进度一直是99%持续数小时没有变化;在SparkSQL里则是某个stage里,正在运行的任务数量长时间是1或者2不变。总之如果任务进度信息一直在输出,但内容长时间没有任何变化的时候,大概...
华为云开发者联盟
发表了博客
大数据集群被窃取数据怎么办?透明加密可以一试
摘要:传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。 本文分享自华为云社区《FusionInsight MRS透明加密方案》,作者: 一枚核桃 。 概述 传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。 FusionInsight MRS引入了Hadoop KMS服务并进行...
华为云开发者联盟
发表了博客
想要面试大数据工作的50道必看题
摘要:是否对面试官在 Hadoop 面试中可能会问的所有问题感到不知所措?现在是时候通过一系列涵盖 Hadoop 框架不同方面的 Hadoop 面试问题了。 本文分享自华为云社区《2021 年你必须准备的 50 大 Hadoop 面试问题》,作者:Donglian Lin 。 在本文中,我们将涵盖所有常见问题,这些问题将帮助您通过最佳解决方案在面试中胜出。但在此之前,让我告诉您对大数据和 Hadoop 专家的需求是如何持续增长的。 美国大数据 Hadoop 开发人员...
华章IT
发表了博客
手把手教你用pandas处理缺失值
作者:韦斯·麦金尼(Wes McKinney) 译者:徐敬一 来源:大数据DT(ID:hzdashuju) 导读:在进行数据分析和建模的过程中,大量的时间花在数据准备上:加载、清理、转换和重新排列。本文将讨论用于缺失值处理的工具。缺失数据会在很多数据分析应用中出现。pandas的目标之一就是尽可能无痛地处理缺失值。 pandas对象的所有描述性统计信息默认情况下是排除缺失值的。 pandas对象中表现缺失值的方式并不完美,但是它对大部分用户来...
网易数帆
发表了博客
Spark + Kyuubi + Iceberg = Lakehouse
Spark 开源地址:https://spark.apache.org/ 开源的、强大的计算引擎。 官网下载Release,比如:Spark 3.1.2 进入解压目录,运行: sbin/start-master.sh 启动 Spark Master 运行: sbin/start-worker.sh spark://_YOUR_HOST_NAME_:7077 启动 Spark Worker Spark Standalone集群启动成功! Kyuubi 开源地址:https://kyuubi.apache.org/ 支持多租户的升级版的Hive Thrift Server。大大降低了Spark的使用门槛,只用SQL就能使用Spa...
恒生LIGHT云社区
发表了博客
大数据之路 ——(一)算法建模中的数据清洗
>作者:Mochou > >来源:[恒生LIGHT云社区](https://developer.hs.net/thread/1262 "恒生LIGHT云社区") 在当前大数据的背景下,数据处理占了极大的份额,就像一个西红柿做成西红柿炒鸡蛋,需要经过调料整合,菜料清洗,饭菜加工等等才能发布到生产,不,发送到餐桌。 这里简单分享一下我对数据清洗的理解,其具有很重要的地位,不然面对着脏乱差的西红柿炒鸡蛋,没人愿意下口。 **一份未经清洗过的数据一般会存在这些不符合分析...
百度Geek说
发表了博客
解密百TB数据分析如何跑进45秒
 **导读**:简述了大数据处理的技术实践,从高实时性、秒级查询、交互式分析等方面进行详述。同时,介绍了离线任务管理的拓展领域。希望给读者带来一些启发,更希望能引起志同道合者的共鸣和探讨。 _全文2054字,预计阅读时间 6分钟。_  ![图片]...
Yezhiwei2008
发表了博客
大数据 ETL 处理工具 Kettle 的核心概念
### 宏观了解 Kettle 上一篇中对 Kettle 进行了简单的介绍,并快速体验了一把 Kettle,完成了「把数据从 CSV 文件复制到 Excel 文件」 HelloWrold 级别的功能。 而在实际工作中,可以使用 Kettle 的图形化的方式定义复杂的 ETL 程序和工作流,如下图就是通过一系列的转换(Transformation) 完成一个作业(Job)流程。  # 02、爬取观影数据 ## 数据来源 ```python https://movie.douban.com/ ```  **导读**:所谓黑灰产,包含网络黑产、灰产两条产业链,随着互联网的飞速发展,网络黑灰产也在不断演变,当前网络黑灰产已经趋于平台化、专业化、精细化运作。基于黑灰产攻击特点,我们提出了一种基于社群编码的黑灰产攻击识别方法,社群发现部分基于图关系,编码部分引入大规模的图嵌入表示学习。...
美团技术团队
发表了博客
美团外卖广告智能算力的探索与实践
> 在深度学习时代,算力的需求和消耗日益增长,如何降低算力成本,提高算力效率,逐渐成为一个重要的新课题。智能算力旨在对算力进行精细化和个性化分配,实现最优化资源利用。本文主要分享美团外卖广告在智能算力探索和实践过程中积累的经验,希望能给大家带来一些帮助或者启发。  ## 1. 业务背景 目前,美团外卖日订单量已突破4000万,成...
数据社
架构师
发表了博客
ETL的灵魂:调度系统
图片拍摄于郑州大学新校区 大家好,我是一哥,最近有小伙伴私聊我说他们的调度系统经常出问题,领导要求大家人在哪电脑背到哪,家庭生活一地鸡毛……,其实我也有类似的经历,今天给大家分享一下做调度系统的一些经验! 目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑hive/spark任务,定时推送日报、月报指标数据。任务调度系统已经俨然成为了大数据处理平台不可或...
敏捷调度TASKCTL
架构师
发表了博客
ETL工程师必看!超实用的任务优化与断点执行方案
前言 随着大数据时代的快速发展,企业每天需要存储、计算、分析数以万亿的数据,同时还要确保分析的数据具备及时性、准确性和完整性。面对如此庞大的数据体系,ETL工程师(数据分析师)如何能高效、准确地进行计算并供业务方使用,就成了一个难题。 作为一家数据智能公司,个推在大数据计算领域沉淀了丰富的经验。本篇文章将对大数据离线计算过程中出现的任务缓慢和任务中断这两大痛点问题提出解决思路,期望读者能够有所收获。...
帆
帆软
发表了博客
三个数据分析里最难攻破的“悖论”,每一个都令人费解
跟数据打的交道越多,就越可能对数据产生绝对的信赖感,但其实在实际业务中,数据往往会“说谎”,今天给大家介绍三个数据分析中常见的悖论: 1、辛普森悖论 辛普森悖论是数据分析中最常见的悖论之一,举个最实际的例子来说: 鸭堡某学期期末考试,考数学、物理、化学三科,A的数学比B高2分,物理比B高15分,化学比C高3分,请问A的总分是否比B高? 很多人会说,这不是废话么,问题太简单了,当然是A的总分比B高了! 实际上很可能...
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
顶部