本专区由 运维 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
互联网产品技术支撑的4大部门之一,关注运维实践和最新技术,聚焦运维人员的角色转变和工作内容变化。
本专区由 运维 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
本月,Ruby on Rails 作者 DHH 宣布移除其团队开源项目 Turbo 8 中的 TypeScript 代码。 他认为,TypeScript 对他来说只是阻碍。不仅因为它需要显式的编译步骤,还因为它用类型编程污染了代码,很影响开发体验。 无独有偶,不久前,知名前端 UI 框架 Svelte 也宣布从 TypeScript 切换到 JavaScript。负责 Svelte 编译器的开发者说,改用 JSDoc 后,代码不需要编译构建即可进行调试 —— 简化了编译器的开发工作。 Svelte 不是第... 展开更多
> 运维平台是运维管理任务的重要组成部分,它主要负责监控系统的运行情况,及时发现系统的故障,其中包括性能分析、监控、故障诊断等。 同时,运维管理平台可以通过简单的操作完成系统的配置和更新,以及自动管理系统的日常运行。 ## 应用简览 Spug是面向中小型企业设计的轻量级无Agent的自动化运维平台,整合了主机管理、主机批量执行、主机在线终端、应用发布部署、在线任务计划、配置中心、监控、报警等一系列功能。 ## 主要... 展开更多
一、folio [ˈfoʊlioʊ] 是什么 1.1 folio 的定义 Add memory folios, a new type to represent either order-0 pages or the head page of a compound page. folio 可以看成是 page 的一层包装,没有开销的那种。folio 可以是单个页,也可以是复合页。 (图片引用围绕 HugeTLB 的极致优化) 上图是 page 结构体的示意图,64 字节管理 flags, lru, mapping, index, private, {ref_, map_}count, memcg_data 等信息。当 page 是... 展开更多
当下,eBPF 无疑是最火热的技术之一,它为云原生环境下的网络、安全和可观测性解决方案提供了全新的思路。 作为一种无需入侵应用代码、直接向操作系统内核安全添加代码的革命性技术,eBPF 使得企业能够不依赖内核固有的指标数据,直接编写代码收集自定义数据,并生成可观测性指标和事件。这不仅将可观测性扩展到内核,还能够实现零插桩的应用代码可观测性,同时保证了运行安全和开销可控。于是,不少人认为 eBPF 是可观测领域的... 展开更多
毫无疑问,在过去几年里,你可能已经多次听到过可观测性这个词。对于很多人来说,很难理解这个词的真正含义。对许多人来说,他们错误地将其等同于"监控"。虽然可观测性的根本定义以及它所包含的一切都不在本系列博文的讨论范围之内,但我强烈建议您购买一本由 Charity Majors (twitter)、Liz Fong-Jones (twitter) 和 George Miranda (twitter) 合著的《可观测性工程》(Observability Engineering)一书。 不过,本系列博文将介... 展开更多
在软件开发领域,GitOps 和 DevOps 是加强协作和实现软件交付流程自动化的重要技术。虽然这两种模式都旨在提高软件开发生命周期的效率,但它们的核心原则和实施方式却各不相同。 本篇文章将帮助您了解 GitOps 和 DevOps 之间的差异、它们的工作流程,并了解哪种方法更适合您的企业,以及决定采用哪种方法时要考虑的因素。通过阅读本文,您将对 GitOps 和 DevOps 的不同方面有一个清晰的了解,从而为您所在的企业做出合适的选择。... 展开更多
如果要评选研发效能管理中最重要的 10 个度量指标,相信 MTTR(Mean Time to Recover,平均恢复时间)一定榜上有名。 MTTR 代表一定周期内可修复系统不可用状态的平均持续时长,可以帮助企业更好地理解技术团队与研发工作,是评估系统可用性和可靠性的重要指标之一。LigaAI 详细分享过 MTTR 和 MTBF 等 9 个研发质量管理指标,欢迎点击文章回顾: 介绍 9 个研发质量度量指标 研发质量指标大 PK:MTTR vs MTBF,谁是靠谱王? 但是... 展开更多
笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨分享。本文主要内容包括: 可观测性在整个商业体系中的位置和价值 如何快速发现故障,使用哪类指标告警 SRE 在谈论故障定位的时候,谈的是什么 如何找到故障直接原因,找到止损依据 如何让可观测性系统呈现观点,辅助洞察,定位故障 ... 展开更多
最近 Reddit 的 r/golang 下有人问了一个[如何做数据库 schema 变更的问题](https://www.reddit.com/r/golang/comments/12mypec/how_do_you_handle_migrations/),不到一天,就有了超过 40 条回复。  数据库 schema 变更一直是让程序员头疼的问题,但又不得不面对,毕竟业务要发展,产品要迭代,添加新的功能往往需要去修改数据库的结构... 展开更多
## 指标监控的痛点 当下比较流行的监控系统,比如 Prometheus、Nightingale、VictoriaMetrics,都是基于数值型指标的监控系统,这类监控系统的痛点在于:告警的时候只能拿到异常值,以及有限的几个标签,难以拿到更详细的信息。比如 HTTP 探测监控,通常用监控值表示不同的错误: ``` Success = 0 ConnectionFailed = 1 Timeout = 2 DNSError = 3 AddressError = 4 BodyMismatch = 5 CodeMismatch = 6 ``` 告警的时候,比如你收... 展开更多
引言 阿里云实时计算Flink作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实时机器学习等多样化的应用场景。然而,随着系统的复杂性增加,用户在日常使用中往往需要面临诸如复杂的数据开发报错分析、任务运行报错处理、任务运行调优等疑难问题。 然而,由于错误日志分析透出和全链路异常诊断能力方面存在一定的不足。这些问题通常... 展开更多
很高兴宣布 Rocky Linux 9.2 正式发布,但细心的朋友可能在[系统下载](https://rockylinux.cn/download)页面会看到其中 ppc64le 架构还是 9.1 版本,说明对应的 9.2 版本发布推迟了,本质对国内用户来说没有什么太大的影响。前期的发布更新说明会比较官方,对于国内读者来说不够友好,所以这次希望有所改变,说人话。 # 重大变化 * centos-release-nfv 建立在 RHEL 9 buildroots 上。(软件包更新可靠、稳定) * 容器通用基础镜像... 展开更多
千里之行,始于足下 了解和掌握纯c语言的eBPF编译和使用,有助于我们加深对于eBPF技术原理的进一步掌握,也有助于开发符合自己业务需求的高性能的ebpf程序。上一篇文章《eBPF动手实践系列一:解构内核源码eBPF样例编译过程》中,我们了解了基于内核源码的ebpf程序的编译步骤。其中编译过程对内核源码的依赖的内容,主要体现在对kernel-devel和kernel-headers两个rpm包的文件内容的依赖(centos环境下)。这给我们脱离内核源码进... 展开更多
很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢? 在现代化的互联网架构中,告警是监控系统中最为重要的一部分,可以帮助运维人员及时发现并解决问题,确保服务的可用性和稳定性。但是,随着业务的不断扩大和系统的不断升级,告... 展开更多
在 LinkedIn,站点工程师喜欢自动化各种基础设施层面的运营任务,以最小化手动干预,并且可以扩展得很好并易于操作。某些自动化是通过按需作业执行来完成的。 LinkedIn工程师已经使用Salt超过十年了,这是一款基于Python的开源软件,用于在主机上执行任务,因为它具有高性能和可插拔性。由于它配备了丰富的执行模块,可以直接使用或通过自定义模块使用,因此适用于诸如操作系统升级、自动修复、应用程序分析、流量转移、固件升级... 展开更多
 文|蚂蚁集团 ZOLOZ 团队 **使用全球领先安全科技,为用户和机构提供安全、便捷的安全风控解决方案。** 本文 **6386** 字 阅读 **12** 分钟 **背景简介** ZOLOZ[1]是蚂蚁集团旗下的全球安全风控平台,通过业内领先的生物识别、大数据分析和人工智能技术,为用户和机构提供安全又便捷的安全风控解决... 展开更多
eBPF 的全称是 extended Berkeley Packet Filter,它被称之为“革命性”的内核技术,可以在 Linux 内核中运行沙盒程序,而无需更改内核源代码或加载内核模块。它提供了一种通用执行引擎,可以基于系统或程序事件高效安全地执行特定代码,就像在实时 (JIT) 编译器和验证引擎的帮助下进行本机编译一样。 如今,eBPF 被广泛用于各种场景:在现代数据中心和云原生环境中提供高性能网络和负载平衡,以低成本提取细粒度的安全可观测... 展开更多
本文是 Uber 的工程师 Gergely Orosz 的文章,原文地址在:https://blog.pragmaticengineer.com/operating-a-high-scale-distributed-system/ 在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统运行的挑战(一个系统远远不是开发完了就完了,线上运行的挑战实际更大)。构建系统本身是一项有趣的工作。规划系统如何处... 展开更多
如今,在 Kubernetes 上构建应用程序的开发人员,不仅要写代码还要负责交付和运维等。而 CNCF 云原生的 Landscape 已经有 1000+ 张卡片,覆盖应用定义与开发、编排与管理、运行时、配置、平台、可观测性与分析等,开发人员“认知负担”越来越重,所以企业需要从 2023 年开始更关注开发者体验,去聚焦开发者平台的相关建设,提供好用的工具集合或平台工程。 于是,InfoQ 发起了一场《极客有约》特别栏目《云原生趋势下的平台工程... 展开更多