摘要:利用深度学习框架PyTorch,结合MNIST手写体数据集,构建一个高效、准确的手写体识别系统,在云主机中安装PyCharm,并且基于PyTorch框架实现手写体识别。 本文分享自华为云社区 《【开发者空间实践指导】基于PyTorch的手写体识别》 ,作者:开发者空间小蜜蜂。 1.1 案例介绍 随着人工智能技术的飞速发展,图像识别技术在众多领域得到了广泛应用。手写体识别作为图像识别的一个重要分支,其在教育、金融、医疗等领域具有广泛... 展开更多
![file](https://oscimg.oschina.net/oscnet/up-e8d8787a27674512d848fc11e27c21153df.jpg) 使用SeaTunnel需要安装Spark或者Flink这样的引擎么? ---------------------------------- 不需要,SeaTunnel 支持 Zeta、Spark 和 Flink 作为同步引擎的选择,您可以选择之一就行,社区尤其推荐使用 Zeta 这种专为同步场景打造的新一代超高性能同步引擎。Zeta 被社区用户亲切的称为 "泽塔奥特曼"! 社区对 Zeta 的支持力度是最大的,功... 展开更多
导读 --- 在 LLM 蓬勃发展的今天,数据工程已成为支持大规模 AI 模型训练的基石。DataOps 作为数据工程的重要方法论,通过优化数据集成、转换和自动化运维,加速数据到模型的闭环流程。本文聚焦新一代数据 \& AI 集成工具- Apache SeaTunnel 在 DataOps 中的核心作用,并介绍其如何满足 AI 对向量数据及实时处理的需求。文章还分享了白鲸开源在信创环境中的创新实践,并展望数据工程与 DataOps 推动 AI 发展的未来趋势。 主要包... 展开更多
Apache DolphinScheduler 是一个分布式、易扩展的可视化数据工作流任务调度系统,广泛应用于数据调度和处理领域。 在大规模数据工程项目中,数据质量的管理至关重要,而 DolphinScheduler 也提供了数据质量检查的计算能力。本文将对 Apache DolphinScheduler 的数据质量模块进行源码分析,帮助开发者深入理解其背后的实现原理与设计理念。 数据质量规则 ------ Apache Dolphinscheduler 数据质量模块支持多种常用的数据质量规则... 展开更多
8 月 16 日,由上海浦东软件园与开源中国联合主办的全球开源技术峰会 GOTC 2024 圆满落幕。 5 亿+ 曝光量 本次大会为期两天,总共吸引了超过 3000 人到现场参会,线上直播观看量超过 680 万人次。媒体方面,共计有 30 多家媒体对本次大会进行报道,包括新华社、人民日报、经济日报、文汇报、新民晚报、证券日报、界面新闻、浦东时报、浦东电视台、东方财经电视台、中企视讯等主流新闻媒体,人民网、央视网、央广网、凤凰网、澎湃... 展开更多
MapReduce是一种编程模型,用于处理和生成大数据集,主要用于大规模数据集(TB级数据规模)的并行运算。本文详细介绍了Dolphinscheduler在MapReduce任务中的应用,包括GenericOptionsParser与args的区别、hadoop jar命令参数的完整解释、MapReduce实例代码,以及如何在Dolphinscheduler中配置和运行MapReduce任务。 GenericOptionsParser vs args区别 ------------------------------ GenericOptionsParser 如下: GenericOption... 展开更多
最近我写开源商业文章明显更新少了,不是我不写文章了,而是开源商业化进展很顺利,我写文章的时间都被各种写标书占满了。作为一个开源原生的商业公司,白鲸开源公司的员工几乎都是程序员,而让这些开源贡献者写标书浪费他们的开发时间不说,写出的标书质量简直没法看。而做创业公司的CEO和在大公司做管理者不一样,公司需要啥你就是啥,公司开完战略会,你就是第一个撸起袖子杀出去的人。结果就是我根本没时间写总结文章。有限... 展开更多
> **编者按:** 对大语言模型进行扩展的过程中,如何在保持高性能的同时有效控制计算资源消耗?混合专家模型(MoE)作为一种新兴的架构设计方案正在得到越来越多的关注,但它究竟是如何工作的?为什么越来越多的大语言模型都在采用这种架构? > > 这篇文章通过50多张精心绘制的示意图,系统拆解了MoE的核心原理。从最基础的专家网络、路由机制,到负载均衡、容量控制等进阶话题,每个概念都配有直观的可视化讲解。作者还介绍了如... 展开更多
作者:来自 Elastic Thomas Veasey, Quentin Herreros 及 Thanos Papaoikonomou 了解在搜索和 RAG 管道中使用语义重新排序(rerank)的权衡。 在本系列博客中,我们将介绍 Elastic 的新语义重新排序器。语义重新排序通常可以提高相关性,尤其是在零样本设置中。它还可用于通过显著提高词汇检索相关性来权衡索引计算成本和查询计算成本。在这第一篇博客中,我们介绍了一些语义重新排序的背景知识以及它如何融入你的搜索和 RAG 管... 展开更多
引言 --- 随着大数据技术的发展,数据集成和数据流处理需求日益增长。Apache SeaTunnel 作为一款开源的数据集成框架,不仅支持多种数据源和目标,还提供了灵活的 API 来满足各种复杂的业务需求。 本文将深入解析 Apache SeaTunnel 的 API,帮助开发者更好地理解其使用场景和实现方式。 从接口定义来看SeaTunnel ---------------- 从官网的这个图中, 可以看到在SeaTunnel中, 定义了以下几种类型: 1. **数据源 API(Source AP... 展开更多
2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、全过程、全场景,将数据作为新的生产要素,方可夯实智慧港口和智慧航道根基。最核心的是“智慧化”,智慧化是目的,必须通过融合创新提升生产运营管理服务智慧化水平,推动水运行业实现质的有效提升和量的合理增长,方可... 展开更多
10月30日,袋鼠云成功举办了以"AI驱动,数智未来"为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 会上,易知微产品经理林树为大家带来了一款新产品------多层级数据填报与报送平台TableFill。TableFill是一款一站式表单填报系统,支持个性化的表单样式设计,强化了业务管理功能,并集成了填报任务通知与智能催办功能,能在1秒内完成催办,显著提升了填报效率,使... 展开更多
10月30日,袋鼠云成功举办了以"AI驱动,数智未来"为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 作为大会的重要环节之一,袋鼠云数栈产品经理潮汐带来了题为《指标+AI+BI:构建数据分析新范式》的精彩演讲,深入剖析了当前企业在进行数据分析时所面临的挑战,并分享了袋鼠云数栈在此领域内的最新成果和解决方案。 一、传统数据分析方案的局限性 会议伊始,潮汐... 展开更多
“过去 24 个月,AI 行业的最大变化是什么?是大模型基本消除了幻觉。” 11 月 12 日,百度创始人李彦宏在百度世界 2024 大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术( iRAG )和无代码工具“秒哒”。文心 iRAG 用于解决大模型在图片生成上的幻觉问题,极大提升实用性;无代码技术“秒哒”让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。 截至 11 月初,百度文心大... 展开更多
> **编者按**:想象一下,你正在开发一个 AI 助手,突然发现 system message 和用户提示词存在冲突,这时 AI 会听谁的?这种情况不仅困扰着开发者,还可能导致 AI 系统的不稳定和不可预测,影响用户体验和系统可靠性。 > > 本文作者通过一系列精心设计的实验,深入探讨了 GPT-4o 和 Claude-3.5 等顶尖大语言模型在面对 system message、prompt 和 few-shot examples 相互矛盾时的行为模式。研究结果揭示了一个令人惊讶的事实:即... 展开更多
本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。 (本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating-gpu-memory-demands-for-training-llms-in-practise-c5ef20a4baff) 作者 | Max Shap 翻... 展开更多
GPUStack 是一个开源的大模型即服务平台,可以高效整合并利用 Nvidia、Apple Metal、华为昇腾和摩尔线程等各种异构的 GPU/NPU 资源,提供本地私有部署大模型解决方案。 GPUStack 可以支持 RAG 系统中所需要的三种关键模型:Chat 对话模型(大语言模型)、Embedding 文本嵌入模型和 Rerank 重排序模型三件套,只需要非常简单的傻瓜化操作就能部署 RAG 系统所需要的本地私有模型。 下面介绍如何安装 GPUStack 和 Dify,并使用 Di... 展开更多
摘要:通过调用ModelArts上的动漫头像制作应用,将头像图片转化为动漫风格的头像图片。 本文分享自华为云社区 《【开发者空间实践指导】基于FunctionGraph的AI风格化编程》 ,作者:开发者空间小蜜蜂。 一、 案例介绍 本实验基于FunctionGraph和ModelArts的智能头像动漫化处理应用。通过部署在FunctionGraph上的函数,用户可以上传自己的头像图片,通过调用ModelArts上的动漫头像制作应用,将头像图片转化为动漫风格的头像图片。... 展开更多
2024 年度中国 GenAI 消费应用人气评选
本文介绍了在Apache DolphinScheduler中嵌入Arthas的方法,以实现对接口调用的监控。Arthas是一款强大的 Java诊断工具,能够帮助开发者实时查看应用程序的运行状态、性能瓶颈和方法调用情况。在DolphinScheduler中集成Arthas,可以方便地捕获任务调度时的关键调用信息,及时发现并解决性能问题,提高系统的稳定性。本文将详细说明如何在DolphinScheduler环境下启动Arthas,监控特定接口的调用,并分析收集到的性能数据,从而提升... 展开更多