本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。
本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
 > 北京时间 2023 年 6 月 1 日,全球最大的开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache SeaTunnel 毕业成为 Apache 顶级项目(TLP, Top Level Project)。这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合... 展开更多
!pip install transformers==4.2.1 !pip install sentencepiece==0.1.95 Vaswani 等人在其名作 Attention is all you need 中首创了 基于 transformer 的编码器-解码器模型,如今已成为自然语言处理 (natural language processing,NLP) 领域编码器-解码器架构的 事实标准 。 最近基于 transformer 的编码器-解码器模型训练这一方向涌现出了大量关于 预训练目标函数 的研究, 例如 T5、Bart、Pegasus、ProphetNet、Marge 等...... 展开更多
开发背景 得益于“元宇宙”概念在前段时间的爆火,各家公司都推出了使用 3D 场景的活动或频道。 3D 场景相比传统的 2D 页面优点是多一个维度,同屏展示的内容可以更多,能完整的展示物体、商品的信息。 相应带来的缺点是用户使用方式改变,用户需要额外的学习成本。另外初期需要的开发量、美术资源和生成3D模型的设备也是增加的成本。 在这样的背景下,我们团队接到了食品频道的一个互动项目的开发需求,希望通过 3D 场景的展示... 展开更多
本文将从 [FTP Connector ](https://www.dtstack.com/resources/1044?src=szsm)的功能详解,[自定义文件切割](https://www.dtstack.com/resources/1044?src=szsm)及[自定义 FileFormat](https://www.dtstack.com/resources/1044?src=szsm) 三个方面为大家带来 ChunJun FTP Connector 的功能扩展分享。 # FTP Connector 详解 FTP 是用于在网络上进行文件传输的一套[标准协议](https://www.dtstack.com/resources/1044?src=szsm),... 展开更多
大型语言模型如今风靡一时,许多公司投入大量资源来扩展它们规模并解锁新功能。然而,作为注意力持续时间不断缩短的人类,我们并不喜欢大模型缓慢的响应时间。由于延迟对于良好的用户体验至关重要,人们通常使用较小的模型来完成任务,尽管它们的质量较低 (例如 代码补全任务 )。 为什么文本生成这么慢?是什么阻止你在不破产的情况下部署低延迟大型语言模型?在这篇博文中,我们将重新审视自回归文本生成的瓶颈,并介绍一种新的... 展开更多
确定用户价值是整个[用户运营](https://www.dtstack.com/easydigit/userinsight?src=szsm)过程中极其重要的一环。传统的工作流程中,业务人员向数据部门提出数据需求,等待返回结果后再进行价值分析是主要的准备工作,但这个过程非常耗时。为了提高[工作效率](https://www.dtstack.com/easydigit/userinsight?src=szsm),业务人员经常会基于自己对用户的理解制定一系列的[运营策略](https://www.dtstack.com/easydigit/userins... 展开更多
 # **项目背景** 当前,常见的大气污染预测模型大多是基于物理机理构建的,比如空气质量预测模型 Calpuff、AERMOD、CMAQ 等。然而,这些模型运算较为复杂,对于输入数据的要求非常高,运算耗时也比较长,适合用于常规固定区域的预报。当遇到突发污染事件时,就无法有效发挥作用。 针对以上问题,本项目以... 展开更多
## 灵感来源 随着AIGC的爆火,ChatGPT,GPT-4的发布,我作为一个算法工作者,深感AI发展的迅猛。最近,OpenAI的插件和联网功能陆续向用户公开,我也在第一时间试用了这些最新的功能。在OpenAI的插件市场上,我被一个可以帮助分析食谱,并生成购物清单的功能所吸引。我开始思考,如果我能够基于京东商城和AIGC的能力,帮助用户分解需求,在商城搜索相关商品,并直接返回他们想要的商品,甚至将所需商品直接加入到购物车,待后续用... 展开更多
 > 文章摘要:用一杯星巴克的钱,自己动手2小时的时间,就可以拥有自己训练的开源大模型,并可以根据不同的训练数据方向加强各种不同的技能,医疗、编程、炒股、恋爱,让你的大模型更“懂”你…..来吧,一起尝试下开源DolphinScheduler加持训练的开源大模型! > # 导读 ## 让人人都拥有自己的ChatGPT ChatGPT的诞生无疑让我们为人工智能... 展开更多
1 导读 恒星标注平台是58为助力算法模型孵化以及各业务线数据标注需求,自研的数据标注SaaS平台,平台包含任务中心、数据管理、配置中心、标注中心等产品功能模块。平台建设目标聚焦于GUI工作台易用性、标注质量以及标注提效。目前平台已支持24种标注方式,支撑集团各业务产生500余万标注样本数据。本文从标注视角出发,根据58恒星标注平台从零到一的建设经历,试图对数据标注的平台化建设提供一些见解。 恒星标注平台产品架构 ... 展开更多
摘要:在昇腾平台上运行PyTorch业务时,需要搭建异构计算架构CANN软件开发环境,并安装PyTorch 框架,从而实现训练脚本的迁移、开发和调试。 本文分享自华为云社区《手把手教你在昇腾平台上搭建PyTorch训练环境》,作者:昇腾CANN。 PyTorch是业界流行的深度学习框架,用于开发深度学习训练脚本,默认运行在CPU/GPU上。在昇腾AI处理器上运行PyTorch业务时,需要搭建异构计算架构CANN(Compute Architecture for Neural Network... 展开更多
背景 AIGC是人工智能计算领域里发展迅速的重要业务。Stable Diffusion 是其中最热门的开源模型,受到广泛关注。然而,随着应用场景不断扩大,Stable Diffusion所面临的推理时延和计算成本问题也越来越突出。 简介 PAI-Blade是 PAI 推出的通用推理优化工具,可以通过模型系统联合优化,使模型达到最优推理性能。PAI-Blade依托于完全动态尺寸的AI编译器BladeDISC 和 基于深度学习自动调度的高性能计算库BlaDNN, 为包括图像生成模... 展开更多
AI 时代,许多开发者都已经上手了各式 AI 编程工具,至于评价则千差万别。但整体而言,AI 编程的代码正越来越多出现在当下的各种技术栈中,其口碑也在逐渐攀升。随着 GPT4 的出现,AI 编程正在迈入新的台阶,而软件工程 3.0 时代也正在进行中。 为了更好地了解当下 AI 编程能力的发展,我们邀请到同济大学特聘教授,“软件工程 3.0” 定义者朱少民,请谈谈他 AI 编程的过去与未来。 朱少民 同济大学特聘教授,“软件工程 3.0” ... 展开更多
摘要:本文将介绍如何使用录音文件识别极速版给无字幕视频自动生成字幕。 本文分享自华为云社区《利用录音文件极速版为视频生成字幕》,作者:戈兀。 引言 越来越多的人们使用抖音、B站等视频app,记录、分享日常生活,随之互联网上产生了大量的长、短视频。字幕是影响视频观看体验的重要因素。以日常分享为主的视频创作者往往没有时间为视频制作字幕,在创作者发音不清楚的前提下,没有字幕的视频可能会让观众困惑甚至产生理解... 展开更多
全球开源技术峰会(Global Open-source Technology Conference,简称 GOTC)是由开放原子开源基金会、 Linux 基金会亚太区、上海浦东软件园和开源中国联合发起的,面向全球开发者的一场盛大开源技术盛宴。 GOTC 2023 将于 5 月 27 日至 28 日在上海张江科学会堂召开。大会将以行业展览、主题发言、特别论坛、分论坛的形式展现,与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及开源社区、AIGC、汽... 展开更多
开源软件已经成为现代软件开发的一个重要组成部分。它提供了许多好处,如成本效益、灵活性和社区支持。然而,使用开源软件也有责任遵守许可条款和条件。如果不遵守这些条款和条件,可能会导致法律和财务后果。 为了帮助企业驾驭这一复杂的局面,GOTC 大会与 LFOSSA(Linux Foundation开源软件学园)将举办 "实施和管理开源合规计划 "培训研讨会。本次研修班旨在帮助开发者、项目经理、法律顾问以及企业决策者更好地了解和应对开... 展开更多
随着生成式人工智能技术(如ChatGPT等)的不断进步, 确实对大家的工作带来许多的便利。从前,可能需要花了半天或更多的时间准备的资料、文档和方案,ChatGPT可以在几秒内整理及提供完整的相关内容出来,甚至可以编写代码和开发出应用程式。 很多专家对人工智能发展过快充满了担忧,问题包括生成式人工智能会不会与开发者形成竞争关系,淘汰或者减少市场对某些类型的开发者的需求? 开发者在驾驭人工智能方面需要专门哪些技能和知... 展开更多
5 月 28 日,GOTC 2023 “ 开源创投”专题论坛将于上海张江科学会堂重磅开启。此论坛由 开源中国董事长马越担任出品人,旨在共同探讨开源软件产业的发展趋势、商业模式和投资机会,以及如何利用开源生态推动创新和经济增长。 全球开源技术峰会(Global Open-source Technology Conference) GOTC 2023 由开放原子开源基金会、 Linux 基金会亚太区、上海浦东软件园和开源中国联合发起。这场面向全球开发者的盛大开源技术盛宴为期... 展开更多
> 本文作者:艾宏峰 > > - 算法工程师 > > - M6 Global赛道总排名4th > > - KDD Cup 2022风电功率预测[飞桨](https://www.oschina.net/action/visit/ad?id=1185 "飞桨")赛道5th “中国软件杯”大学生软件设计大赛——龙源风电赛道,**5月31日**预选赛截止,80%选手将晋级区域赛,欢迎大家**抓紧报名**! # **赛题背景** 随着清洁能源的快速发展,风力发电已经成为可再生能源的重要组成部分,然而风具有随机性特点,常规天气预报... 展开更多
背景 上一篇中,我们使用了 PAI-Blade 优化了 diffusers 中 Stable Diffusion 模型。本篇,我们继续介绍使用 PAI-Blade 优化 LoRA 和 Controlnet 的推理流程。相关优化已经同样在 registry.cn-beijing.aliyuncs.com/blade_demo/blade_diffusion镜像中可以直接使用。同时,我们将介绍 Stable-Diffusion-webui 中集成 PAI-Blade 优化的方法。 LoRA优化 PAI-Blade优化LoRA的方式,与前文方法基本相同。包括:加载模型、优化模型、替... 展开更多