本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。
本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
12 月 2 日,有着 “云计算春晚” 之称的亚马逊云科技 re:invent 大会,在美国拉斯维加斯盛大开幕。本届大会以 “Turn your ideas into reality”(让理想发生)为主题,精心筹备了诸多场主题演讲,内容广泛涉及人工智能、数据分析、云计算等一系列关键技术领域,旨在深度剖析行业前沿动态,为从业者及科技爱好者呈上一场知识盛宴。 当下,生成式 AI 赛道持续升温、竞争白热化,亚马逊云科技在该领域的每一步布局,都如同投下巨... 展开更多
![file](https://oscimg.oschina.net/oscnet/up-5782a781436a3dc425c8e1c790ec5f926d3.png) > 本文由白鲸开源CEO郭炜撰写并投递参与"数据猿年度金猿策划活动------2024大数据产业年度趋势人物榜单及奖项"评选。 去年是大模型蓬勃兴起的一年,热度席卷全球,仿佛AI已经可以解决一切问题。今年随着热潮退去,大模型开始进入深水区,试图深入改造各行各业的底层逻辑。而在大数据处理领域,大模型与传统ETL的碰撞更是点燃了新的讨论... 展开更多
**"在企业中,中台是为了更好地整合后端的计算、业务、数据资源,更敏捷、高效地为前台服务而生,在高校中同样如此。"** 在教育信息化快速发展、国家政策扶持及庞大市场需求的多重因素推动下,我国教育信息化整体市场规模从2017年的4542亿元增至2022年的10157亿元,成功突破一万亿元。随着教育信息化迈入2.0时代,政府和学校正以更加开放的态度拥抱信息技术与教育的深度融合,希望利用新一代信息技术提升教育质量、推动教育公平... 展开更多
港口企业作为交通运输枢纽,需要借助数字化手段提升管理水平、优化生产流程、提高运营效率,以适应日益增长的业务量和竞争压力。为了指导各地智慧港口的建设工作,交通运输部等多部门联合发布了《智慧港口建设指南》,明确了智慧港口建设的目标、原则、路径及重点任务,为港口的数据化、智能化提供了具体指导。随着物联网、云计算、大数据、人工智能等新兴技术不断成熟和应用,港口行业的[数据要素](https://www.dtstack.com/e... 展开更多
> **编者按:** 你是否也在思考:当 AI 模型越来越强大时,我们还需要花时间去学习那些复杂的提示词技巧吗?我们究竟要在提示词工程上投入多少精力?是该深入学习各种高级提示词技术,还是静观其变? > > 本文作者基于对 OpenAI 最新 o1 模型的深入观察,为我们揭示了一个重要趋势:就像我们不再需要专门去学习"如何使用搜索引擎"一样,与 AI 交互也将变得越来越自然和直观。文章不仅分析了提示词技术的发展趋势,更提供了务实的... 展开更多
Conda 是当前 AI 应用开发领域中非常流行的环境和包管理系统,因其能够简单便捷地创建与系统资源相隔离的虚拟环境广受欢迎。 Conda 支持在不同的操作系统上重建相同的工作环境,但在环境共享复用方面仍存在一些挑战。比如,在不同机器上复用相同环境需手动执行多步骤,过程中可能出现依赖不一致的问题。其次,维护多个环境版本并保持同步对快速迭代的项目,操作起来较为繁琐。 作为一个云原生分布式文件系统,JuiceFS 极大地简化... 展开更多
在湖仓一体(Lakehouse)出现之前,数据仓库和数据湖堪称数据领域的两大"顶流"。打个比方,要是把数据仓库比作一座大型图书馆,那其中的数据就如同馆内藏书,需要按照规范放好,借阅者只需依照类别索引,便能精准找到想要的信息。反观[数据湖](https://www.dtstack.com/solution/streaminglakehouse?src=szsm),更像是一个大型仓库,海纳百川,可以存储任何形式和任何格式的原始数据。 然而,这两大传统模式各有掣肘。数据湖擅长... 展开更多
背景描述 ---- ![file](https://oscimg.oschina.net/oscnet/up-7831050d8e2f86059ea37b71b28daa7f3ae.png) 注意 : 在 Dolphinscheduler 中,离线任务是有完整的声明周期的,比如说停止、暂停、暂停恢复、重跑等等,都是以DAG(有向无环图的形式进行任务组织)T+1离线任务的。 Dolphinscheduler DAG实现 ---------------------- org.apache.dolphinscheduler.common.graph.DAG DAG三个重要的数据结构 : // 顶点信息 private final ... 展开更多
FastGPT 是一个基于 LLM 大模型的开源 AI 知识库构建平台,提供了开箱即用的数据处理、模型调用、RAG 检索、可视化 AI 工作流编排等能力,帮助用户轻松构建复杂的 AI 应用。 自去年 3 月份开源以来,GitHub Star 数直接冲到了 18.7K,相当火爆。 最近,开源中国 OSCHINA策划了一个新的直播节目《开源项目老牌与新秀》,邀请到了 FastGPT 的作者余金隆来直播,手把手教你怎么用 FastGPT。 学会了怎么用 FastGPT ,就可以自己开发... 展开更多
一、引言 在配送需求不断增长的背景下,个人配送服务的大规模众包化将对配送市场产生重大影响,且众包定价涉及要素较多;这些变化意味着我们的营业部需要进行更精细化的定价管理,以适应众包人员市场。与自营人员不同,众包骑手的服务质量受到当地当时的人员可用性和成本波动的影响。为了提高骑手服务的揽派效率,降低整体运营经营成本,如何动态定价成为一个可考虑的选择。通过动态定价,可以一定程度的帮助配送站点通过响应配... 展开更多
熔断策略的概念最早可以追溯到电力系统中的保险丝。当电流过大时,保险丝会自动熔断,以防止电器设备因过载而损坏。这种简单而有效的保护机制为后来软件系统中的熔断策略提供了灵感。在软件系统中,熔断策略的工作原理类似,旨在通过监测服务调用的状态来决定是否允许请求继续发送到目标服务。 为了增强服务的可靠性和用户体验,[袋鼠云数栈](https://www.dtstack.com/?src=szsm)在数据服务产品DataAPI中引入了熔断策略。这一策... 展开更多
PostgreSQL是一个开源的数据库管理系统,相比于其他开源数据库系统,PostgreSQL有更加丰富的数据类型和可扩展性,并因此被广泛采用。在实际工作中,若企业业务需求变动,则有可能面临PG高可用集群迁移的情况。 云掣具备丰富的帮助企业迁移数据平台的[实战经验](https://yunche.pro/?src=szsm),提供专业的[数据库运维托管服务](https://yunche.pro/solution/easymr/?src=szsm),本文旨在通过一次PG高可用集群环境迁移但IP不变的... 展开更多
> **编者按:** 当前 AI 技术发展日新月异,多智能体框架如雨后春笋般涌现。如何在 AutoGen、LangGraph、CrewAI 等众多框架中做出正确选择,找出那一个真正适合你需求的多智能体框架? > > 本文作者通过对五大多智能体 AI 框架的比较,提出了一个关键观点:不同的 AI 框架适用于不同的场景和需求,选择的关键在于精准匹配项目特点和技术路线。 **作者 \| Mehul Gupta** **编译 \| 岳扬** ![](https://oscimg.oschina.net/oscne... 展开更多
> **编者按:** 如今,AI模型的上下文窗口正以惊人的速度扩大------从2018年的区区512个token到现在的200万token。这种跨越式发展不仅仅是数字的变化,更代表着全新的应用机会:律师可以让AI快速分析数千页的法律文书,医生能够基于完整的病历做出更精准的诊断,研究人员可以同时处理数百篇学术论文...但问题是,我们如何确保这些超长上下文模型真的"理解"了如此庞大的信息量? > > 作者从三个维度详细阐述了长上下文模型的评估... 展开更多
Apache DolphinScheduler的JavaTask可以通过在任务执行日志中输出特定格式的参数来支持OUT参数的下游传输,通过捕捉日志并将其作为参数传递给下游任务。这种机制允许任务间的数据流动和通信,增强了工作流的灵活性和动态性。 那具体要怎么做呢?本文将进行详细的讲解。 0 修改一行源码 -------- org.apache.dolphinscheduler.plugin.task.java.JavaTask ![file](https://oscimg.oschina.net/oscnet/up-34c46e1976129fd45d80a0da... 展开更多
引言 --- VTS(Vector Transport Service),全称向量传输服务,是一个由Zilliz开发的专注于向量和非结构化数据迁移的开源工具。VTS的核心特点在于其基于Apache SeaTunnel开发,这一事实使其在数据处理和迁移方面具有显著的优势。Apache SeaTunnel作为一个分布式数据集成平台,以其丰富的连接器系统和多引擎支持而闻名,VTS正是在此基础上,进一步扩展了其在向量数据库迁移和非结构化数据处理的能力。 [VTS:基于Apache SeaTun... 展开更多
近日 Apache StreamPark(Incubating) 项目和核心贡献者在京举行的开源活动中,接连受到表彰,这是项目和社区的荣耀时刻,让我们继续努力,向光而行,更进一步。 OSCAR 尖峰开源人物 10 月 16 日,中国通信标准化协会&云计算标准和开源推进委员会在北京召开了“OSCAR 开源产业大会”。为推动开源产业发展,树立标杆和典范,特设立了 “OSCAR 开源尖峰案例”评选活动,并在大会上公布了评选结果。经过严格筛选,Apache StreamPark... 展开更多
最近我给 FastGPT 用户交流群里接入了 AI 日报,每天早上 10 点会自动向群里推送 AI 日报,让群里的小伙伴们第一时间了解到昨天 AI 领域都发生了哪些大事。 效果大概是这个样子的: ![](https://oscimg.oschina.net/oscnet/up-bcf95737616f2e681d482009012bd54f4b5.png) 如果你对 FastGPT 感兴趣,可以直接扫码入群: ![](https://oscimg.oschina.net/oscnet/up-ac71281a13238cf662b80b7d9cdafda4043.jpg) 除此之外,我还同步一... 展开更多
> **编者按:** 面对 Llama 模型家族的持续更新,您是否想要了解它们之间的关键区别和实际性能表现?本文将探讨 Llama 系列模型的架构演变,梳理了 Llama 模型从 1.0 到 3.1 的完整演进历程,深入剖析了每个版本的技术创新,还通过实际实验对比了 Llama 2 和 Llama 3 在推理速度、答案长度和相对答案质量(RAQ)等关键指标上的表现差异。 > > 根据本文, Llama 模型的架构演变主要经历了以下三个阶段: > > * Llama 1:基于原始... 展开更多
分享嘉宾 孙颢宁 Shopee Data Infra 分布式存储开发工程师 分享大纲 AI 平台面临的挑战 Alluxio 加速AI 训练的实践 Alluxio 的性能探索 Alluxio 的大版本滚动升级 未来规划 观看完整分享 AI 平台面临的挑战 在打造 AI 平台前,不同部门的算法团队都需要自己去申请购买云服务,资源利用率低。公司决定搭建训练机房,构建 AI 平台。我们开发 AI 平台面临的如下几大挑战: 数据规模 数据是驱动 AI 技术发展的重要基础。随着 AI 技术... 展开更多