开源日报 | 中文互联网语料库CCI 3.0;英特尔衰落的程度令人震惊;代码的“半衰期”;新许可模式"Fair Source";谷歌工程师分享8门免费编程课程

来源: OSCHINA
编辑:
2024-09-25 19:45:05

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。

# 2024.9.25

今日要闻

智源研究院正式发布中文互联网语料库CCI 3.0

近日,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI 3.0-HQ。

智源研究院于2023年11月首次开源CCI 1.0,并在2024年4月发布CCI 2.0。目前,CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

WordPress 创始人指责 WP Engine 是“毒瘤”,吸血开源

Automattic 首席执行官兼 WordPress 联合创始人 Matt Mullenweg 近期对 WordPress 托管服务商 WP Engine 发起了猛烈地炮轰。

WordPress 是一款流行的开源内容管理系统,目前已被 6500 多万个网站所使用。Automattic 由 Mullenweg 在 2005 年成立,是 WordPress 背后的公司。

WP Engine 是一家成立于 2010 年的公司,在其 14 年的发展历史中筹集了近 3 亿美元的资金,其中大部分来自私募股权公司 Silver Lake 在 2018 年的 2.5 亿美元投资。事实上,Automattic 在 2011 年也投资了 WP Engine 公司;Mullenweg 去年还在 WP Engine 大会上发表了演讲。

然后在近期的一系列发言中,Mullenweg 不遗余力地对 WP Engine 进行了抨击。

Fair Source:介于“开源”和“闭源”之间的新许可模式

随着私有软件和开源软件 (OSS) 之间的持续紧张关系在短期内不太可能结束,一家估值 30 亿美元的初创公司 ——Sentry 推出了名为「Fair Source」的新许可模式 —— 希望在开源和私有软件之间架起桥梁。

「Fair Source」定义如下:

  • 代码公开可阅读
  • 在限制极少的前提下,允许第三方使用、修改和再分发,同时保护软件生产者的商业模式
  • 采用延迟开源发布策略(delayed Open Source publication, DOSP)

“稚晖君”创业项目,智元自主研发的机器人中间件 AimRT 开源

AimRT是智元机器人于成立之初便开始自行研发的一套高性能通信中间件,更现代、轻量易用,且高效稳定,经过长时间的内部实际使用和测试,现已趋于成熟,并在行业内具备技术领先竞争力。

华为鸿蒙 HarmonyOS NEXT 将在国庆后公测

余承东宣布 HarmonyOS NEXT 将于 10 月 8 日正式开启公测,并宣布了本次公测所支持的各类机型。首批支持 3 款设备: 华为 Mate 60 系列手机、Mate X5 系列手机、MatePad 13.2 英寸系列平板,更多机型也即将适配。


今日观察

社交观察

我国开源参与者数量、增长速度均位居世界前列

9月25日,2024开放原子开源生态大会在北京举行。工业和信息化部党组书记、部长金壮龙出席大会并致辞。金壮龙指出,党中央、国务院高度重视开源体系建设,国家软件发展战略和“十四五”规划纲要作出重要部署,为我们凝心聚力、共促开源发展,指明了前进方向。近年来,我国扎实构建国内开源体系,设立开放原子开源基金会,在基础设施建设、项目社区培育、行业推广应用等方面开展一系列有益实践,取得积极成效。目前,我国开源参与者数量、增长速度均位居世界前列;开源欧拉社区汇聚贡献者2万余人,用户数量超过350万;开源鸿蒙项目吸引340余家生态单位共建,搭载设备数量超过9亿台;木兰中文开源许可协议实现国际通用。

- 微博 证券时报

英特尔和波音两个制造业龙头,衰落的程度令人震惊

芯片制造很多麻烦事,需要很多经验丰富的工程师,加班累死累活维护产线正常、突破先进工艺。这需要极为细致的工作,出毛病了要想为什么,而且不能拖,产线在等着,不解决就卡住,只好没完没了地加班。

这种工作压力美国年轻人肯定受不了。不要说这个,就是简单得多的制造业工作都做不好。波音也差不多,还有些人受不了举报,不明不白死掉。

我不太明白的是,马斯克是怎么解决问题的,解决到什么程度了。他说睡在工厂里催干活,给高工资,不满意立刻开除。他还希望当特朗普政府的“效率部长”,应该是有一套管理办法。

如果马斯克的办法都不灵了,美国制造业应该没救了。

- 微博 风云学会陈经

讨论预训练大模型底层经验和技巧的干货文章

类似的文章应该有很多,不同的地方可能在于,我并不会去分析 pretrain 阶段的核心技术,而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些,主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我,文中有一些内容的具体做法不会展开细说,请大家见谅。

- 知乎 ybq

谷歌一位自学成才的工程师分享的8门免费编程课程

谷歌软件工程师萨希尔-加巴(Sahil Gaba)分享的免费谷歌编程课程。这个哥们有点传奇,在成为谷歌软件工程师前,他是一名完全自学成才的计算机工程师,之前学的是机械工程。

国外许多像 Gaba 一样的程序员新手,学习方法是两种:要么会通过免费 YouTube 视频学习,或者上价格昂贵的培训班。然而,这两种方法都有问题。YouTube 视频没有互动,培训班就是贵了。

而Gaba 在25 岁才开始学编程,说“当时完全懵了”。后来Gaba发现,其实免费的网络课程就很好,尤其是谷歌制作的。这些课程收费的就49美元,但可以免费试听(不拿证书的话),免费就是0元购了。

- 微博  高飞 

伯克利开源基于LLM的数据处理系统

加州大学伯克利分校最近开源了一个新的数据处理系统——DocETL,主要用于轻松构建由 LLM 驱动的数据处理管道。它提供了声明式操作符(declarative operators),这些操作符可以进行强大的优化,提高了大规模、复杂文档分析任务的准确性。

- 微博 量子位

有趣的指标,代码的“半衰期”

一个有趣的指标,代码的“半衰期”,衡量项目中不变的代码占比变化情况。半衰期越长的项目越稳定。

可以用  github.com/src-d/hercules 这个开源工具来生成类似的统计图。 ​​​

- 微博  蚁工厂

媒体观察

缓解AI时代“算力饥渴” 业界聚焦算力网建设

随着新一轮科技革命和产业变革的深入发展,算力成为中国数字经济发展的底层支撑和国家的核心生产力,截至2023年底,全国在用数据中心机架总规模超过810万标准机架。但大模型产业井喷式发展也带来算力紧缺、能耗激增等问题。

- 中国新闻网 

深度|从云端往低处去的阿里云,为什么非要做开源大模型?

距离2022年11月OpenAI发布ChatGPT已经过去了22个月,这是一段真正称得上日新月异的技术旅程。在全球范围内,这股热潮的引领者仍然是OpenAI、微软、谷歌和Meta;但是在中国,创业公司如智谱AI、DeepSeek,科技巨头如阿里巴巴也试图挤入各个大模型基准测试榜单和科技新闻头条。

- 蓝鲸财经

字节跳动加入AI视频大战

相较其他公司,字节跳动的视频模型发布时间较晚。火山引擎总裁谭待接受经济观察网在内媒体采访时说,字节跳动不一定非要抢第一,他们对模型的认知是,这是一个能影响未来10年、20年的长远技术,所以希望推出的模型质量是经过考验的。

- 经济观察网

这一届AI创业者:不敢再谈理想,怕伤钱

AI不能是仅仅停留在数字世界的概念和理想,而应该成为物理世界看得见、摸得着的产品。

对于AI从业者和投资人来说,投入能获得相应的回报,是长期发展的必要条件。而对于基础设施供应商阿里云来说,只有越来越多的行业、公司和创业者投入AI,它才能有更广阔的发展空间。

这才是双赢的局面。

- 雪豹财经社 

“侏罗纪公园富豪”谈投资,如何在人工智能时代保持清醒

沃尔特·科茨查克在科技领域进行了长达40年的投资并因此积累了巨额财富;前不久,他向《福布斯》坦陈了自己过去投资生涯中的成功和失败——还解释了为什么卷入人工智能的“疯狂浪潮”很危险。

- 福布斯资讯号

AI算力大考已至,服务器OS如何“真·好用”

如果把服务器比作一个人,那么芯片就是人的心脏,决定了服务器能否提供对外的“动能”,而服务器OS(操作系统)就像是大脑,操控着全身上下所有的器官,虽然我们感受不到大脑的“律动”,但是我们每个举动、每次呼吸都由大脑发出指令才能完成。一台服务器也是如此,操作系统决定了芯片性能能否被释放、数据的调用与存储,抛离了操作系统服务器也不过是一堆硬件设备。

- 钛媒体


今日推荐

开源项目

sonosaurus/sonobus

https://github.com/sonosaurus/sonobus

SonoBus 是一个免费的、优雅的、多平台的、开源的点对点传输解决方案, 用于在互联网或本地网络上的设备之间流媒体高质量、低延迟的对等音频。

每日一博

58 商业搜索场景中的算法实践

随着产业化的深入,商业搜索场景需要更深入理解业务,与业务结合。本文将介绍商业搜索场景中,围绕用户体验和商业收入提升,所做的技术迭代和升级。第一部分重点介绍业务场景和业务中的问题;第二部分介绍知识图谱的挖掘和应用;第三部分介绍大模型如何在知识图谱场景中进行应用和落地。


开源之声

用户观点

macOS最好用的开源剪贴板管理器“Maccy”发布2.0——7年来最大更新、完全重写、大幅优化性能

  • 观点 1:需要用 brew install --cask maccy 安装,brew install maccy 会报错
  • 观点 2:我是用 raycast 内置的剪贴板工具
  • 观点 3:用两年了,刚打开版本号一看,马上提醒更新,真棒!
  • 观点 4:beta 期间我给提了几个 bug
  • 观点 5:我超 超喜欢
  • 观点 6:可惜低版本用不了
  • 观点 7:这个和 raycast 哪个好
  • 观点 8:强烈推荐!
  • 观点 9:utools的内置剪切板更方便

字节跳动发布豆包视频生成大模型

  • 观点 1:很好,以后抖音的段子视频可以更加的天马行空了
  • 观点 2:可以大幅降低动画的制作成本,生动的呈现童话故事情节。此外,还有城市文旅、音乐 MV、微电影、短剧等应用场景 -------------------现在估计成本还很高,并没有到文字生成那种大规模普及那种

Apache Wicket 10.2.0 发布,开源 Java Web 框架

  • 观点 1:千上万的 Web 应用和网站提供支持
  • 观点 2:这个框架还活着啊

---END---

 

 

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
分享
返回顶部
顶部