开源日报 | IBM中国关闭部分研发业务;还原“黑悟空崩溃”事件;OSI发布开源AI定义最新草案;大模型合成数据的问题

来源: OSCHINA
编辑:
2024-08-26 18:34:33

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。

# 2024.8.26

今日要闻

IBM中国内部正式通知:关闭部分研发业务

8月26日,根据界面新闻的独家报道,IBM全球企业系统开发部副总裁Jack Hergenrother今日上午在IBM中国系统中心(CSL)全员会上宣布:

IBM基础设施决定将中国系统实验室的研发工作转移到海外其他IBM基础设施基地,目前正在撤出中国所有的研发工作

Jack Hergenrother表示,近年来,中国的基础设施业务有所下滑

IBM因此作出了一个艰难的决定,根据市场机会将业务转移到更接近客户的其他国家。

据界面新闻了解,IBM中国有多个分公司,此次调整的属于IBMV下设的IBM中国系统中心,主要负责研发和测试,员工分布在北京、上海、大连等全国多个城市,涉及人数大约有一千多人

奇安信还原“黑悟空崩溃”事件

奇安信XLab实验室官方发文指出,8月24日晚,《黑神话:悟空》发行平台Steam平台遭遇了DDoS攻击,导致许多用户无法登录或进入游戏,有近60个僵尸网络主控发起了此次攻击,攻击指令一夜暴涨了2万多倍,截至目前,本轮DDoS攻击仍在持续。

“无论是攻击指令数量之大、主控僵尸网络之多,还是攻击烈度之猛,攻击组织之周密,本次DDoS攻击在我们的视野中都是近年来极为罕见的。”奇安信XLab实验室第一时间披露并还原了本次DDoS攻击事件的幕后细节:有近60个僵尸网络主控发起了此次攻击,攻击指令一夜暴涨了2万多倍,对Steam全球网站轮番攻击,涉及13个国家和地区的107个Steam服务器IP。

此次攻击事件Xlab实验室一共观察到了28万条针对Steam平台的攻击指令,根据历史长期观察,过去针对Steam的攻击也经常有,但是往往攻击指令都在两位数。“昨天晚上直接暴涨2万多倍,这么高的攻击指令数字,我们从业以来几乎都是极其少见的。”奇安信Xlab实验室指出。

OSI 发布开源 AI 定义最新草案

Open Source Initiative (OSI) 宣布推出最新的 “开源 AI 定义 – 草案 v. 0.0.9”,进一步明确了开源模型和开源权重的组成部分,并指出系统的所有组件都需要满足开源标准,该系统才被视为开源。

该组织表示,计划在今年 10 月份发布稳定版的开源 AI 定义。该定义将提供一个框架,帮助 AI 开发人员和用户确定 AI 系统是否开源,这意味着它可以在允许不受限制的使用、研究、修改和共享权利的条款下使用。

在最新的草案中,OSI 还决定,将训练数据定义为一项 “benefit”,而不是一项 “requirement”。


今日观察

社交观察

“为什么我要用C语言来写一个Rust编译器?”

本文由John Nunley于2024年8月25日撰写,介绍了他正在进行的一个名为Dozer的开源项目。Dozer是一个用纯C语言编写的Rust编译器,不使用C++、flex、yacc或Makefile,来实现从C语言直接编译Rust代码的能力。
Nunley的目标是创建一个可以在没有C++工具链的情况下,使用TinyCC编译器自举的Rust编译器。他分享了Dozer项目的进展,包括词法分析器和部分解析器的完成,并概述了他接下来的计划,包括编译基础的libc和libcore库,创建一个使用Dozer的cargo等价物,以及最终实现rustc和cargo的自举编译。

https://notgull.net/announcing-dozer/
- 微博 蚁工厂

大厂与其山寨Cursor,不如做个好用的AI邮件客户端

程序员这个群体大家都知道,又不愿意花钱又没忠诚度,Cursor 好用马上都退订 Copilot,能白嫖绝对不花那$20 的订阅费,大厂不如多看看普通用户的需求。

普通用户需要的不是 Cursor,是能帮助沟通和写作的 AI 编辑器,比如写邮件、回短信。但是有好用的吗?没有!唯一可以看到的期货是苹果的 Apple Intelligence。

- 微博 宝玉xp

大模型合成数据的问题

一大堆拿着gpt和llama3做合成数据的模型,目前面对了一个比较严重的问题(llama自己都受到了合成数据的一定范围的困扰),前代大模型的一些错误认知,都遗传并且污染了训练集,后面的模型把错误也不可逆的继承了,而且随着迭代轮次的加深,越来越被强化。目前的语言模型本质上还是概率统计,既然是统计概率,从数学的角度上看 :那么就会有统计近似误差,大概率的知识就永远被强化,小概率就越来越被忽略了。还有函数近似误差,比如量化,比如取近似导致的误差,一代一代就被保留了下来
- 微博 Transformer-周

190款大模型背后:揭秘600天后的中国大模型产业落地「真相」

根据网络公开数据,2023年全年,招投标市场发起了190次大模型采购需求,采购规模达5.95亿元。其中,百万元以上级别采购方多为央国企,千万级及以上的项目需求中有一半发生在4季度。

那么对于这些大型企业而言,他们的大模型需求究竟在哪?除了上述提到的加速数字化转型,打破数据孤岛,从而实现降本增效;一个更为隐秘的真相则是,以此来提升自身的研发实力。

要知道,如今的大模型,不同于以往的软件,其对企业而言不仅仅是一个应用,更是一个可以自己动手操作的“百宝箱”。而这也是如今大模型正在走向AI应用/Agent的重要前提,其中,最有说服力的Agent便是如今不少云厂商已经发布的AI代码助手了。对此,这也解释了为什么如今基础模型开发是当下的“主潮流”。

总体上,从过去600天的大模型落地走向来看,虽然国央企以及有真正需求的能源和交通是采购方的主角,但一个明显的趋势是,大模型行业化正在渐入佳境,而随着大模型走向行业深处,Agent应用的崛起则是一个不可忽视的信号。

- 微博 产业家网

从云计算到AI大模型,云巨头生态革命迈出关键一步

过去两年多时间里,云计算行业被讨论最多的话题就是“降价”,在市场增速放缓,甚至有企业高呼“下云”的背景下,云厂商纷纷打出了“价格牌”,导致整个行业陷入到了“低水平内卷”的境地。

如今,在大模型的促进下,千行万业的智能化转型愈演愈烈,而云化算力作为灵活高效、性价比极高的算力资源获取方式,正在成为各AI厂商新的算力底座。如果说芯片是智能时代的“石油”,那云化算力就是AI发展的“新能源”。

新旧业态的转变,对云计算的影响绝不仅仅是舆论层面,属于云计算的“黄金时代”或许才刚刚开始。

- 微博 科技云报道

媒体观察

BUDA“菩提”来了!我国首个区块链专用计算硬件开放架构发布

我国首个区块链专用计算硬件开放架构BUDA“菩提”(Blockchain Unified Device Architecture)发布。这套架构为区块链与隐私计算的底层软件提供统一的专用硬件功能、实现规范和调用接口,可大幅度提升区块链网络中数据要素安全可信流通的效率,为扩大区块链应用生态,全面加速国家级区块链网络建设,实现我国数据要素互联互通提供更高效能。

- 北京日报

源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

- 美通社

对话香港科技大学教授贾佳亚:AI大模型的巨大缺陷是没有人格和悲喜,机器人发展需“长坡厚雪”

当前“具身智能”概念被过于炒作,这一技术自身还需要很长的时间才能实现。机器人的未来在于跟人相关,就现在的技术阶段而言,人们应该按照“长坡厚雪”的方式去看待这些AI硬件产品。

贾佳亚强调,当前 AI 大模型存在一个巨大缺陷,就是你认为它没有人格或者没有“机格”(机器的人格),你不知道它的悲、喜。但从长期看,AI 和机器人都需要从落地和场景去发挥应用创新。

- 科技说说

大模型“点睛” 人形机器人加速“进化”

想要让人形机器人成为真正为人所用的商品,还需不断提高智能化程度,提升它的“类人”水平。熊友军认为,人形机器人第一个阶段是“形式”类人:外形上长得像人;第二阶段是“行式”类人,行走、行动类人;第三阶段则是“神式”类人,即通过具身智能大模型,使人形机器人在理解、表达、思考等方面向人类看齐。

- 经济参考报

具身智能奇点将至,人形机器人哪些要点值得关注丨调研笔记

作为人形机器人精准控制的关键,触觉感知的相关发展与应用将进一步推动人形机器人商业化走深走实。目前国内柔性触觉传感器仍处于产业化早期阶段,受益于人形机器人的需求驱动,有望加速国产厂商技术更迭和市场空间提升。

- 第一财经

一个偏科怪才,进化为机器人价格屠夫

目前,投资人们对于什么样的人形机器人公司值得投,也有不同的观点。蓝驰创投合伙人曹巍在公开报道中表示,如果创业者有差异化的竞争力,单项能力突出,会考虑投资,但这样的团队一定要去快速补短,因为未来的竞争,一定是“六边形战士”之间的竞争。

- 虎嗅


今日推荐

开源项目

wuba/Fair

https://github.com/wuba/Fair

Fair是为Flutter设计的动态化框架,通过Fair Compiler工具对原生Dart源文件的自动转化,使项目获得动态更新Widget的能力。

每日一博

基于 AI 的 D2C 前端代码生成技术深入总结

在 AI 技术日益渗透至各领域的背景下,本文深入探讨了 B 端(D2C)前端代码生成技术的核心挑战与实战解决方案,诚实地揭示了在实现自动化代码生成过程中遭遇的重重难关。


开源之声

用户观点

中国有多少Java程序员?

  • 观点 1:java是一门糟糕的语言,至今没有泛型,资源占用夸张,异步到j21才算是真正支持。真就是赶上风口,猪都起飞了
    • 观点 2:XXX是一款垃圾车,然而这个车销量很好。XXX是一款垃圾手机,然而这个手机销量很好。用工具的大部分是看中优点,缺点可以忍受就行。就像网上的商品,谁能找到完全没有差评的商品呢?谁能找到没有缺点的手机和车呢?你说的很对,我选择Java
    • 观点 3:异步那个无法反驳你,但是java是有泛型系统的,是jvm没有运行时泛型。就如同ts也有泛型系统,但如果编译成js在b端运行就没有泛型了,我说得对吗?
  • 观点 4:JS + TS 生态吊打其它语言
    • 观点 5:生态?Python不服
  • 观点 6:我写kotlin能算到java里吗?
  • 观点 7:java已经穷途末路了
    • 观点 8:这句话10年前就这么说了
  • 观点 9:甲骨文不是可信供应商
  • 观点 10:java就是个垃圾语言,很多大厂早就转别的了
  • 观点 11:Java依旧是王者
  • 观点 12:stackoverflow的统计好像不是这么反映的,早就不受欢迎了

高中生独立开发Android浏览器:安装包大小不到5M、可高度定制、支持脚本和多种窗口管理布局

  • 观点 1:挺好的。赞!好玩才是第一推动力。想起自己,初中用rpgmaker做了个游戏章节,叫好哥们儿来家玩,哥们儿赞不绝口,那感觉挺爽。这单纯玩乐和好奇,甚至开启了我的编程人生。这世上很多事并不需要一个宏大叙事和伟大理由,可能只是起源好玩。Linux也是如此诞生的。引用Linus祖师爷的话就是:"只是因为好玩"。
  • 观点 2:这个大小,肯定跟via一样是webview,所以跟Chrome Firefox肯定完全不是一个维度的
  • 观点 3:评论里怎么还有嘲讽人是webview套壳... 这体积大小能是自己写了一个内核出来吗?有啥好瞧不起的
  • 观点 4:好是好,鼓励,但感觉就是没太干正事,这个年龄是真的好啊,多去研究下内核,而不是玩皮肤
  • 观点 5:后生可畏吾衰矣
  • 观点 6:挺厉害,但5m大小,留给他自己的开发余地可能真没多少
  • 观点 7:如果不用iapp就更好了,iapp局限性还是很大.
  • 观点 8:你用结绳写一个才是牛,iapp太垃了
  • 观点 9:高中老师卷竞赛,大学老师卷科研,程序猿卷开源
  • 观点 10:厉害是挺厉害,就是用处不大,界面不错,需求不高或者喜欢花哨风格的人也许会用

在座各位程序员给知乎这波反爬策略打多少分?

  • 观点 1:然而贴吧素材得到的训练质量远好于知乎
  • 观点 2:未登录也乱码真是逆天
  • 观点 3:所以中文大模型为啥严重落后?所有内容商都不愿意分享数据出来
  • 观点 4:因噎废食了属于是
  • 观点 5:葬爱家族或成为防范AI的先驱
  • 观点 6:我有一次在电脑上刷灵异相关话题的时候遇到了,还以为是见鬼了,原来是知乎防爬虫
  • 观点 7:我还以为谁开了个胡说八道主题帖
  • 观点 8:知乎会逐渐流失那些不使用百度和搜狗搜索的用户
  • 观点 9:没关系,不是受众群体,看小说我有其他平台
  • 观点 10:看起来是只有中文乱码了,英文正常显示
  • 观点 11:0分,优秀的“乱码反爬”应该参考过去的OTA网站,用Webfont显示正确的字形
  • 观点 12:这不就是让ai变弱智的标准方案吗?
  • 观点 13:雕虫小技罢了
  • 观点 14:我就说怎么bing出来的知乎内容都是些不知所云的东西,我还一度以为浏览器出问题了

---END---

最后,欢迎扫码下载「开源中国 APP」,阅读海量技术报告、程序员极客分享!

 

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
4 收藏
分享
返回顶部
顶部