开源日报 | OpenAI CEO&COO首次合体;开源大模型厂商不认“落后”宿命论;警惕开源项目被“社工”渗透

来源: OSCHINA
编辑:
2024-04-17 17:57:00

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。

# 2024.4.17

今日要点

CentOS 7 将在 6 月 30 日结束支持 (EOL)

2020 年 12 月 8 日,红帽公司单方面宣布终止 CentOS 的开发。此决定让原本拥有 10 年支持的 CentOS 8 在 2021 年年底结束维护,而 CentOS 7 因用户基数多获得红帽 “优待”—— 按照计划维护至生命周期结束(2024 年 6 月 30 日)。

200950_a3JO_2720166.png

xz Utils 后门这样的社工渗透模式,需要引起关注

以下社会工程接管中的可疑模式值得关注:

  • 社区中相对不知名的成员对维护者或其托管实体(基金会或公司)友好、积极和持续的渴求。

  • 请求由新人或未知人员提升为维护者状态。

  • 来自社区中其他未知成员的认可,他们也可能使用虚假身份,也称为 “sock puppets”(白手套)。

  • 包含 blob 作为制品的 PR。例如,XZ 后门是一个精心设计的文件,作为测试套件的一部分,与源代码相反,该文件不是人类可读的。

  • 故意混淆或难以理解源代码。

  • 安全问题逐渐升级。例如,XZ 问题一开始是用 fprintf () 相对无害地替换 safe_fprintf (),看看谁会注意到。

  • 偏离典型的项目编译、构建和部署实践,可能允许将外部恶意负载插入 blob、zip 或其他二进制制品中。

  • 错误的紧迫感,尤其是当隐含的紧迫性迫使维护者降低审查的彻底性或绕过控制时。

这些社会工程攻击正在利用维护者对项目和社区的责任感来操纵它们,需要注意互动给你带来的感受,能够让你产生自我怀疑、不足感、对项目做得不够等的互动,可能此时你正在被社会工程攻击。

中国电信将于年内开源千亿级参数大模型

近日中国电信开源了 12B 参数规模星辰语义大模型 TeleChat-12B。相较于 1 月开源的 7B 版本,内容、性能和应用等方面整体效果提升了 30%。其中,多轮推理、安全问题等领域提升超 40%。另外,据了解,中国电信将于年内开源千亿级参数大模型。

根据介绍,TeleChat-12B 将 7B 版本 1.5T 训练数据提升至 3T,优化数据清洗、标注策略,持续构建专项任务 SFT(监督微调)数据,优化数据构建规范,大大提升数据质量;同时,基于电信星辰大模型用户真实回流数据,优化奖励模型和强化学习模型,有效提升模型问答效果。

开源地址:https://gitee.com/Tele-AI/tele-chat


今日观察

社交观察

看网友们谈论中医感觉有点类似于开源

看网友们谈论中医感觉有点类似于开源,都可以声明自己是中医疗法,同时他们也不排斥别人的治疗经验, 比如吃汞吃硫磺等等,都公开自己了吃这种东西的玄学理论了同时给爱好者借鉴,其他人可以根据自身的五行寒热属性改良出不错的重金属进补吃法。​​​

- 微博 鸡老师的肉身

微软贡献模块初始化补丁:推动 Linux Kernel 集成 Rust

微软贡献模块初始化补丁:推动 Linux Kernel 集成 Rust。微软工程师 Wedson Almeida Filho 近日发布邮件,通过和 Rust for Linux 项目密切合作,已经发布新的补丁来彻底改变内核中的模块初始化。

- 微博 曲怀长

斯坦福开源创新型 AI 写作工具 STORM

只需要告诉它你的写作主题,它就能自动帮你深挖资料,大量收集多角度参考信息,并创建大纲。

不仅如此,它还会模拟专家与你问答对话,结合互联网的资源回答深入了解主题,并逐步撰写完整的文章且带引用。

GitHub:github.com/stanford-oval/storm
在线体验:storm.genie.stanford.edu/

- 微博 GitHubDaily

如何人为制造一个不存在的东西 就现在来说太易如反掌了

查AI相关资料的时候看到一个很无语的新闻
所以什么是真什么是假?
如何人为制造一个不存在的东西
就现在来说太易如反掌了
我只能说蔡徐坤本人就是现象级的
IKUN对于蔡徐坤的爱也是无与伦比的 ​​​

- 微博 KUN海外特级小肉包

媒体观察

中国首个音乐SOTA模型「天工音乐大模型」今日公测

「天工3.0」旗下的「天工SkyMusic」音乐大模型也在今日面向全社会开放公测。「天工SkyMusic」是中国首个音乐SOTA模型,更是中国的自研大模型技术第一次在AIGC领域领跑全球。

与行业主流路径不同,「天工SkyMusic」采用自研大模型音乐音频生成技术路线。这一路线直接通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有包括昆仑万维在内的极少数顶尖玩家参与。

在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。

硅星人

Sam Altman最新采访:模型性能不是长期差异化的关键

这不仅是OpenAI CEO和COO首次合体采访,也是Brad Lightcap为数不多的公开露面。在采访中,Brad Lightcap认为,智能正在从一种非常有限的东西,转变为一种富足且廉价的资源。同时,他也坦言,大公司对AI的落地速度极大超出了他们预期。

Sam Altman则认为,在这场世界范围内的“百模大战”中,可能只有少数玩家能够存活。而真正实现差异化的地方,并不在于基础模型的质量或者开源与否的运作方式,而是模型能否能真正实现个性化、定制化,真正与人的生活和使用场景高度匹配。

乌鸦智能说

用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM

这篇论文提出了GeRM(通用机器人模型),研究人员利用离线强化学习来优化数据利用策略,从演示和次优数据中学习,从而超越了人类演示的局限性。通过引入专家混合结构,GeRM实现了更快的推理速度和更高的整体模型容量,从而解决了强化学习参数量受限的问题,提高了多任务学习中的模型性能,同时控制了计算成本。

通过一系列实验证明,GeRM在所有任务中均优于其他方法,同时验证了其在训练和推理过程中的效率。

此外,研究人员还提供了QUARD-Auto数据集以支持训练,该数据集的构建遵循文中提出的数据自动化收集的新范式,该方法可以降低收集机器人数据的成本,推动多任务学习社区的进步。

新智元

李彦宏:开源模型将会越来越落后 | 最前线

这个论断看似激进,但基于一个重要的讨论背景:开源还是闭源,哪个应用成本更高。

开源是互联网的根基,无论是从浏览器的出现,到如今的大模型,都离不开开源的贡献。比如,大模型的核心技术Transformer架构,就是谷歌的开源工作。

到了2023年,Meta旗下的Llama 2开源,免费可商用,这瞬间让大模型领域的格局改变——后来者可以直接基于开源的Llama 2模型基础上做微调,进而开始商业化。

开源能够借助开发者的力量,让技术获得突破,但要降低应用门槛,最终还是要走到用户端:产品落地应用,反哺到开发者生态,才会不断提升已有模型的能力。

正因如此,如今OpenAI等头部模型厂商的最新模型,都毫无疑问走闭源战略,并且大力做商业化。李彦宏的观点代表着,大模型领域经历过去一年紧张的你追我赶之后,如今进入新阶段:商业化效率,将会成为接下来模型能力提升的重要变数。

- 36氪


今日推荐

开源项目

ravynsoft/ravynos

https://github.com/ravynsoft/ravynos

ravynOS 是一个新的开源操作系统项目(前身是 airyxOS),基于 FreeBSD 构建,目标是在 x86-64 设备上提供与 macOS 类似的体验,以及对 macOS 的部分兼容特性。

每日一博

秒开率破 90%!交易后台渲染性能优化

本文从本次交易后台性能优化实践出发,同时介绍应用整体架构和设计,希望可以给参与网站性能建设的同学提供一定的学习和参考价值。

 
 

事件点评

xz Utils 后门这样的社工渗透模式,需要引起关注

近期开源圈 xz Utils 安全事件让业内震惊,当前幕后黑手仍然没有查明。简单来说,xz Utils 入侵者在潜伏两三年时间中,通过社会工程的方式,先获得了项目的高级权限,进而执行一系列错综复杂的操作。

这样的事情其实在开源项目中并不是孤例,这两天 OpenSSF 和 OpenJS 基金会也呼吁所有开源维护者对这样的社会工程渗透接管模式保持警惕,识别早期出现的威胁模式,并采取措施保护开源项目。

点评

这些事件的影响是深远的。它们凸显了开源项目在面临外部威胁时可能存在的脆弱性,同时也提醒了开源社区和维护者,需要加强项目的管理和维护,提高项目的整体安全性。此外,这些事件也促使开源社区更加关注和重视开源项目的安全性和可持续性,以及维护者对项目责任的认真态度。开源社区需要继续加强合作,共同维护一个安全、可靠的开源环境。

奥特曼:AGI 不该被秘密构建,GPT-6 将成通用工具

OpenAI 首席执行官 Sam Altman 与首席运营官 Brad Lightcap 于日前合体接受了一次采访。OpenAI 是历史上规模扩张最快的公司之一,目前估值已达 900 亿美元,收入超过 20 亿美元。

Altman 在采访中发表了对 AGI (通用人工智能) 的看法。他认为,对 AGI 而言迭代部署至关重要,我们不应该秘密地在实验室里构建 AGI,“想象一下那种极限情况,我们辛苦工作了几十年,然后突然按一下按钮,整个世界就不得不与 AGI 抗争”。

点评

这些观点和预测不仅对 IT 行业和人工智能领域产生了影响,也预示着未来技术发展的趋势。这可能会促使其他企业和组织在 AI 技术应用方面更加谨慎,同时也推动了 AI 技术在企业界的广泛应用。

然而,我们也需要注意,随着AI技术的发展,我们也需要面对一系列的挑战,包括数据安全、隐私保护、伦理问题等。因此,我们需要持续关注AI技术的发展,以确保我们能够充分利用其潜力,同时也能有效地管理其带来的风险。

CentOS 7 将在 6 月 30 日结束支持 (EOL)

2020 年 12 月 8 日,红帽公司单方面宣布终止 CentOS 的开发。

此决定让原本拥有 10 年支持的 CentOS 8 在 2021 年年底结束维护,而 CentOS 7 因用户基数多获得红帽 “优待”—— 按照计划维护至生命周期结束(2024 年 6 月 30 日)。

200950_a3JO_2720166.png

点评

CentOS 7 将于 2024 年 6 月 30 日结束支持,这一事件产生了多方面的影响。对用户来说,安全风险增加,需要投入更多资源来维护和更新系统;还需要投入额外的资源来进行系统迁移,包括人力、时间和金钱。如果选择转向商业发行版,可能还需要支付额外的许可费用。迁移到其他操作系统,也可能需要适应新的技术环境。

同时,这为其他 Linux 发行版提供了吸引用户的机会。可能会改变 Linux 发行版的市场格局,使得其他发行版有机会获得更多的市场份额。也可能推动市场上的创新,因为各个发行版会竞相提供更好的功能和服务,以吸引原 CentOS 用户。


开源之声

媒体观点

李彦宏坚定具有成本优势的闭源路线 开源大模型厂商不认“落后”宿命论

开源和闭源的选择是大模型领域的热点话题,OpenAI的GPT-4模型就是采用闭源模式,微软则开源了WizardLM-2。国内,百川智能、智源都是开源的支持者,通义千问亦有开源,而华为盘古大模型则坚定选择不开源。模式之争的背后,是关于如何平衡技术创新、商业利益、社区参与和市场竞争力的讨论。

但业内共识也愈加明确,AI必将掀起创造力革命,在技术普惠与文化平权等多个方面,推动社会的发展。

每日经济新闻

工业大模型应用怎么做?海尔卡奥斯给了一个答案

工业互联网被视为工业数字化、网络化、智能化转型的基础设施。卡奥斯沉淀了海尔近40年的制造经验,能为用户提供以大规模定制为核心的数字化转型解决方案。

通过对开源大模型进行微调训练,2023年9月,卡奥斯推出工业大模型COSMO-GPT(下称“卡奥斯工业大模型”)。卡奥斯工业大模型拥有562个工业数据集、300多万条高质量工业数据。与通用大模型不同,它能够读懂工业语言、理解工业工艺及机理、生成工业执行指令及执行工业机械控制,目前主要应用于智能柔性装配、生产工艺优化、工业企业智能中台三大方面。

经济观察报

清华团队推出新平台:用去中心化AI打破算力荒

放眼大模型市场,轰轰烈烈发展了一整年后,真正能站稳脚跟的创业公司并不多。除了极少数几家明星独角兽外,大模型的未来似乎正在收敛到微软、谷歌、英伟达等科技巨头手中。长此以往,少数企业可能会对计算资源的定价、可用性和访问权限形成垄断控制。

这时候,正需要类似NetMind Power这样的民主化叙事,为AGI的故事撰写新的蓝图。

- 量子位

霍学文:将打造“人工智能驱动的商业银行”作为换道超车的重大机遇

北京银行发布2023年度报告。该行将科技创新作为全面创新的核心,还将打造“人工智能驱动的商业银行”(AI Banking,缩写为AIB)作为换道超车的重大机遇,是该行未来一段时间坚持的重要方向。用北京银行董事长霍学文的话说,这是在“做难而正确的事,做对未来赋能的事”。

- 中国电子银行网

用户观点

云开源公司成“恶龙”?——指控Linux基金会旗下开源项目盗用代码

  • 观点 1:利用开源力量把软件做起来了,现在又收费了,这有点过河拆桥吧
    • 观点 2:开源软件从来跟收费不矛盾,矛盾的是开源和闭源,你思维还停留在开源就不能收费
  • 观点 3:搞闭源以后发现开源社区同样功能做的更好,马上抄一遍代码然后反手把开源社区告了。如果是这种流氓行为如何破局?
    • 观点 4:提交没有时间吗
  • 观点 5:这公司,没有任天堂的命,却得了任天堂的病,玩不起
  • 观点 6:想讹人是吧
  • 观点 7:不是 你说别的开发者抄我还听一耳朵 Linux 基金会也能让你这么蹭么?
  • 观点 8:鲍尔默的“开源是毒瘤”的喊声犹在耳畔

前后端源代码都有了,谁去搞个新「抖音」!

  • 观点 1:这个就和手办娃娃一样,看起来丝丝入微,非常逼真,但是没灵魂啊,没推荐算法加持,没内容
    • 观点 2:推荐算法层面,直接接大模型搞搞
    • 观点 3:想啥呢,想白吃还不想自己拿碗啊
  • 观点 4:哪怕你拿了抖音的全套源代码,你也运营不起来呀!算力,带宽、存储,这谁用的起。除非是你只打算搞个最多几人几十人在线的,不然运营成本分分钟逼死你。

CentOS 7 将在 6 月 30 日结束支持 (EOL)

  • 观点 1:咱公司的Centos7万年不更新了
  • 观点 2:Ubuntu 还不错 

PuTTY 0.81 发布,SSH/Telnet 程序

  • 观点 1:多少年了,版本还在小数点后一位
    • 观点 2:上一就想上二,上二就想上十,上十就想上一百,哈哈
    • 观点 3:它这个0.81 ,实际上就是81版了😀

程序员梗图

---END---

最后,欢迎扫码下载「开源中国 APP」,阅读海量技术报告、程序员极客分享!

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
2 收藏
分享
返回顶部
顶部