开源日报 |大语言模型先知;全球AI发明专利,中国遥遥领先;iPhone能跑的ChatGPT级开源模型;三十年,互联网失去梦想?

来源: OSCHINA
编辑:
2024-04-23 18:57:14

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。

# 2024.4.23

今日要点

中国联通发布全球首个 Llama3 8B 中文版开源模型

中国联通 AI 创新中心发布业界第一个 Llama 3 中文指令微调模型,以 Meta Llama 3 为基础,增加中文数据进行训练,实现 Llama 3 模型高质量中文问答,模型上下文保持原生长度 8K,支持长度 64K 版本将于后续发布。

地址:UnicomLLM/Unichat-llama3-Chinese-8B

上网就能“生产能源”的浏览器,这你受得了吗?

搜索引擎公司 Ecosia 为迎接世界地球日推出了同名浏览器 —— 基于 Chromium 创建、内置广告拦截器、优化运行速度,声称加载网页的速度 " 比大多数主流浏览器快三倍,此外还通过阻止跟踪器来保护用户的隐私。

不过,Ecosia 浏览器的主要卖点还是它的环保特性,其制造商表示会将从浏览器赚取的利润用于资助植树项目(它提供赞助商链接,可以购买各种品牌的产品,从而获得广告以外的现金流)。这一理念与十多年前推出的 Ecosia 搜索引擎相似。

Ecosia 投资建设了太阳能发电厂,为浏览器提供可再生能源。它的目标是每天为每位浏览器用户生产 25 瓦时的可再生能源,这足够为一个灯泡供电三小时。

Meta 向第三方硬件制造商开放其 MR 操作系统:Horizon OS

Meta 宣布向第三方 VR 设备开放其 Quest 头戴式设备运行的操作系统 Horizon OS。据介绍,首批采用 Horizon OS 的厂商包括了华硕和联想,华硕的 Republic of Gamers 品牌正在开发一款面向游戏玩家的头戴式设备,而联想则在开发一款用于 “生产力、学习和娱乐” 的头戴式设备。

Meta 希望将 Horizon OS 打造成一个更开放的合作伙伴 OEM 平台。这可以对比如今的智能手机市场,谷歌的 Android 可以在来自各种公司的各种设备上运行 —— 而 Meta 此举可能是学习 Android 打造一个开放的 VR 生态系统。

首个开源多模态多任务Agent

首个完全开源的,多模态、多任务通用模型#JAT#在抱抱脸正式推出。JAT 是一个基于 Transformer 的 Agent,能够玩视频游戏、控制机器人执行各种任务,在简单的导航环境中理解和执行命令等。据团队介绍,JAT 使用一组权重来完成所有任务。此外,团队还发布了第一个用于训练通用 Agent 的数据集。


今日观察

社交观察

辛顿不同意杨立昆将大模型开源

"我认为开放源代码最大的模型是完全疯狂的。我的好朋友杨立昆认为这是正确的事情,他认为我们都会没事的,我们将保持对这些事物的控制。但我认为这非常非常危险。我认为,开源大模型就像开源nuclear weapon一样。“

- 微博 高飞

大模型产研2024年4月半月谈后的一些冷思考

整体来看,4月份上半月大模型开源继续进行,包括llama3,moe等模型的发布,而在音乐生成方面,4月份上半月也有一些动作,也出来了一些很有影响力的整理工作。

当前,RAG已经进入稳态,RAG与知识图谱相关的进展并不是很多,大多的工作还是集中在评估、方案集成的思想上。

- 微信 老刘说NLP

所罗门诺夫:大语言模型的先知

事实上,特立独行的数学家所罗门诺夫(Ray Solomonoff,1926年-2009年)在1960年代初期的天才贡献已经为大模型奠定了数学基础。他的原创理论开始被重新发现,至今对工程实践仍具指导作用,并可能为未来指明方向。所罗门诺夫可算得大语言模型的先知。

- 微信 赛先生

媒体观察

接入世界30年,中国互联网展望发展趋势

1994年4月20日,伴随着一条64K国际专线开通,中国实现全功能接入国际互联网,成为加入国际互联网的第77个国家。这也被视为中国互联网时代的开始。转眼间30年过去了,中国已经拥有全球数量最多的网民,基于互联网的各种应用程序更是早已深刻融入和改变了我们的日常生活。

W3C国际化标准工作全球负责人薛富侨表示,中国在Web技术标准方向、国际化、标准流程改进等方面贡献了很多力量。但互联网技术一直不断发展,过去的经历提醒我们,需要有自己的知识产权,有核心技术才能在国际标准制定过程中真正发挥更大话语权。例如浏览器引擎,不只涉及浏览器,很多衍生应用,包括平常用的微信、淘宝等都在使用浏览器引擎,但中国比较缺乏相关人才,所有国产浏览器全部用的是国外的引擎。要改变这类局面,需要我们加大科研投入,培养更多的互联网和技术标准人才,并积极参与国际标准制定工作。

环球时报

微软推出iPhone能跑的ChatGPT级开源模型

Llama 3发布刚几天,微软就出手截胡了?刚刚发布的Phi-3系列小模型技术报告,引起AI圈热议。其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama 3 8B。为了方便开源社区使用,还特意设计成了与Llama系列兼容的结构。

微软这次打出“手机就能直接跑的小模型”的旗号,4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的苹果A16芯片上跑到每秒12 token。这意味着,现在手机上能本地运行的最佳开源模型,已经做到ChatGPT水平。

量子位

三十年,互联网失去梦想?

变化,是互联网世界的永恒主题。《人民日报》曾经在2000年发表时评,感慨让100多万用户免费用上Foxmail的无业游民张小龙,是朋友眼中的悲剧人物。但最终,他用一款产品改变了整个时代的交流甚至生活方式。

或许每个时代都会出现自己的张小龙。这是中国互联网在过去三十年里展现过的韧性。

梦想会蛰伏,但不会就此消亡。这也是写在人类基因里的进化密码。

首席人物观

全球AI发明专利,中国遥遥领先!国内TOP10专利发明企业,华为仅排第五!

在IPRdaily发布的中国人工智能发明专利企业的排行榜里,近十年在中国申请并公开的人工智能发明专利显示,腾讯一马当先位列第一,专利数量达15626件,百度其次,13723件专利数量,华为仅排名第五位,专利数量为5966件,而在这TOP10里唯一一家以智能手机为核心业务的公司则是OPPO,以3743件AI发明专利位列排行榜的第九位。其他申请人分别为平安集团(第三名)专利数量13139件、国家电网(第四名)专利数量11567件、蚂蚁集团(第六名)专利数量4381件、阿里巴巴(第七名)专利数量4103件、京东集团(第八名)专利数量3815件、中国移动(第十名)专利数量3709件。

- 热点科技


今日推荐

开源项目

Planshit/Tai

https://github.com/Planshit/Tai

​​​​Tai 是一款 Windows 上软件使用时长和网站浏览时长统计工具。需要注意的是,Tai 所统计的时长并不是指软件的存活时间或网站从打开到关闭的这段时间,而是从软件或网站获得焦点开始到失去焦点前这段时间。

每日一博

短视频文案提取原来如此简单

提取视频文件 -> 音频分离 -> 音频转文字。而后就兴高采烈的编码起来了。很快现实就给当头一棒,应验了那句伴随 30 年的四川老谚语:说得轻巧,是根灯草(四川话念来就有味儿了)。第一个难点就是:如何根据分享的链接下载视频,还能支持各种通用平台。尝试好一会儿后放弃了,毕竟” 志不在此 “嘛,后来偶然发现有不少这样的平台,专门提供根据 url 下载视频的接口,就直接用三方的接口了。

有了视频链接,下载到本地就简单了(然则,简单的地方可能会有坑),直接上代码,返回文件生成的 InputStream。

public InputStream run(MediaDownloadReq req) {
        //根据url获取视频流
        InputStream videoInputStream = null;
        try {
            String newName = "video-"+String.format("%s-%s", System.currentTimeMillis(), UUID.randomUUID().toString())+"."+req.getTargetFileSuffix();

            File folder = new File(tempPath);
            if (!folder.exists()) {
                folder.mkdir();
            }
            File file = HttpUtil.downloadFileFromUrl(req.getUrl(), new File(tempPath +"" + newName+""), new StreamProgress() {
                // 开始下载
                @Override
                public void start() {
                    log.info("Start download file...");
                }
                // 每隔 10% 记录一次日志
                @Override
                public void progress(long total) {
                    //log.info("Download file progress: {} ", total);
                }
                @Override
                public void finish() {
                    log.info("Download file success!");
                }
            });
            videoInputStream = new FileInputStream(file);
            file.delete();
        } catch (Exception e) {
            log.error("获取视频流失败  req ={}", req.getUrl(), e);
            throw new BusinessException(ErrorCodeEnum.DOWNLOAD_VIDEO_ERROR.code(), "获取视频流失败");
        }
        return videoInputStream;
    }

事件点评

全国首例 AI 声音侵权案一审宣判:获赔 25 万元

央视新闻消息称,今天上午,北京互联网法院对全国首例 “AI 声音侵权案” 进行一审宣判,认定作为配音师的原告,其声音权益及于案涉 AI 声音,被告方使用原告声音、开发案涉 AI 文本转语音产品未获得合法授权,构成侵权,书面赔礼道歉,并赔偿原告各项损失 25 万元。

法官强调,声音作为一种人格权益,具有人身专属性,任何自然人的声音均应受到法律的保护,对录音制品的授权并不意味着对声音的授权,未经许可,擅自使用、许可他人使用录音制品中的声音,构成侵权。

点评

全国首例AI声音侵权案的一审宣判,标志着人工智能技术在声音领域应用的法律边界得到进一步明确。此案的判决对AI声音技术的使用和保护提出了新的法律标准,具有以下影响:

  1. 声音权益保护:此案强调了声音作为一种人格权益,具有人身专属性,任何自然人的声音均应受到法律保护。这一观点为声音权益的保护提供了法律依据,尤其是在AI声音合成技术日益普及的背景下。

  2. AI技术应用的法律挑战:此案反映出AI技术在声音合成领域的应用可能带来的法律和伦理问题。随着AI技术的发展,如何平衡技术创新与个人权益保护成为重要议题。

  3. 行业标准的建立:此案的判决可能促使AI声音合成行业建立更明确的标准和规范,以保护个人声音权益,同时促进技术的健康发展。

  4. 对创意产业的启示:此案对配音师等创意产业从业者来说,是一个重要的法律胜利,可能激励他们更积极地保护自己的声音权益。

  5. 对AI技术发展的影响:此案可能会对AI声音合成技术的研发和应用产生影响,促使技术开发者更加重视声音来源的合法性和伦理问题。

HelloKitty 勒索软件重塑品牌,公开思科、CDPR 源代码

HelloKitty 勒索软件操作的运营商宣布将名称更改为 “HelloGookie”,并公布了之前泄露的 CD Projekt 源代码的密码、思科网络信息以及旧攻击的解密密钥。发布此公告的黑客名字为 “Gookee/kapuchin0”,他声称自己是现已不复存在的 HelloKitty 勒索软件的原始开发者。

此次品牌重塑恰逢 HelloGookie 推出新的暗网门户。为了庆祝此事,Gookie 公布了四个私有解密密钥,可用于解密较早攻击中的文件;以及在 2022 年攻击中从思科窃取的内部信息,2021 年从 CD Projekt 窃取的《昆特牌》、《巫师 3》、《Red Engine》源代码。

点评

HelloKitty/HelloGookie的更名和数据泄露事件不仅揭示了勒索软件威胁的持续性,还突显了数据保护和网络安全的重要性,对游戏产业、网络安全防御以及法律和道德标准产生了深远影响。

此类数据泄露事件对网络安全防御构成了挑战,要求企业和组织加强其安全措施,以防止类似事件的发生。也引发了关于数据保护和网络安全法律、道德标准的讨论,尤其是在数据泄露和勒索软件日益普遍的背景下。

上网就能 “生产能源” 的浏览器,这你受得了吗?

搜索引擎公司 Ecosia 为迎接世界地球日推出了同名浏览器 —— 基于 Chromium 创建、内置广告拦截器、优化运行速度,声称加载网页的速度 " 比大多数主流浏览器快三倍,此外还通过阻止跟踪器来保护用户的隐私。

不过,Ecosia 浏览器的主要卖点还是它的环保特性,其制造商表示会将从浏览器赚取的利润用于资助植树项目(它提供赞助商链接,可以购买各种品牌的产品,从而获得广告以外的现金流)。这一理念与十多年前推出的 Ecosia 搜索引擎相似。

点评

Ecosia 浏览器的推出,以环保为核心特色,为网络技术在可持续发展领域提供了新的应用范例。该浏览器通过广告收入资助植树项目,展示了技术如何为环境保护做出贡献。这不仅提高了公众对环保问题的关注,也为其他科技公司提供了灵感,鼓励他们在业务模式中融入环保元素。

然而,Ecosia 的广告拦截功能和优化运行速度也引发了关于隐私和用户体验的讨论。虽然广告拦截可能减少用户隐私风险,但也可能影响网站的收入和运营。这促使人们思考如何在保护环境的同时,平衡用户的隐私和网络生态的健康。

总体来说,Ecosia 浏览器的推出具有重要的意义。它不仅推动了环保理念在技术领域的应用,也引发了关于隐私、用户体验和技术责任的深入讨论。这些讨论对于塑造未来网络技术的发展方向至关重要。


开源之声

媒体观点

大模型没过「试用期」

新兴技术的未知性特点在大模型的算法黑箱下再度放大,导致产业在面对既往合作伙伴时依旧保持着相当的审慎——虽同为产业智能化,但模型服务的“完整性”远不如上云。这也导致了模型服务商扩大商业化的一个困境,即在体量不大的项目上投入大量定制化服务与资源,成为做多收少的“高科技施工队”。

然而吊诡的地方在于,而今增速趋近停滞的云计算市场已经发生了明确的转向,拓客方向自大客户转向中小客户。但模型服务却因以算力为主的基建成本高企,而难以跟上云计算的节奏,只能试图通过标准化产品广撒网,一点点啃下中小企业。

生成式AI代表未来已经成为业内共识,“断舍离”再难成为选项之一的同时,一众企业不得不迎难而上,冲突亦在这一过程中不断上演。

投资界

超70%代码问题,单纯靠基座大模型是解决不了的;

未来3-5年,人类50%编程工作可以被替代,有些环节甚至完全自动化。

蚂蚁集团代码大模型CodeFuse负责人李建国说道。

当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。

量子位

搜狐大厦酝酿商业巨变:清华系大模型公司扎堆,真抱团还是假情谊?

实际上,市场上一直存在称“清华系”大模型企业“象牙塔味儿”太重的声音。这种声音来自于各家企业抛开用户增长与商业拓展,过度地在关键数据指标上掰手腕,过多地强调在某些参数和指标的全球排行榜名次,片面依赖论文等学术成果和开源社区表现。

......

但好在,竞争压力会时刻提醒驾驭着学术航母的清华系新秀们,商业的战场不会优待文质彬彬的学者,此消彼长的参数最终还是要用人民币做计量。

- 时代周报

有望打败闭源模型?阿里、百度、腾讯云厂商抢食开源Llama 3算力

多名科技界人士此前对Llama 3系列评价颇高,认为后续可能开源的Llama 3超4000亿参数版本有望改变大模型生态,更有从业者指出,开源的Llama 3有如安卓,一夜之间打掉所有闭源手机操作系统。

随着开源潮流继续,云厂商也不再仅依托与闭源大模型厂商绑定,而走向了抢食开源大模型算力需求。

- 第一财经

用户观点

鸿蒙之父王成录:开源鸿蒙是我国基础软件领域唯一一次架构创新

  • 观点 1:他那时候搞的开源鸿蒙就是基于RTOS改得,有啥好吹的吗,现在都还是个半成品?闭源鸿蒙就是android改,这个也没什么好说的。后期HOS3这个是L内核+自己的上层,这个还是比较符合创新的。
  • 观点 2:我不太懂,“是唯一一个几乎能装在各种各样设备上的操作系统”,那Xiaomi Vela算不算,底层的NuttX原作者还被小米收编了
  • 观点 3:鸿蒙之父都离开华为了,这个系统还有前途吗?
  • 观点 4:不想喷那些喷子了,我愿意相信华为鸿蒙作为一个优秀的操作系统肯定是值得我赞扬和骄傲的,我辈当自强!
  • 观点 5:了解一下日本的tron操作系统历史,就会知道走出这一步对于中国的意义。不懂政治真的是傻
  • 观点 6:看文档确实挺有想法,主要集中在多平台和分布式上。而且开鸿这玩意很好玩,它不是传统意义上完整的系统,而是搭配不同内核的一个系统层。
  • 观点 7:期待迭代吧,我用了一段时间,觉得不论是语法还是编译器emmm都有很大的发展潜力

老乡鸡“开源”背后的原因令人暖心

  • 观点 1:没想到国内在开源前列的竟然是一家餐饮企业,给老乡鸡点赞
  • 观点 2:他们还给骑手打折 是很多在商圈周围跑外卖的骑手的首选
  • 观点 3:溯源这件事很早就有很多企业在做,核心目的是通过建立起从农产到餐桌的全透明链路获取信任,加强品牌与消费者之间的“情感链接”,但是怎么样才能让这件事变得可靠、可信、被看见,也是一个大难题,这点老乡鸡做得不错
  • 观点 4:食谱开源了那能不能做个对应的开源教程,手残党感谢老乡鸡()
  • 观点 5:老乡鸡就是一个开源项目,支持你随时coding,改bug,每一个时间段都会做一个突破性的迭代版本,作为一个长期购买套餐的食客,必须支持[加油][加油](自动给个star)
  • 观点 6:打败你的不是同行 是跨界

月之暗面创始人杨植麟套现数千万美金

  • 观点 1:因为他自己好像看透了
  • 观点 2:拿在自己手里的钱才是真实的
  • 观点 3:这是本事,无可厚非。
  • 观点 4:不过是将区块链的玩法带入到AI中
  • 观点 5:正常,资本进场了,创始人不套现等着完资本战争啊。 参考摩拜单车创始人[撇嘴],21亿离场就是这么玩的

程序员梗图

  • 《计算机圣经》

---END---

最后,欢迎扫码下载「开源中国 APP」,阅读海量技术报告、程序员极客分享!

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
3 收藏
分享
返回顶部
顶部