大量新论文、RWKV-7 架构已定档......RWKV 社区 11 月动态速览!

来源: 投稿
2024-11-29 18:49:00
AI总结

欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2024 年 11 月的最新动态。

只需 3 分钟,快速了解 RWKV 社区 11 月都有哪些新鲜事!

11 月动态省流版(TL;DR)

  1. RWKV 学术研究动态

    • 新论文:DFT(RWKV 股票价格预测模型)
    • 新论文:Video RWKV(RWKV 视频理解框架)
    • 新论文:RuleVM(RWKV 暴力监控框架)
    • 新论文:MARWKV(RWKV 智能体强化学习)
    • 新论文:RWKV-AttnInput(利用 RWKV 模型增强拼音输入法)
  2. RWKV 模型新闻动态

    • RWKV-6-World-7B-v3 模型正式开源发布
    • RWKV-7 架构已确认最终代码,已发布 0.1B、0.4B 两种参数的模型
    • rwkv.com 新增 RWKV 论文展示板块,可按分类查看 RWKV 相关的学术研究
  3. RWKV 活动

    • 11 月 23 日,RWKV 团队在南京大学进行技术分享,RWKV 创始人彭博在线回答校友提问
    • 10 月 30 日,RWKV 团队在浙江大学进行技术分享
  4. RWKV 社区项目动态

    • RWKV-15Puzzle:一个基于 RWKV-v6 的 15 谜题问题求解模型
    • rwkv-qualcomm 项目最新进展:支持 RWKV-V5 和 RWKV-V6 模型,支持 fp16/a16w8/a16w4 等量化
    • Sudoku-RWKV 发布 Windows 和安卓应用程序
    • 社区发布基于 RWKV 的中文微调模型:ChatRWKV-6-World-7B-v3-Chinese

RWKV 学术研究

DFT (RWKV 股票价格预测模型)

  • 论文名称:DFT: A Dual-branch Framework of Fluctuation and Trend for Stock Price Prediction
  • 论文地址:https://arxiv.org/abs/2411.06065
  • 发布时间:2024-11-9

文章提出了用于股票价格预测的 DFT(Dual-branch Framework of Fluctuation and Trend)框架,旨在解决现有方法在捕捉短期波动和探索股票时间关系方面的不足。

DFT 框架将股票分解为趋势和波动双分支,并引入 RWKV 模型有效建模时间相关性,充分挖掘复杂的跨时间因果关系和股票相关性。DFT 框架在多个股票数据集上展现出卓越的性能,为股票价格预测提供了更有效的途径。

Video RWKV (RWKV 视频理解框架)

论文提出了用于视频动作理解的 LSTM-CrossRWKV(LCR)框架,将 RWKV 引入视频领域。该框架通过创新的 Cross RWKV 门和 LSTM 循环执行机制,有效捕捉时空特征,利用边缘信息减少冗余,

LCR 框架在多个数据集上表现出色,为视频分析提供了高效解决方案。

RuleVM(RWKV 暴力监控框架)

  • 论文名称:From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System
  • 论文地址:https://arxiv.org/abs/2410.21991
  • 发布时间:2024-10-29

论文提出了新的弱监督暴力监控框架 RuleVM。RuleVM 使用 RWKV 架构作为其轻量级事件序列模块,并使用相对距离代替特征相似性。这种机制使模型更加轻量级,因为它只考虑画面帧间的相对距离,无需评估高维特征相似性,从而有效降低计算复杂性,有助于降低计算成本、提高训练和推理效率。

MARWKV(RWKV 智能体强化学习)

论文提出 MARWKV(Multi Agent RWKV)架构,以实现多智能体强化学习(MARL)。实验结果表明:MARWKV 在 MARL 基准测试中的表现与 MAT(Transformer)相当,并且具有类似的少样本学习能力,且在 Agent 数量较多时拥有更好的计算效率。

RWKV-AttnInput(拼音输入法)

AttnInput 利用 RWKV 语言模型的优势来增强拼音输入法,通过轻量级端侧网络将拼音信息直接集成到 RWKV 的内部状态中,有效解决了之前基于 LLM 的输入法所面临的语义不连续问题。

RWKV-AttnInput 的作者是 RWKV 社区成员 @桂之瑜

RWKV 官方新闻动态

RWKV-6-World-7B-v3 模型正式开源发布

2024 年 11 月 13 日,RWKV-6-World-7B-v3 模型正式开源发布。

对比 RWKV-6-World-v2.1 模型,RWKV-6-World-v3 模型新增了 World-v3 数据集(约 3.1T tokens),对比 v2.1 数据集补充了优质英文网页、代码、中文小说、多语言数据、数学数据、指令数据等。

更多的训练数据带来更好的模型性能,RWKV-6-World-7B-v3 的各方面能力显著增强,包括中文小说、对话、代码、数学能力。

更多细节阅读:RWKV-6-World-7B-v3 模型正式开源发布,新增 3.1T 训练数据

RWKV-7 架构已确认最终代码

RWKV-7 架构已确认使用 "rc4a" 版本最为最终代码,可以在 GitHub 仓库 RWKV-LM/RWKV-V7 中查看代码。

RWKV-7 架构已发布 0.1B 和 0.4B 两种参数的模型(基于 pile 数据集),可以在 RWKV-7 Hugging Face 仓库中下载试用。

RWKV-7 架构的设计思路,请阅读:RWKV-7 as a meta-in-context learner,从第一性原理真正理解

rwkv.com 新增 RWKV 论文板块

rwkv.com 新增 RWKV 论文展示板块,支持分类查看 RWKV 相关的学术研究:

RWKV 社区活动

此版块包含 RWKV 官方动态 ,以及 RWKV 社区举办或参加的各类活动

RWKV 进高校第二站:浙江大学

应浙大研究生创新创业中心和浙大人工智能协会的邀请,RWKV 开源项目团队于 10 月 30 日在浙大紫金港校区做了一次主题分享《RWKV 技术产品化与生态及模型架构》,现场反响热烈。

RWKV 进高校第三站:南京大学

应南京大学人工智能学社的邀请,RWKV 团队于 11 月 23 日在南京大学仙林校区做了一次技术分享,RWKV 创始人彭博也在线回答了校友的提问。

这次分享活动吸引了南京大学、东南大学、南京航空航天大学等多所高校师生参与,RWKV 团队与嘉宾们进行了深入的沟通交流。

欢迎更多高校来交流、了解 RWKV 这种新型大模型架构。同时也欢迎科研工作者和创业者使用 RWKV,我们可以提供技术支持。

  • 联系微信:jadexlaw
  • 邮箱:luoxuan@rwkvos.com

RWKV 社区项目动态

此版块主要包括"RWKV 社区的新项目 "和"RWKV 社区项目的重要更新"等内容。

RWKV-15Puzzle(RWKV 15 谜题模型)

RWKV-15Puzzle 是一个专门的 RWKV-v6 模型,经过 500k 个 15 谜题样本(约 23 亿个 token)的训练,专门用于解决 15 谜题问题。

RWKV-15Puzzle 由 RWKV 社区成员 @Jellyfish042 完成,训练代码和数据制作脚本均已开源:

GitHub 仓库: https://github.com/Jellyfish042/RWKV-15Puzzle

rwkv-qualcomm 项目最新进展

rwkv-qualcomm 项目由 RWKV 社区成员 [@Molly Sophia](https://github.com/MollySophia "RWKV 社区成员 Molly") 开发,使用 QNN SDK 在高通平台上调用 HTP 进行 RWKV 模型推理。

rwkv-qualcomm 目前支持 RWKV-V5 和 RWKV-V6 模型,支持 fp16/a16w8/a16w4 等量化方式。其中,rwkv v6 的核心 wkv 算子使用 QNN 的 customop 功能,调用 Hexagon HVX SIMD 单元。

rwkv-qualcomm 的推理速度表格:

在配备 HTP v75 的高通骁龙 SM8650(小米 14)上推理:

| 模型 | 精度 | 每秒生成 token | LAMBADA perplexity 和 accuracy | | --- | --- | --- | --- | | RWKV v6 1.6B | att-a16w8 + ffn-a16w4 | 42.4368 | TODO | | RWKV v6 1.6B | a16w8 | 31.6564 | 4.75009,66.3497% | | RWKV v6 1.6B | fp16 | 15.0434 | 4.63598,67.2618% | | RWKV v6 3B | att-a16w8 + ffn-a16w4 | 21.3172 | TODO | | RWKV v6 3B | a16w8 | 16.2146 | TODO |

(实验性)使用自定义 WKV 内核运行推理:

| 模型 | 精度 | 每秒生成 token | LAMBADA perplexity 和 accuracy | | --- | --- | --- | --- | | RWKV v6 1.6B | att-a16w8 + ffn-a16w4 | 47.6698 | TODO | | RWKV v6 7B | a16w4 | 12.9782 | TODO |

Sudoku-RWKV 发布 Windows 和安卓应用程序

Sudoku-RWKV 是一个用于解决数独谜题的专用 RWKV 模型,现已支持解开最高难度的数独难题。

Sudoku-RWKV 现已有 Windows 和安卓两个版本的应用程序,下载地址:

先点击 New Game 按钮,再点击 Start Model 按钮,即可查看 Sudoku-RWKV 的 CoT 推理和可视化过程:

社区微调的 RWKV 中文模型

RWKV 社区成员使用大量中文数据对 RWKV-6-7B-World-v3 模型进行指令微调,微调后的模型被命名为 ChatRWKV-6-World-7B-v3-Chinese 。经过测试,微调模型在各项中文任务上的能力均有进步。

User: 你能写一首关于春天的七言律诗吗?

Assistant: 春风拂面花儿笑,柳絮飘飞舞翩跹。
桃李争妍红似火,莺啼燕语乐无边。
田野绿意铺锦绣,溪水潺潺奏清泉。
春光明媚人心醉,世界一片生机鲜。

User: 你能解释一下诗中的意象吗?

Assistant: 当然可以。这首诗描绘了春天的美景,每一个意象都充满了生机与活力。
1. **春风拂面花儿笑**:这里的"春风"象征着新生命的到来,而"花儿笑"则是指万物复苏,生机勃勃。它们共同构成了一幅温暖、欢快的画面。
2. **柳絮飘飞舞翩跹**:柳絮是春天特有的景观,它们在微风中轻盈飞舞,给人一种轻盈、自由的感觉。
3. **桃李争妍红似火**:桃李是春天开放的花朵,其颜色鲜艳如火焰般绚烂。这里用"争妍"表示竞相开放,展现出大自然复苏后的繁荣景象。
4. **莺啼燕语乐无边**:莺和燕是春天常见的鸟类,它们清脆悦耳的鸣叫声为大地带来无尽欢乐与希望。
5. **田野绿意铺锦绣**:田野上绿草如茵,仿佛铺设了一片翠绿色的地毯。这里形容了春天大地复苏后生机盎然、色彩斑斓的景象。
6. **溪水潺潺奏清泉**:溪水在山间流淌发出悦耳动听之声,形象地描绘了自然界中最纯净、最美妙的声音。
7. **春光明媚人心醉**:整首诗通过对春天各个方面细腻而生动的描写,展现出一幅充满活力与希望

该中文微调模型现已开源,可在 ModelScope 仓库中下载。

微调数据总量约 1.04B tokens,中英文占比为 7:3,在 4×H800 集群上训练了 25 小时。更多数据和训练细节可在 ModelScope 仓库中找到。

值得一提的是,微调模型的 MMLU 零样本成绩为 55.1% (作为对比,基底模型的成绩为 53.9%),这证明增加高质量数据能够有效增强 RWKV 模型的泛化能力和对复杂任务的适应性。

关于《RWKV 社区动态》栏目

《RWKV 社区动态》栏目会不定期播报 RWKV 社区的最新消息,以帮助 RWKV 的关注者、爱好者、开发者更好地了解 RWKV 的发展情况。

《RWKV 社区最新动态》不定期更新,所以请保持关注我们的微信公众号(RWKV 元始智能)、QQ 频道(RWKV)等公开平台,以获取最新的消息。

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理。

欢迎大家加入 RWKV 社区!可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
2 收藏
分享
AI总结
返回顶部
顶部