GPU DataFrame库 cuDF

Apache
Python
跨平台
2019-08-06
红薯
cuDF 正在参加 2019 年度最受欢迎开源中国软件评选,请投票支持!
cuDF 在 2019 年度最受欢迎开源中国软件评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票赢奖品
已投票

cuDF 基于Apache Arrow柱状内存格式构建,是一个GPU DataFrame库,用于加载,连接,聚合,过滤和操作数据。

cuDF提供了类似 pandas 的 API,数据工程师和数据科学家都很熟悉它们,因此他们可以使用它轻松加快工作流程,而无需深入了解CUDA编程的细节。

例如,以下代码段下载CSV,然后使用GPU将其解析为行和列并运行计算:

import cudf, io, requests
from io import StringIO

url="https://github.com/plotly/datasets/raw/master/tips.csv"
content = requests.get(url).content.decode('utf-8')

tips_df = cudf.read_csv(StringIO(content))
tips_df['tip_percentage'] = tips_df['tip']/tips_df['total_bill']*100

# display average tip by dining party size
print(tips_df.groupby('size').tip_percentage.mean())

输出结果:

size
1    21.729201548727808
2    16.571919173482897
3    15.215685473711837
4    14.594900639351332
5    14.149548965142023
6    15.622920072028379
Name: tip_percentage, dtype: float64
的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

Coding and Paper Letter(五十八)

资源整理。 1 Coding: 1.支持TMS、WMTS标准瓦片下载,支持百度地图瓦片、高德地图瓦片、腾讯地图瓦片、天地图、ArcServer Rest瓦片、ArcServer本地缓存切片、geoserver WMS等瓦片下载。默认以...

04/02 21:12
25
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部