videoSpider 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
videoSpider 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
videoSpider 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者 billvsme
适用人群 未知
收录时间 2016-03-02

软件简介

分布式视频信息爬虫,从豆瓣,bilibili等收集电视剧、电影、动漫、演员等信息,
使用:requests 发送请求,BeatufulSoup解析html,SQLAlchemy 作为ORM,Alembic数据库版本控制。 

使用:协程(gevent)+多进程,分布式(Celery)

安装

首先因为选择使用使用lxml解析html,安装lxml库前需要安装相关c库

sudo apt-get install libxml2-dev libxslt-dev python-dev
sudo apt-get build-dep python3-lxml

注意用python3

virtualenv tv -p python3
. tv/bin/activate
git clone https://github.com/billvsme/videoSpider
cd videoSpider
pip install -r requirements.txt

用法

注意使用python3首先,设置配置config.ini

cp config/config_dev.ini config/config.ini
vim config/config.ini

config_dev.ini默认配置,可以运行,最好自己修改一下(例如celery的后端)。

[database]
database_url = sqlite:///tv.db  #数据库
test = false                    #是否输出SQLAlchemy 信息
[photo]
path = ./photo                  #下载图片存放等位置
[qiniu]                         #七牛的配置
access_key = xxxx              
secret_key = xxxx
bucket_name = xxxx
[celery]                        #celery 配置
backend = db+sqlite:///celery_backend.sqlite     
broker = sqla+sqlite:///celery_borker.sqlite

然后生成数据库

alembic upgrade head

然后运行Celery

celery -A tasks worker  --loglevel=info

抓取电影,电视剧,动漫信息(视频)

python start.py video

抓取演员信息

python start.py celebrity

下载电影,电视剧,动漫,演员的图片到本地(大概需要10个小时,40G)

python start.py down-image

发布图片到七牛

python start.py upload-image

创建Whoosh索引

python start.py whoosh

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(1)
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
celery命令注入漏洞
命令注入
celery是开源的一个用于分布式任务队列的包。celery 5.2.2之前版本存在命令注入漏洞,攻击者可利用该漏洞访问或以某种方式操纵celery后端中的元数据,触发存储命令注入漏洞。
CVE-2021-23727 MPS-2021-19766
2022-08-08 20:14
gevent 存在信息暴露漏洞
信息暴露
受影响的 gevent 版本容易受到信息泄露的影响。
MPS-2022-14926
2022-08-08 20:14
lxml 存在路径遍历漏洞
路径遍历
此软件包的受影响版本容易受到任意文件写入的影响。
MPS-2022-14974
2022-08-08 20:14
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
1 评论
31 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部