Skip to content

Latest commit

 

History

History
16 lines (11 loc) · 964 Bytes

douyin.md

File metadata and controls

16 lines (11 loc) · 964 Bytes

抖音爬虫(python3)

使用前请先pip3 install相应requirements

##用户信息爬取

douyin_info.py

  • 目前爬取的文件是以excel形式存放在douyin_example.csv文件中,可以自己设置前面定义数据库连接类将信息爬取到数据库种。
  • 爬取使用基于用户的短id(short_id)和自定义id(unique_id)。
  • 如果爬取用户较多,可以截取一定范围id在多台pc上同时爬取。
  • 目前基于api获取搜索内容的首个,一次调用获取一条信息,效率较低,一次调用最多可获取10条信息,可以将所有id存放到一个单独的文件中(称为id池),爬取前在池子中查看是否已经存在,存在可不爬取节省大量时间,然后所有爬取完之后进行id去重,本人没有大量爬取需求,有需要的朋友可以自行修改。

##用户收藏视频下载

douyin_video.py

  • 可以用于下载指定用户的所有收藏视频,测试有效