Python 抓取PTE羊驼APP

批量抓取羊驼App里的不同学习模块的资料,并保存至本地。

这样可以有助于自己将资料整理成适合自己学习方法。

羊驼PTE只有APP端,不同于萤火虫PTE的web的端口。

因此第一步是需要分析羊驼APP,捕获它所request的HTTPS请求,并分析出对应的API接口。

一般APP的数据接口格式是json格式。

在第一步中需要用到Fiddler 请求分析软件,在本机通过模拟器方式运行羊驼PTE。

本次展示抓取听力模块中WFD的资料,如下图。

     

在Fiddler中可分析得出点击WFD的Item时会发送一条request对应题目的去服务器请求对应的详细内容。

再通过查看response可以发现json中出现所请求的数据报文,该报文即为所需抓取的详细数据。

至此,可以得出WFD列表中每个Item的数据API为:https://www.ytaxx.com/api/questions/listening/writeFromDictation?type=2&pageNo=1

其中PageNO为题目ID,ID区间为1-1125。

 

第二步,编写一个Python的下载工具,即可批量下载。

API中的数据为json格式,如下图

对于此json转化为数组并提取为对应的字符串即可

题目ID :[‘data’][‘datas’][0][‘orderId’]

题目答案:[‘data’][‘datas’][0][‘answer’]

仅供展示,抓取的数据直接存入TXT文档了。

需要方便查看的也可以在python利用Excel模块直接生成Excel。

 

记录生活
磊(LEI) BLOG » Python 抓取PTE羊驼APP