电子教材的图片来自于人教网,1-6年纪共12册,每册有100+张图片,而这图片是在一个个页面中的,如果是打开一个页面图片另存为并重命名,这得重复操作1200次!

搜遍网络,完整的纯图片的没有,有个exe版本的,可图片分辨率太低。

而我是准备用来做课件的素材的,所以开始了1200次的机械操作,刚开始比较顺,可辛辛苦苦半个多小时重复下来一册都还没搞定,并且人教网页面打不开了……

经常访问人教网的肯定遇到过这种情况,尝试挂上SSH,竟然可以打开,且非常稳定,真是天大的笑话!

这么干1200次太没效率了,这里得感谢hzlzh童鞋,帮我写了一个类爬虫PHP程序(教程):

经过分析图片的HTML页面ID是连续的,而图片的名称是无规律的,只能把这1200多个页面里的图片名称爬出来,然后构建出下载地址,并用Firefox的DownThemAll插件批量下载。

其中艰辛不再累述,服务器500错误12次,CtrlC、CtrlV无数次,对所有图片页码命名并分册分单元归档。

真是个体力活!

下载地址:http://u.115.com/file/f1d45197f2