教程,如何抓取这个页面的所有下载链,http://soft.onlinedown.net/sort/1_2.htm,
源代码
1、首先下载一个可以用来爬取网页的工具,比如python,perl等等。
2、然后使用python中的requests库来抓取页面的html源码,如:
import requests
url = 'http://soft.onlinedown.net/sort/1_2.htm'
r = requests.get(url)
3、使用python中的beautiful soup库来分析html源码,找出下载链接所在的标签,如:
from bs4 import beautifulsoup
soup = beautifulsoup(r.text, 'lxml')
links = soup.find_all('a')
4、循环遍历links,找到下载链接所在的标签,然后把它们保存到一个列表中,如:
download_links = []
for link in links:
if link.has_attr('href') and 'down_' in link['href']:
download_links.append(link['href'])
5、最后使用python的urllib库来下载这些下载链接,如:
from urllib.request import urlretrieve
for link in download_links:
urlretrieve(link)
import requests
from bs4 import beautifulsoup
url = 'http://soft.onlinedown.net/sort/1_2.htm'
r = requests.get(url)
soup = beautifulsoup(r.text, 'html.parser')
links = soup.find_all('a', {'class': 'down_url'})
for link in links:
print (link['href'])
之前找了其他的与这个快手app类似的软件,唯独这个满意,而且还是共享软件