python基础-02

从今天开始学习python基础,也会涉及一些简单的爬虫,主要使用python3。python2和python3的区别在这里不做详述(之后考虑写一篇blog记录下)。

第一篇是参考视频学习的第一个demo,爬取ip138全国各省信息及链接,后续继续优化

import requests
import xml.etree.ElementTree as ET

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
	def __init__(self,provinces):
		self.provinces = provinces

	def start_element(self,name,attrs):
		if name != 'map':
			name = attrs['title']
			number = attrs['href']
			self.provinces.append((name,number))

	def end_element(self, name):
		pass

	def char_data(selef, text):
		pass


def get_provinces(url):
	content = requests.get(url).content.decode('gb2312')
	start = content.find('<map name=\"map_86\" id=\"map_86\">')
	end = content.find('</map>')
	content = content[start:end+len('</map>')].strip()
	print (content)
	provinces = []
	handler = DefaultSaxHandler(provinces)
	parser = ParserCreate()
	parser.StartElementHandler = handler.start_element
	parser.EndElementHandler = handler.end_element
	parser.CharacterDataHandler = handler.char_data
	parser.Parse(content)
	return provinces

provinces = get_provinces('http://www.ip138.com/post')
print (provinces)

具体可以visiting the project on GitHub.

Python 
更新时间:2020-12-13 13:44:31

本文由 HycJack 创作,如果您觉得本文不错,请随意赞赏
采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
原文链接:https://www.hycjack.cn/archives/python基础01
最后更新:2020-12-13 13:44:31

评论

Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×