时间:2023-1-17 作者:老大夫 分类: 传智JAVA爬虫学习笔记
使用dom方式遍历文档
元素获取
@Test
public void testDOM()throws Exception{
//解析文件,获取Document对象
Document doc = Jsoup.parse(new File("C:\\Users\\16259\\Desktop\\test.html"), "utf8");
//1.根据id查询元素getElementById
// Element element = doc.getElementById("city_bj");
//2.根据标签获取元素getElementsByTag
// Element element = doc.getElementsByTag("span").first();
//3.根据class获取元素getElementsByClass
// Element element = doc.getElementsByClass("class_a class_b").first();
// Element element = doc.getElementsByClass("class_a").first();
// Element element = doc.getElementsByClass("class_b").first();
//4.根据属性获取元素getElementsByAttribute
// Element element = doc.getElementsByAttribute("abc").first();
Element element = doc.getElementsByAttributeValue("href", "http://sh.itcast.cn").first();
//打印元素内容
System.out.println("获取到的内容是:"+element.text());
}
推荐阅读:
02 入门程序
22 封装HttpClient
24 实现爬虫功能2
20 开发准备
18 selector选择器的组合使用获取元素
23 实现爬虫功能1
17 使用选择器获取元素
21 编写案例的引导类,Service,Dao,Pojo
19 idea工程文件打包
16 获取元素中的数据
行动消除疑虑