15 使用DOM的方式获取文档

时间:2023-1-17    作者:老大夫    分类: 传智JAVA爬虫学习笔记


使用dom方式遍历文档
元素获取

  1. 根据id查询元素getElementById
  2. 根据标签获取元素getElementsByTag
  3. 根据class获取元素getElementsByClass
  4. 根据属性获取元素getElementsByAttribute

测试类文件

  @Test
    public void testDOM()throws Exception{
        //解析文件,获取Document对象
        Document doc = Jsoup.parse(new File("C:\\Users\\16259\\Desktop\\test.html"), "utf8");

        //1.根据id查询元素getElementById
//        Element element = doc.getElementById("city_bj");

        //2.根据标签获取元素getElementsByTag
//        Element element = doc.getElementsByTag("span").first();

        //3.根据class获取元素getElementsByClass
//        Element element = doc.getElementsByClass("class_a class_b").first();
//        Element element = doc.getElementsByClass("class_a").first();
//        Element element = doc.getElementsByClass("class_b").first();

        //4.根据属性获取元素getElementsByAttribute
//        Element element = doc.getElementsByAttribute("abc").first();
        Element element = doc.getElementsByAttributeValue("href", "http://sh.itcast.cn").first();

        //打印元素内容
        System.out.println("获取到的内容是:"+element.text());
    }


扫描二维码,在手机上阅读

推荐阅读: