Loading...
墨滴

java后端指南

2021/05/23  阅读:26  主题:雁栖湖

java爬虫

Part1文章首推

Part2今日主题:java爬虫

1简介

相信爬虫大家是有听过的,听到最多的是python爬虫,但是我们也可以用java来干,直接就是开干,这里我们要用jsoup这个依赖,他是用来解析html的。

2环境

  • springboot

3依赖

  <!-- jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

4实现过程

1.爬取页面上所有的span标签

 //从URL加载HTML
       Document document = Jsoup.connect("https://baijiahao.baidu.com/s?id=1678670461780276039&wfr=spider&for=pc").get();


        String title = document.title();
        //获取html中的标题
        System.out.println("title :"+title);
        //获得span标签的所有文本
        String strings=document.select("span").html();
        System.out.println(strings);

2.爬取某个网页上的某个软件的下载地址

    String url="https://www.onlinedown.net/soft/"+j+".htm";
            Document document = null;
            try {
                document = Jsoup.connect(url).get();
                String title = document.title();
                Elements elements=document.select("a");
                int i=0;
                for (Element element:elements){
                    if ("电信网络下载".equals(element.html())){
                        i++;
                        if (i==2){
                            System.out.println("【"+j+"】"+title+" 的下载地址:"+element.attr("href"));
                        }
                    }

                }
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }

3.爬取整个网站的某个软件的下载地址

        for (int j=1;j<=200;j++){
            String url="https://www.onlinedown.net/soft/"+j+".htm";
            Document document = null;
            try {
                document = Jsoup.connect(url).get();
                String title = document.title();
                Elements elements=document.select("a");
                int i=0;
                for (Element element:elements){
                    if ("电信网络下载".equals(element.html())){
                        i++;
                        if (i==2){
                            System.out.println("【"+j+"】"+title+" 的下载地址:"+element.attr("href"));
                        }
                    }

                }
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }


        }

如果有不懂的,可以看一下我的B站视频:https://www.bilibili.com/video/BV1b64y1y72F/


欢迎关注:java后端指南

java后端指南

2021/05/23  阅读:26  主题:雁栖湖

作者介绍

java后端指南

公众号:java后端指南