在JAVA中通过jsoup获取url中的html元素的简单代码示例

作者: admin 分类: Scrapy 发布时间: 2019-08-09 17:54  阅读: 49 views

jsoup解析url中的html元素

有时候需要通过解析不同网站的网站元素、数据等信息做些基本的调研或者分析。随着技术的不断发展及升级,很多网站已经升级使用vue或者相关前端框架作为首选。这样的话,使用jsoup方式无法内容元素,因为内容不是即时输出到页面上,而是通过js动态渲染。这种情况的话需要配合selenium浏览器测试工具处理,配合相关浏览器的驱动程序,也比较好用。下面先放出jsoup方式

bing搜索的解析代码如下

动作:获取输入搜索词后的首页列表标题 + 链接

package org.crawler.spider;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;


/**
 * 利用java-urlConnection解析url中的html代码,获取相关信息元素
 * 
 * @author chenhailong
 * @date 2018年10月22日 下午7:13:02 
 */
public class test {

  /**
   * @param args
   */
  public static void main(String[] args) {

    try {

      String path = "https://cn.bing.com/search?q=site%3Awww.deathearth.com&qs=n&form=QBLH&sp=-1&pq=site%3Awww.deathearth.com&sc=0-23&sk=&cvid=AC9F8650E83543C093114B16157FD8DC";

      Document listPage = getUrlDoc(path);
      //找到内容版面
      Element ele = listPage.getElementById("b_results");   
      //如果页面中有多个id值,会找不到元素
      //listPage.getElementById("content_left")  

      //找到列表块,排除一些个性化展示内容,如果引用多个样式,需要用下面这种方式
      //List<Element> es = ele.select("div.result.c-container");

      List<Element> es = ele.getElementsByClass("b_algo");
      for(Element e: es) {
        String title = e.getElementsByTag("h2").get(0).text();
        String href  = e.child(0).childNode(0).attr("href");
        System.out.println("标题:"+ title);
        System.out.println("连接:"+ href);

        //开始解析详细页面
        //Document detail = getUrlDoc(href);

      }


    } catch (Exception e) {
      // TODO Auto-generated catch block
      e.printStackTrace();
    }
  }

  /**
   * 根据路径获取当前页面html
   * @param path 路径-url
   * @return 文档对象,如流为0,则返回null
   */
  public static Document getUrlDoc(String path) {
    String html = ""; //最终的html源码
    try {
      URL u = new URL(path);
      URLConnection url = u.openConnection();
      //将流转换为字符
      html = convertStreamToString(url.getInputStream());
    } catch (IOException e) {
      e.printStackTrace();
    }
    if(html.length() < 1) {
      return null;
    }else {
      Document doc = Jsoup.parse(html);
      return doc;
    }
  }


  /**
   * 将InputStream转化为String
   * @param is 流
   * @return 当前url文本
   * @throws IOException
   */
  public static String convertStreamToString(InputStream is) throws IOException {
      if (is == null)
          return "";
      //将输出流转换编码
      BufferedReader reader = new BufferedReader(new InputStreamReader(is,"utf-8"));
      StringBuilder sb = new StringBuilder();
      String line = null;
      try {
          while ((line = reader.readLine()) != null) {
              sb.append(line);
          }
      } catch (IOException e) {
          e.printStackTrace();
      } finally {
          try {
              is.close();
          } catch (IOException e) {
              e.printStackTrace();
          }
      }
      reader.close();
      return sb.toString();
  }
}

执行结果如下

标题:一个程序猿的编码人生
连接:https://www.deathearth.com/
标题:servlet2.5升级servlet3.1/servlet4.0的新特性(注解替换web …
连接:https://www.deathearth.com/834.html
标题:《java开发手册》1.5.0华山版云盘下载,阿里巴巴集团技术 …
连接:https://www.deathearth.com/881.html
标题:脚本清理最近X日之前的ELK日志文件,优化磁盘空间 – 程序猿 …
连接:https://www.deathearth.com/370.html
标题:java使用transportClient连接elasticsearch并做接口实现增删改 …
连接:https://www.deathearth.com/651.html
标题:使用AOP拦截controller层方法时,通过监控方法上的注解 …
连接:https://www.deathearth.com/227.html
标题:SpringBoot改造异常:Invalid bean definition with name …
连接:https://www.deathearth.com/549.html
标题:环境搭建-Eclipse安装Spring-Tool-Sutite插件并创建简单的 …
连接:https://www.deathearth.com/455.html
标题:windows10_x64下配置hadoop2.7.5的环境搭建介绍 – 程序猿 …
连接:https://www.deathearth.com/67.html
标题:elasticsearch6.4.2安装x-pack安全认证后,java如何使用 …
连接:https://www.deathearth.com/679.html

总结整理

这种方式只适合还没有进行vue改造的网站,有较完整的api封装调用简便。其他工具处理对于元素的获取大同小异,还是最终根据需求选择

如:
Scrapy根据XPATH解析页面内容、下载为json格式文件、抓取列表页等的简单示例


   原创文章,转载请标明本文链接: 在JAVA中通过jsoup获取url中的html元素的简单代码示例

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

更多阅读