用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - java代码库

java抓取网页并解析

2013-03-13 作者: 小蜜锋举报

[java]代码库

String query = URLEncoder.encode("xxx", "UTF-8");

                 String url = ".baidu./s?wd=" + query + "&pn=" + p * 10 + "&tn=baiduhome_pg&ie=utf-8"

  public void MakeQuery(String domain) {

      try {

          HttpClient httpClient = new HttpClient();

          GetMethod getMethod = new GetMethod(domain);

          //System.out.println("*************************************************************");

          //System.out.println(getMethod);

          try{

              httpClient.executeMethod(getMethod);

              
        } catch(Exception e){

              System.out.println("网络问题");

              
        }

          getMethod.getParams()。setParameter(HttpMethodParams.RETRY_HANDLER,

          new DefaultHttpMethodRetryHandler());

          int statusCode = httpClient.executeMethod(getMethod);

          if (statusCode != HttpStatus.SC_OK) {

          System.err.println("Method failed: "

           + getMethod.getStatusLine());

          
    }

      byte[] responseBody = getMethod.getResponseBody();

          //System.out.println("*************************************************************");

          //System.out.println(responseBody);

          String response = new String(responseBody, "UTF-8");

          //System.out.println("*************************************************************");

          //System.out.println(response);

          //Jsoup解析html

          Document doc = Jsoup.parse(response);

          //System.out.println("*************************************************************");

          //System.out.println(doc);

          Elements contents = doc.getElementsByClass("f");

  for(Element content: contents){

          Element links = content.getElementsByTag("a")。first();

          String linkHref = links.attr("href");//链接

          String linkText = links.text();//摘要

          FoursearchZH.map.put(linkHref, linkText);

          System.out.println("------------------");

          System.out.println(linkHref);

          System.out.println(linkText);

          
    }

      
} catch (Exception e) {

      System.err.println("Something went wrong…");

      e.printStackTrace();

      
}

  
}


网友评论    (发表评论)

共1 条评论 1/1页

发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...