用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - java代码库

java抓取网页并解析

2013-03-13 作者: 小蜜锋举报

[java]代码库

String query = URLEncoder.encode("xxx", "UTF-8");
 
                 String url = ".baidu./s?wd=" + query + "&pn=" + p * 10 + "&tn=baiduhome_pg&ie=utf-8"
 
  public void MakeQuery(String domain) {
 
      try {
 
          HttpClient httpClient = new HttpClient();
 
          GetMethod getMethod = new GetMethod(domain);
 
          //System.out.println("*************************************************************");
 
          //System.out.println(getMethod);
 
          try{
 
              httpClient.executeMethod(getMethod);
 
              
        } catch(Exception e){
 
              System.out.println("网络问题");
 
              
        }
 
          getMethod.getParams()。setParameter(HttpMethodParams.RETRY_HANDLER,
 
          new DefaultHttpMethodRetryHandler());
 
          int statusCode = httpClient.executeMethod(getMethod);
 
          if (statusCode != HttpStatus.SC_OK) {
 
          System.err.println("Method failed: "
 
           + getMethod.getStatusLine());
 
          
    }
 
      byte[] responseBody = getMethod.getResponseBody();
 
          //System.out.println("*************************************************************");
 
          //System.out.println(responseBody);
 
          String response = new String(responseBody, "UTF-8");
 
          //System.out.println("*************************************************************");
 
          //System.out.println(response);
 
          //Jsoup解析html
 
          Document doc = Jsoup.parse(response);
 
          //System.out.println("*************************************************************");
 
          //System.out.println(doc);
 
          Elements contents = doc.getElementsByClass("f");
 
  for(Element content: contents){
 
          Element links = content.getElementsByTag("a")。first();
 
          String linkHref = links.attr("href");//链接
 
          String linkText = links.text();//摘要
 
          FoursearchZH.map.put(linkHref, linkText);
 
          System.out.println("------------------");
 
          System.out.println(linkHref);
 
          System.out.println(linkText);
 
          
    }
 
      
} catch (Exception e) {
 
      System.err.println("Something went wrong…");
 
      e.printStackTrace();
 
      
}
 
  
}


网友评论    (发表评论)

共1 条评论 1/1页

发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...