用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - java代码库

java爬虫 扒小说

2015-01-11 作者: java源代码大全举报

[java]代码库

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.safety.Whitelist;

public class App {
    static Document doc;

    public static String getContent(int id) throws Exception {
        doc = Jsoup.connect("http://www.xstxt.com/fanrenxiuxianchuan/" + id)
                .timeout(30000).get();
        String title = doc.title();
        title = title.substring(6, title.length() - 8);
        // System.out.println(title);

        String txt = doc.getElementById("booktext").toString();
        txt = Jsoup.clean(txt, Whitelist.none());
        txt = txt.replaceAll(" ", "\\n");

        txt = txt.replace("\\n\\n", "\\n").replace("\\n\\n", "\\n")
                .replace("\\n\\n", "\\n").replace("\\n \\n ", "\\n")
                .replace("\\n\\n", "\\n");

        // System.out.println(txt);
        return title + txt;
    }

    public static void main(String[] args) throws Exception {
        String filename = "z:/dd.txt";
        BufferedWriter bw = new BufferedWriter(new FileWriter(filename));
        String str = "";

        for (int i = 0; i < 1000; i++) {
            System.out.println(i);
            str = getContent(1071907+i);

            bw.write(str);
            bw.write("\\n\\n");

        }

        bw.close();

    }
}

//源代码片段来自云代码http://yuncode.net
			


网友评论    (发表评论)


发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...