极客小将

您现在的位置是:首页 » python编程资讯

资讯内容

java爬虫与python爬虫对比

极客小将2020-12-29-
简介java爬虫与python爬虫的对比:python做爬虫语法更简单,代码更简洁。java的语法比python严格,而且代码也更复杂示例如下:url请求:java版的代码如下:public String call (String url){  

fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

java爬虫与python爬虫的对比:fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

python做爬虫语法更简单,代码更简洁。java的语法比python严格,而且代码也更复杂fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

示例如下:fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

url请求:
fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

java版的代码如下:fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

public String call (String url){             String content = "";             BufferedReader in = null;             try{                 URL realUrl = new URL(url);                 URLConnection connection = realUrl.openConnection();                 connection.connect();                 in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"gbk"));                 String line ;                 while ((line = in.readLine()) != null){                     content += line + " ";                 }             }catch (Exception e){                 e.printStackTrace();             }             finally{                 try{                     if (in != null){                         in.close();                     }                 }catch(Exception e2){                     e2.printStackTrace();                 }             }             return content;         }

python版的代码如下:fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

# coding=utf-8 import chardet import urllib2 url = "http://www.baidu.com" data = (urllib2.urlopen(url)).read() charset = chardet.detect(data) code = charset['encoding'] content = str(data).decode(code, 'ignore').encode('utf8') print content

正则表达式fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

java版的代码如下:fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

public String call(String content) throws Exception {             Pattern p = Pattern.compile("content":".*?"");             Matcher match = p.matcher(content);             StringBuilder sb = new StringBuilder();             String tmp;             while (match.find()){                 tmp = match.group();                 tmp = tmp.replaceAll(""", "");                 tmp = tmp.replace("content:", "");                 tmp = tmp.replaceAll("<.*>", "");                 sb.append(tmp + " ");             }             String comment = sb.toString();             return comment;         }     }

python的代码如下:fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

import repattern = re.compile(正则) group = pattern.findall(字符串)

更多Python知识,请关注:Python自学网!!fN9少儿编程网-Scratch_Python_教程_免费儿童编程学习平台

网友点评

共有5条评论来说两句吧...

在线客服