php开奖采集看哪里,php知道与问问的采集插件代码-程序员宅基地

技术标签: php开奖采集看哪里  

最近发现知道和问问小偷的版本越来越多了!!

看过一个百度小偷的网站也达到了pr6。收录十万多!!

在经过 荐礼啦 四十天的实践之后 发现百度对这个确实挺友好的。

从网站访问来看 很多也是从百度搜索来的!

所以用知道和问问来填充网站内容还是可行的。

于是自己开发了一个知道 问问的采集插件

原则上适合 php+mysql 并且文章是在一个表的程序

知道采集代码

session_start();

header("content-type:text/html;charset=gbk");

require("stole_config.php");

require("conn.php");

require("keyword.php");

$searchStr=$_GET["searchStr"];

$ss=explode(" ",$searchStr);//拆分搜索关键字

$word="";//关键字设为空

foreach($ss as $key=>$t)

{

if($key>0)

{

$word .="+";

}

$word .=urlencode($t);

}

$jl=intval($_GET['jl']);

if(isset($_GET['page']))

{

$page=intval($_GET['page']);

}else{

$page=1;

}

$rs=intval($_GET['rs']);

if($rs>=10)

{

$rs=0;

$page++;

}

if($page>76)

{

echo "采集完毕 ${jl}";

exit();

}

if(!empty($searchStr))//如果搜索

{

//获取问题页面

$content=@file_get_contents("http://zhidao.baidu.com/q?ct=17&lm=0&tn=ikaslist&pn=".(($page-1)*10)."&rn=10&word=".$word);

//获取问题列表

preg_match_all("/

$uid=$uid[1];//获取详细页文章

$uid=$uid[$rs];

//判断数据是否存在

$suid="bd{$uid}";

$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid='$suid' ");

$sct=mysql_fetch_array($sct);

$sct=$sct[0];

if($sct==0)

{

$content=@file_get_contents("http://zhidao.baidu.com/question/".$uid.".html") ;

$arr=explode('',$content);

$art_title=$arr[1];

$arr=explode('',$art_title);

$art_title=$arr[0];//获取标题结束

//判断内容是否符合

$word_arr=explode(",",$cj_word);

$word_allow=false;//初始化是否允许采集

$word_count=count($word_arr);//关键字总数

for($i=0;$i

{

if(substr_count($art_title,$word_arr[$i])>0)

{

$word_allow=1;

$i=$word_count;

}

}

if($word_allow)//如果满足条件

{

$arr=explode('

',$content);

$contentQuestion=$arr[1];

$arr=explode('',$contentQuestion);

$contentQuestion=$arr[0];

echo "开始采集内容
";

echo "$art_title
";

@preg_match_all('/(|)

(.*)(|)/iUs',$content,$answerArr);

$answerArr=$answerArr[2];

if($arr_order==1)//随机排序

{

shuffle($answerArr);

}

if($arr_order==2)//倒序

{

$answerArr=krsort($answerArr);//倒序

}

foreach($answerArr as $t)

{

$answerTemp=str_replace('

','',$t);

$answerTemp=str_replace('','',$answerTemp);

$answerTemp=str_replace('

','',$answerTemp);

$answerTemp=str_replace('','',$answerTemp);

if(strlen($answerTemp)>$min_t1)

{

$art_content .=$answerTemp."
";

}

}

//去除链接

$s1="/(

$art_content=preg_replace($s1,${2},trim($art_content));

$art_content=str_replace("\n\r","
",$art_content);

if(strlen($art_content)>$min_t2)

{

$title_ct=mysql_query("select count(*) from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复

$title_ct=@mysql_fetch_array($title_ct);

$title_ct=$title_ct[0];

if($title_ct>0)

{

$art_title .="{$same_title}{$title_ct}";

}

$art_time=date("Y-m-d");

$art_content=strtr($art_content,$keyword);

$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表

mysql_query($sql);

if(empty($t_catx_id))//如果无分类

{

$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_content','$art_time','$art_author')";

}else

{

$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author},{$t_catx_id}) values('$art_title','$art_content','$art_time','$art_author','$cat_id')";

}

mysql_query($sql2);//插入文章表

$jl++;

//数据库处理完毕

}else

{

echo "内容长度不够";

}

//获取文章内容结束

}else

{

echo "主题不符合要求";

}

}else

{

echo "已经存在";

}$rs++;

file_put_contents("bd.txt","采集{$searchStr}到第{$page}第{$rs}条");

echo "";

exit();

}

?>

荐礼啦知道问问采集插件

采集设置 卸载采集 查看采集记录 采集帮助 知道采集  问问采集

问问采集代码:

session_start();

header("content-type:text/html;charset=utf-8");

require("stole_config.php");

require("conn.php");

require("keyword.php");

if(!empty($_POST['ask']))

{

$ask=urlencode(trim($_POST['ask']));//获取表单提交的问题

$sp="S".$ask;

}else

{

$sp=urlencode($_GET['sp']);

}

if(empty($_GET['jl']))

{

$_GET['jl']=1;

}

$jl=$_GET['jl'];

$pg=intval($_GET['pg']);//获取页数

$rs=intval($_GET['rs']);//获得 记录的参数

if($rs>9)

{

$rs=0;

$pg++;

}

if($pg>51)

{

echo "采集完毕! 总共采集 ".urldecode($sp)." ".$jl."条记录";

exit();

}

if($sp)//有设定答案才开始

{

$str=@file_get_contents("http://wenwen.soso.com/z/Search.e?sp={$sp}&pg={$pg}");

@preg_match("/

  1. (.*)/iUs",$str,$asklist);//获取问答列表

//echo $asklist[1];

$url="/

@preg_match_all($url,$asklist[1],$urllist);//获取 所有的问题

$t=$urllist[1][$rs];

$uid=$t;

$suid="ww{$uid}";

$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid='$suid' ");

$sct=mysql_fetch_array($sct);

$sct=$sct[0];

if($sct==0)

{

$html=@file_get_contents("http://wenwen.soso.com/z/${t}");

$html=str_replace("

","",str_replace("
","",$html));

$html=str_replace("
","
",$html);

//echo $html;

@preg_match("/

.*

(.*)/iUs",$html,$ask_title);

$art_title=$ask_title[1];

@preg_match("/

(.*)/iUs",$html,$answer);

$j=count($answer)-1;

$art_content="";//商品详细

for($i=$j;$i>=1;$i--)

{

if(strlen($answer[$i])>$min_t1)

{

$art_content .= $answer[$i];

}

}

$art_content=trim($art_content);

$s1="/()(.*)/iUs";

$art_content=preg_replace($s1,${2},trim($art_content));

$word_arr=explode(",",iconv("gbk","utf-8",$cj_word));

$word_allow=false;//初始化是否允许采集

$word_count=count($word_arr);//总数

for($i=0;$i

{

if(substr_count($art_title,$word_arr[$i])>0)

{

$word_allow=1;

$i=$word_count;

}

}

if($word_allow)//如果合法

{ //开始处理数据库

if(strlen($art_content)>$min_t2)

{

echo "添加中............................
";

echo $art_title."
";

$art_title=iconv('utf-8','gbk', $art_title);

$title_ct=mysql_query("select count(*) from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复

$title_ct=@mysql_fetch_array($title_ct);

$title_ct=$title_ct[0];

if($title_ct>0)

{

$art_title .="{$same_title}{$title_ct}";

}

$art_content=iconv('utf-8','gbk',str_replace("\r\n","
",$art_content));

$art_content=strtr($art_content,$keyword);

$art_time=date("Y-m-d");

$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表

mysql_query($sql);

if(empty($t_catx_id))//如果无分类

{

$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_content','$art_time','$art_author')";

}else

{

$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author},{$t_catx_id}) values('$art_title','$art_content','$art_time','$art_author','$cat_id')";

}

mysql_query($sql2);//插入文章表

$jl++;//如果存放数据库中 则记录加1

//处理数据库结束

}else

{

echo "长度不够";

}

}else

{

echo "主题不符合要求";

}

}else

{

echo "已经存在";

}

$rs++;

//记录下本次采集 的状况

$f_tt= urldecode($sp)."--页数".$pg." 记录数 ".$jl ;

file_put_contents("ss.txt",$f_tt);

echo "";

exit();

}

?>

荐礼啦知道问问采集插件

采集设置 卸载采集 查看采集记录 采集帮助 知道采集  问问采集
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_33346418/article/details/115203818

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签