采集学习1

最新推荐文章于 2025-03-01 23:28:14 发布

weixin_34237596

最新推荐文章于 2025-03-01 23:28:14 发布

阅读量147

点赞数

CC 4.0 BY-SA版权

原文链接：http://blog.51cto.com/xpmozong/483415

今天再网上看了一篇采集文章的基础，所以献丑一下。。。look，代码！！！

<?php

header('Content-Type:text/html;charset=UTF-8');

require "mysql.class.php";

$db = new Mysql_DB("localhost","root","root","caiji");

// 采集首页地址

$url = "http://cn.jokes.yahoo.com/jok/index.html";

// 获取页面代码

$r = file_get_contents($url);

// 设置匹配正则

$preg = '/hspace=5><a href="http:\/\/cn.jokes.yahoo.com\/(.*).html" class=list target=_blank>/isU';

// 进行正则搜索

preg_match_all($preg, $r, $title);

// 计算标题数量

$count = count($title[1]);

//echo $count;die;

//如果一次性将文章内容，标题都写入数据库，服务器会卡死的，所以分两步走

for($i=0;$i<$count;$i++){

$jurl = "http://cn.jokes.yahoo.com/" .$title[1][$i]. ".html";

echo $jurl;

echo "<br>";

echo $tt = $title[1][$i];

$db->query("insert into demo01 set url='$jurl',title='$tt'");

}

//读出写入的url

$res = $db->get_all("select * from demo01");

//echo "<pre>";

//print_r($res);

foreach($res as $k=>$v){

$c = file_get_contents($v['url']);

$tt = $v['title'];

echo $tt;

echo "<br>";

$p = '/\<div id=\"newscontent\"\>(.*)\<\/div\>/isU';

preg_match($p, $c, $content);

$text = $content[0];

//如果url的地方是GBK编码的，别忘了iconv

$text1 = iconv("GBK","UTF-8",$text);

echo $text1;

$db->query("insert into demo011 set title='$tt',content='$text1'");

}

unset($res);

echo 'ok';

噔噔噔噔，一个小型的采集器OK了，下面就靠自己如何扩展代码了。。。

转载于:https://blog.51cto.com/xpmozong/483415

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34237596

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度学习：从数据采集到模型测试的全面指南

Jeremy程序员

07-09

2万+

在任何大数据和深度学习项目中，数据是核心要素。定义数据需求是项目的起点，包括明确项目目标、所需数据类型、数据特征、格式和来源等。项目目标：明确项目要解决的问题，例如图像分类、语音识别、自然语言处理等。数据类型：确定需要处理的数据类型，包括文本、图像、音频、视频等。数据特征：定义数据的关键特征，例如图像的分辨率、文本的长度、音频的采样率等。数据格式：明确数据的存储格式，如CSV、JSON、XML、JPEG、MP4等。数据来源：识别可能的数据来源，包括公开数据库、公司内部数据、API接口等。分类指标。

Flume学习-采集端口数据存入kafka

HaveAGoodDay428的博客

03-15

3469

Flume学习-采集端口数据存入kafka

参与评论您还未登录，请先登录后发表或查看评论

PHP采集学习之采集百度知道模拟真实网站

10-18

1.采用php小偷技术自动获取百度知道最新问答内容. 2.程序采用伪静态,全站伪静态.收录最有利。（动态浏览与静态自由切换！） 3.支持二级目录,二级域名。程序自带后台，页面缓存，全站伪原创 4.自带伪原创词库，后台可自行修改，词汇5456条。 5.四种采集方式,兼容98%空间服务器,独立模板风格.搜索引擎蜘蛛访问记录 6.内容页description,自动获取答案内容的前240个字符！有利于SEO！ 7.tags链接自动获取。内容过滤功能。包含自定义词语的内容将不采集 8.关键词内链, 文章内容包含指定关键词将自动添加链接！后台自定义关键词! 9.加入问题评论功能。默认后台:http://程序地址/admin/ 账号: admin 密码: admin

采集器学习

hyhyct的专栏

04-10

672

http://blog.youkuaiyun.com/ibmfahsion

简单做个Python数据采集的学习汇总：分享数据采集的小技巧

Python966的博客

01-13

748

学习Python也有一段时间了，在学习过程中不断的练习学到的各类知识，做的最多的还是爬虫，也就是简单的数据采集，有采集图片（这个最多了。。。），有下载电影的，也有学习相关的比如ppt模板的抓取，当然也写过类似收发邮件，自动登录论坛发帖，验证码相关操作等等！

网络数据采集学习之路

qq_40728302的博客

05-05

301

在这场数据交换中，网络浏览器从哪里开始参与的？完全没有参与。其实，在互联网的历史中，浏览器是一个比较年轻的发明，始于 1990 年的 Nexus 浏览器。我们的 Python 程序没有返回并向服务器请求多个文件的逻辑，它只能读取我们已经请求的单个 HTML 文件。 urllib的python文档：https://docs.python.org/3/library/urllib.html 网...

数据采集之采集引擎学习路线

weixin_33854644的博客

11-08

341

什么是插件式监控平台为什么使用插件式监控平台插件式监控平台的构成与工作原理插件式监控平台的环境配置采集器下载和部署配置步骤采集器和插件的代码说明如何开发新的插件常见问题及解决方法如何添加插件如何创建采集器如何关联监控项目如何控制采集器和插件采集器运行时出错...

希音商品采集学习

VK_KILL的博客

03-01

1255

希音商品采集

音频学习笔记之音频采集

qq_42447739的博客

11-03

1898

android 音频学习之音频采集

如何学习大数据

热门推荐

想你依然心痛的博客

08-12

6万+

后裔采集器学习笔记1

08-08

"后裔采集器学习笔记1" 本资源主要讲解了网络基础知识、Cookie、HTML、正则表达式等相关概念，并且介绍了后裔采集器的采集模式分类、账号注册和采集结果导出等内容。一、网络基础知识 Uniform Resource Locator...

基于数据采集的深度学习分析.pdf

08-18

"基于数据采集的深度学习分析" 一、深度学习分析概述本篇论文探讨了基于数据采集的深度学习分析，通过对学生小组互助合作形式的教学设计，记录和统计学生学习过程中的各种学习方法的运用，分析了独学、对学、群学...

网名采集学习列子-易语言

06-12

本资源“网名采集学习列子-易语言”提供了一个基础的学习平台，帮助初学者了解并掌握网络数据采集的基本概念和技术。易语言是一种以中文编程为特色的编程语言，它的目标是降低编程的难度，使更多的人能够参与到编程...

AVCap.rar_avcap_摄像头学习_视频采集卡_视频采集卡

09-24

总的来说，AVCap是一个优秀的视频捕获工具，通过使用DirectShow技术，它简化了与摄像头和视频采集卡的交互，并且提供了丰富的功能，适合初学者和专业开发者学习和实践视频捕获技术。通过深入研究和实践，可以提升对...

基于深度学习的无人机视频采集系统设计.pdf

08-18

1. 采用了嵌入式平台设计，解决了深度学习技术在无人机领域的应用难题。 2. 设计了一个高性能的视频采集系统，能够在低照度环境下获取更多的进光量。 3. 采用了矢量化编程和多进程计算，提高了核心图像处理算法的...

【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解（图文解释超详细）

showswoller的博客

12-15

5342

【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解（图文解释超详细）

2022年单片机-第讲.ppt