C语言使用socket获取网页内容

C语言使用socket获取网页内容
本文介绍如何用C语言通过socket实现从指定URL获取网页内容,并将其保存至recieved.txt文件。注意,该方法仅适用于IPV4的HTTP请求,且在查看txt文件时需确保使用UTF8编码,否则可能出现中文乱码。代码已在Visual Studio 2015中测试通过。

本文讨论的是使用C语言使用socket获取网页内容


首先需要添加代码

#pragma comment(lib, "ws2_32.lib")

以下是获取网页内容的函数。函数参数为网页地址,字符串类型,如“www.baidu.com”。获取到的网页内容保存在recieved.txt文件中。

void ReadPage(char* host)
{
	WSADATA data;
	//winsock版本2.2
	int err = WSAStartup(MAKEWORD(2, 2), &data);
	if (err)
		return ;

	//用域名获取对方主机名
	struct hostent *h = gethostbyname(host);
	if (h == NULL)
		return ;

	//IPV4
	if (h->h_addrtype != AF_INET)
		return ;
	struct in_addr ina;
	//解析IP
	memmove(&ina, h->h_addr, 4);
	LPSTR ipstr = inet_ntoa(ina);

	//Socket封装
	struct sockaddr_in si;
	si.sin_family = AF_INET;
	si.sin_port = htons(80);
	si.sin_addr.S_un.S_addr = inet_addr(ipstr);
	int sock = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP);
	connect(sock, (SOCKADDR*)&si, sizeof(si));
	if (sock == -1 || sock == -2)
		return ;

	//发送请求
	char request[1024] = "GET /?st=1 HTTP/1.1\r\nHost:";
	strcat(request, host);
	strcat(request, "\r\nConnection:Close\r\n\r\n");
	int ret = send(sock, request, strlen(request), 0);
	//获取网页内容
	FILE *f = fopen("recieved.txt", "w");
	int isstart = 0;
	while (ret > 0)
	{
		const int bufsize = 1024;
		char* buf = (char*)calloc(bufsize, 1);
		ret = recv(sock, buf, bufsize - 1, 0);
		fprintf(f, "%s", buf);
		free(buf);
	}
	fclose(f);
	closesocket(sock);
	WSACleanup();
	printf("读取网页内容成功,已保存在recieved.txt中");
	return ;
}

注:本函数只适用于IPV4的http请求。

保存的txt文件用记事本打开时,请将编码改为utf8,而不是默认的ASCII,否则会出现中文乱码。

调用这个函数的一个例子:

ReadPage("www.baidu.com")


在获取了网页信息后,可以使用C++的Regex进行分析。

文中所涉及的所有代码均在Visual Studio 2015中通过。


评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值