;win32汇编环境,网络编程入门之十五
;在这一教程里,学习一下,如何只保留网页中的中文部分
;其基本原理是,把字节值低于128的去掉,保留其它的。对于我们来说,128以内的值是ASCII码,就是键盘上的这些字母或其它符号。除此以外的值,就会显示为中文。
;网络爬虫抓网站上的小说内容,类似于此类方法。当然可以更加细化,这里仅仅提供一种思路。
;其中个别字显示的是?号,这个原因是网页是UFT8编码的,这是一种可变长的编码,每次读取到的字节数,无法保证刚好读完某个字
;可能某个字是3个字节的,但刚读到第1个字节时,就装完这次的缓存,后面2个字节在下一次读取到,导致这个字分在了2次缓存里面。
;所以导致前面缓存认不出最后这个字节是什么,后面缓存也认不出它的头2个字节是什么,只好显示?了。这也是我们偶尔看到某些小说网站里有些字显示 ?号的原因。
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.386
.model flat,stdcall
option casemap:none
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; Include 文件定义
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
include windows.inc
include user32.inc
include kernel32.inc
include wininet.inc ;需要添加的wininet头文件
includelib user32.lib
includelib kernel32.lib
includelib wininet.lib ;需要添加的wininet库文件
; 自定义函数声明
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DlgProc proto :DWORD,:DWORD,:DWORD,:DWORD ;对话框窗口函数
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; Equ 等值定义
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
MAINDIALOG equ 1
ICO_MAIN equ 1000 ;图标
ID_BUTTON01 equ 41
ID_EDIT01 equ 11
ID_EDIT02 equ 12
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; 数据段
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.data
szMsg db "提示",0
szErr db "错误",0
szEnter db 13,10,0 ;回车换行符
szAgent db "Microsoft Internet Explorer",0 ;说自已是IE浏览器
szHostName db "www.kepai2023.cn",0 ;要访问的主机域名
szUrlPath db "/A/A01.html",0 ;要访问的页面
szVerb db "GET",0 ;GET方法访问
szAccept db "Accept: text/html",0 ;只接受text或html文件返回
.data?
hInstance HINSTANCE ?
hEdithwnd01 HWND ?
hEdithwnd02 HWND ?
hInternet dd ?
hHttpSession dd ?
hHttpRequest dd ?
.const
; 代码段
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.code
start:
invoke GetModuleHandle, NULL
mov hInstance,eax
invoke DialogBoxParam, hInstance, MAINDIALOG,NULL, addr DlgProc, NULL
invoke ExitProcess,eax
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
;处理接收到的字符串,把中文的内容提取出来
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
_HandleData proc _lpData,_dwSize
LOCAL szBuffer[1024]:byte
LOCAL szSaveBuffer[1024]:byte
LOCAL @stCR:CHARRANGE
mov esi,_lpData
invoke RtlZeroMemory,addr szBuffer,sizeof szBuffer
invoke RtlZeroMemory,addr szSaveBuffer,sizeof szSaveBuffer
mov ebx,0
mov edx,0
;循环检查字符串,发现属于ASCII码范围内的字符除了回车和换行,其它的则去掉,留下的一般都是中文。当然不是绝对,如果是其它代码页,可能是他国文字,但对我们来说够用了,我们这儿基本是中文代码页。
.while TRUE
.break .if ebx == _dwSize
.if byte ptr [esi+ebx] >= 128 || byte ptr [esi+ebx] == 13 || byte ptr [esi+ebx] == 10 ;13是回车键的值,10是换行符的值
mov al,byte ptr [esi+ebx]
mov byte ptr [szBuffer+edx],al
inc edx
.endif
inc ebx
.endw
invoke GetWindowTextLength,hEdithwnd01
mov @stCR.cpMin,eax
mov @stCR.cpMax,eax
invoke MultiByteToWideChar,65001,0,addr szBuffer,1024,addr szSaveBuffer,1024 ;把uft-8编码的网页字符串转换为UNICODE编码输出,也可以保存为文本文件
invoke SendMessageW,hEdithwnd01,EM_EXSETSEL,0,addr @stCR ;注意这里需要使用SendMessageW,因为发送的是UNICODE码了
invoke SendMessageW,hEdithwnd01,EM_REPLACESEL,FALSE,addr szSaveBuffer
ret
_HandleData endp
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
_WorkThread proc _lParam
LOCAL @dwBytesReaded
LOCAL @szBuffer[256]:byte
LOCAL @szRecBuffer[1024]:byte
LOCAL @szSaveBuffer[1024]:byte
LOCAL @szShowEdit02[256]:byte
LOCAL @stCR:CHARRANGE
LOCAL @szContentLength[128]:byte
LOCAL @szStatusCode[128]:byte
LOCAL @Totallength
invoke InternetOpen,addr szAgent,INTERNET_OPEN_TYPE_DIRECT,NULL,NULL,0 ;初始化应用程序的 WinINet 函数的使用
mov hInternet,eax
invoke InternetConnect,hInternet,addr szHostName,80,NULL,NULL,INTERNET_SERVICE_HTTP,0,0 ;为给定站点打开文件传输协议(FTP)或 HTTP 会话,80是http的端口
mov hHttpSession,eax
.if eax == NULL
invoke MessageBox,NULL,addr szErr,addr szMsg,MB_OK
.endif
invoke HttpOpenRequest,hHttpSession,addr szVerb,addr szUrlPath,NULL,addr szAccept,0,0,0 ;创建 HTTP 请求句柄
mov hHttpRequest,eax
invoke HttpSendRequest,hHttpRequest,NULL,0,NULL,0 ;将指定的请求发送到 HTTP 服务器,可以附加数据,后面再说,先实现基本效果先
invoke SendMessage,hEdithwnd01,WM_SETTEXT,0,0
.while TRUE ;通过循环反复读取,直到读到0字节为止
invoke RtlZeroMemory,addr @szRecBuffer,sizeof @szRecBuffer
invoke RtlZeroMemory,addr @szSaveBuffer,sizeof @szSaveBuffer
mov @dwBytesReaded,0
invoke InternetReadFile,hHttpRequest,addr @szRecBuffer,1024,addr @dwBytesReaded ;从打开的句柄读取数据,
.break .if @dwBytesReaded == 0
invoke _HandleData,addr @szRecBuffer,1024 ;调用得到网页标题内容的函数
.endw
ret
_WorkThread endp
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DlgProc proc hWnd:HWND, uMsg:UINT, wParam:WPARAM, lParam:LPARAM
LOCAL @stWsa:WSADATA
.if uMsg == WM_INITDIALOG
invoke LoadIcon,hInstance,ICO_MAIN
invoke SendMessage,hWnd,WM_SETICON,ICON_BIG,eax
invoke GetDlgItem,hWnd,ID_EDIT01
mov hEdithwnd01,eax
invoke GetDlgItem,hWnd,ID_EDIT02
mov hEdithwnd02,eax
.elseif uMsg == WM_COMMAND
mov ebx,wParam
.if bx == ID_BUTTON01
invoke CreateThread,NULL,0,offset _WorkThread,0,NULL,0 ;启动连接线程,用线程的原因是不让网络等待卡住主进程
.endif
.elseif uMsg == WM_CLOSE
invoke InternetCloseHandle,hHttpRequest ;反向清除各类HINTERNET 句柄,即先生成的后清除,后生成的先清除
invoke InternetCloseHandle,hHttpSession
invoke InternetCloseHandle,hInternet
invoke EndDialog,hWnd,NULL
.else
mov eax,FALSE
ret
.endif
mov eax,TRUE
ret
DlgProc endp
end start
;下面为rc文件内容
#include "resource.h" //提示缺少该文件,可以在资源里下载
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
#define MAINDIALOG 1
#define ICO_MAIN 1000 //图标
#define ID_BUTTON01 41
#define ID_EDIT01 11 //编辑框标识符
#define ID_EDIT02 12
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
ICO_MAIN ICON "Main.ico"
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
//定义对话框
MAINDIALOG DIALOG 10, 10, 180, 250
STYLE DS_CENTER | WS_CAPTION | WS_MINIMIZEBOX |
WS_SYSMENU | WS_VISIBLE | WS_OVERLAPPED | DS_MODALFRAME | DS_3DLOOK
CAPTION "对话框程序模版"
FONT 11, "方正姚体"
BEGIN
PUSHBUTTON "访问网页", ID_BUTTON01, 120,20,50,12
CONTROL "显示搜索结果",ID_EDIT01,"Edit",WS_CHILDWINDOW|WS_VISIBLE|WS_TABSTOP|ES_MULTILINE|ES_WANTRETURN|ES_AUTOVSCROLL|WS_VSCROLL,10, 50, 160, 190,WS_EX_CLIENTEDGE //设置成多行编辑框,按回车时加回车符
CONTROL "留空待用",ID_EDIT02,"Edit",WS_CHILDWINDOW|WS_VISIBLE|WS_TABSTOP|ES_MULTILINE|ES_WANTRETURN|ES_AUTOVSCROLL|WS_VSCROLL,10, 10, 100, 30,WS_EX_CLIENTEDGE
END