win32汇编环境,网络编程入门之十五

;win32汇编环境,网络编程入门之十五
;在这一教程里,学习一下,如何只保留网页中的中文部分
;其基本原理是,把字节值低于128的去掉,保留其它的。对于我们来说,128以内的值是ASCII码,就是键盘上的这些字母或其它符号。除此以外的值,就会显示为中文。
;网络爬虫抓网站上的小说内容,类似于此类方法。当然可以更加细化,这里仅仅提供一种思路。
;其中个别字显示的是?号,这个原因是网页是UFT8编码的,这是一种可变长的编码,每次读取到的字节数,无法保证刚好读完某个字
;可能某个字是3个字节的,但刚读到第1个字节时,就装完这次的缓存,后面2个字节在下一次读取到,导致这个字分在了2次缓存里面。
;所以导致前面缓存认不出最后这个字节是什么,后面缓存也认不出它的头2个字节是什么,只好显示?了。这也是我们偶尔看到某些小说网站里有些字显示 ?号的原因。
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.386 
.model flat,stdcall 
option casemap:none 

;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; Include 文件定义
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
include    windows.inc 
include    user32.inc 
include    kernel32.inc 
include    wininet.inc    ;需要添加的wininet头文件

includelib user32.lib 
includelib kernel32.lib 
includelib wininet.lib    ;需要添加的wininet库文件

; 自定义函数声明
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DlgProc proto :DWORD,:DWORD,:DWORD,:DWORD   ;对话框窗口函数

;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; Equ 等值定义
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
MAINDIALOG    equ 1
ICO_MAIN    equ 1000    ;图标

ID_BUTTON01    equ 41
ID_EDIT01    equ 11
ID_EDIT02    equ 12
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; 数据段
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.data 

szMsg          db "提示",0
szErr          db "错误",0

szEnter        db 13,10,0                              ;回车换行符

szAgent        db "Microsoft Internet Explorer",0      ;说自已是IE浏览器
szHostName     db "www.kepai2023.cn",0                 ;要访问的主机域名
szUrlPath      db "/A/A01.html",0                      ;要访问的页面
szVerb         db "GET",0                              ;GET方法访问
szAccept       db "Accept: text/html",0                ;只接受text或html文件返回
               
.data? 
hInstance HINSTANCE          ? 
hEdithwnd01     HWND         ?
hEdithwnd02     HWND         ?

hInternet       dd           ?
hHttpSession    dd           ?
hHttpRequest    dd           ?

.const 

  
; 代码段
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.code 
start: 
         invoke GetModuleHandle, NULL 
         mov    hInstance,eax 
         invoke DialogBoxParam, hInstance, MAINDIALOG,NULL, addr DlgProc, NULL 
         invoke ExitProcess,eax 
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
;处理接收到的字符串,把中文的内容提取出来
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
_HandleData    proc    _lpData,_dwSize

                LOCAL   szBuffer[1024]:byte
                LOCAL   szSaveBuffer[1024]:byte
                LOCAL   @stCR:CHARRANGE
                
                mov    esi,_lpData

        invoke    RtlZeroMemory,addr szBuffer,sizeof szBuffer
        invoke    RtlZeroMemory,addr szSaveBuffer,sizeof szSaveBuffer

        mov ebx,0
        mov edx,0
        ;循环检查字符串,发现属于ASCII码范围内的字符除了回车和换行,其它的则去掉,留下的一般都是中文。当然不是绝对,如果是其它代码页,可能是他国文字,但对我们来说够用了,我们这儿基本是中文代码页。
        .while TRUE
            .break .if ebx == _dwSize
            .if byte ptr [esi+ebx] >= 128 ||  byte ptr [esi+ebx] == 13 ||  byte ptr [esi+ebx] == 10 ;13是回车键的值,10是换行符的值
                    mov al,byte ptr [esi+ebx]                                      
                mov byte ptr [szBuffer+edx],al
                inc edx    
            .endif
            inc ebx
        .endw
        invoke GetWindowTextLength,hEdithwnd01            
                mov @stCR.cpMin,eax
        mov @stCR.cpMax,eax
        invoke MultiByteToWideChar,65001,0,addr szBuffer,1024,addr szSaveBuffer,1024       ;把uft-8编码的网页字符串转换为UNICODE编码输出,也可以保存为文本文件
        invoke SendMessageW,hEdithwnd01,EM_EXSETSEL,0,addr @stCR                           ;注意这里需要使用SendMessageW,因为发送的是UNICODE码了
                invoke SendMessageW,hEdithwnd01,EM_REPLACESEL,FALSE,addr szSaveBuffer

        ret

_HandleData    endp
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
_WorkThread    proc    _lParam
        LOCAL  @dwBytesReaded
        LOCAL  @szBuffer[256]:byte
        LOCAL  @szRecBuffer[1024]:byte
        LOCAL  @szSaveBuffer[1024]:byte
        LOCAL  @szShowEdit02[256]:byte
        LOCAL  @stCR:CHARRANGE
        
        LOCAL  @szContentLength[128]:byte
        LOCAL  @szStatusCode[128]:byte
        LOCAL  @Totallength
        
        invoke InternetOpen,addr szAgent,INTERNET_OPEN_TYPE_DIRECT,NULL,NULL,0                                  ;初始化应用程序的 WinINet 函数的使用
        mov hInternet,eax

        invoke InternetConnect,hInternet,addr szHostName,80,NULL,NULL,INTERNET_SERVICE_HTTP,0,0                 ;为给定站点打开文件传输协议(FTP)或 HTTP 会话,80是http的端口
        mov hHttpSession,eax
        .if eax == NULL
               invoke MessageBox,NULL,addr szErr,addr szMsg,MB_OK            
        .endif

        invoke HttpOpenRequest,hHttpSession,addr szVerb,addr szUrlPath,NULL,addr szAccept,0,0,0                  ;创建 HTTP 请求句柄
        mov hHttpRequest,eax
        
        invoke HttpSendRequest,hHttpRequest,NULL,0,NULL,0                                                        ;将指定的请求发送到 HTTP 服务器,可以附加数据,后面再说,先实现基本效果先
        
    invoke SendMessage,hEdithwnd01,WM_SETTEXT,0,0
    .while TRUE  ;通过循环反复读取,直到读到0字节为止
            invoke RtlZeroMemory,addr @szRecBuffer,sizeof @szRecBuffer
            invoke RtlZeroMemory,addr @szSaveBuffer,sizeof @szSaveBuffer
            mov @dwBytesReaded,0
            invoke InternetReadFile,hHttpRequest,addr @szRecBuffer,1024,addr @dwBytesReaded                  ;从打开的句柄读取数据,
        .break .if @dwBytesReaded == 0
        invoke _HandleData,addr @szRecBuffer,1024                                                        ;调用得到网页标题内容的函数           
    .endw

    ret

_WorkThread endp
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DlgProc proc hWnd:HWND, uMsg:UINT, wParam:WPARAM, lParam:LPARAM 
        LOCAL    @stWsa:WSADATA        
        
        .if     uMsg == WM_INITDIALOG 
                invoke    LoadIcon,hInstance,ICO_MAIN           
            invoke    SendMessage,hWnd,WM_SETICON,ICON_BIG,eax
                
                invoke GetDlgItem,hWnd,ID_EDIT01
                mov hEdithwnd01,eax
                invoke GetDlgItem,hWnd,ID_EDIT02
                mov hEdithwnd02,eax
                
        .elseif    uMsg ==    WM_COMMAND
            mov    ebx,wParam
                .if    bx ==    ID_BUTTON01
                        invoke    CreateThread,NULL,0,offset _WorkThread,0,NULL,0          ;启动连接线程,用线程的原因是不让网络等待卡住主进程                         
            .endif        
        .elseif uMsg == WM_CLOSE   
                invoke InternetCloseHandle,hHttpRequest                                          ;反向清除各类HINTERNET 句柄,即先生成的后清除,后生成的先清除
                invoke InternetCloseHandle,hHttpSession                                                         
                invoke InternetCloseHandle,hInternet
        invoke EndDialog,hWnd,NULL
        .else 
                mov eax,FALSE 
                ret 
        .endif 
                mov eax,TRUE 
        ret 
DlgProc endp 

end start 

;下面为rc文件内容
#include "resource.h"                   //提示缺少该文件,可以在资源里下载
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
#define       MAINDIALOG      1
#define       ICO_MAIN        1000    //图标
#define    ID_BUTTON01     41

#define    ID_EDIT01       11         //编辑框标识符
#define    ID_EDIT02       12
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
ICO_MAIN    ICON        "Main.ico"
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
//定义对话框
MAINDIALOG DIALOG 10, 10, 180, 250 
STYLE  DS_CENTER | WS_CAPTION | WS_MINIMIZEBOX | 
WS_SYSMENU | WS_VISIBLE | WS_OVERLAPPED | DS_MODALFRAME | DS_3DLOOK 
CAPTION "对话框程序模版" 
FONT 11, "方正姚体"
BEGIN 
     PUSHBUTTON      "访问网页", ID_BUTTON01,  120,20,50,12
     CONTROL "显示搜索结果",ID_EDIT01,"Edit",WS_CHILDWINDOW|WS_VISIBLE|WS_TABSTOP|ES_MULTILINE|ES_WANTRETURN|ES_AUTOVSCROLL|WS_VSCROLL,10, 50, 160, 190,WS_EX_CLIENTEDGE  //设置成多行编辑框,按回车时加回车符
     CONTROL "留空待用",ID_EDIT02,"Edit",WS_CHILDWINDOW|WS_VISIBLE|WS_TABSTOP|ES_MULTILINE|ES_WANTRETURN|ES_AUTOVSCROLL|WS_VSCROLL,10, 10, 100, 30,WS_EX_CLIENTEDGE
END 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一品人家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值