php 截取UTF-8文档某个位置开始的n个字符

本文介绍了一个使用PHP编写的脚本,该脚本能够从指定位置开始读取一定长度的字节,并处理UTF-8编码的多字节字符,然后将结果写入到新的文件中。通过具体的测试命令和结果查看命令,展示了如何使用此脚本来处理文本文件。

ucut.php :

#!/usr/bin/php
<?php
define('INPUT_FILE', 't.txt');
define('OUTPUT_FILE', 'a.txt');
$pos = max(intval($argv[1]), 0);
$len = max(intval($argv[2]), 0);
$file_size = filesize(INPUT_FILE);
if($pos >= $file_size) exit;
$fp = fopen(INPUT_FILE, 'rb');
$point = 0; //current byte position
$string = '';
while(ftell($fp) < $file_size) {
    if($point >= $pos + $len) break;$byte = fread($fp, 1);
    //php version >= 5.4
    $char = unpack('C', $byte)[1];
    if($char <= 0x7f) {
        //single byte
        if($point >= $pos) $string .= $byte;
        $point += 1;
        continue;
    } elseif($char >= 0xc0 && $char <= 0xdf) {
        //double bytes
        if($point >= $pos) {
            $string .= $byte.fread($fp, 1);
        } else {
            fseek($fp, 1, SEEK_CUR);
        }
        $point += 1;
        continue;
    } elseif($char >= 0xe0 && $char <= 0xef) {
        //three bytes
        if($point >= $pos) {
            $string .= $byte.fread($fp, 2);
        } else {
            fseek($fp, 2, SEEK_CUR);
        }
        $point += 1;
        continue;
    } elseif($char >= 0xf0 && $char <= 0xf7) {
        //four bytes
        if($point >= $pos) {
            $string .= $byte.fread($fp, 3);
        } else {
            fseek($fp, 3, SEEK_CUR);
        }
        $point += 1;
        continue;
    }
}
fclose($fp);
file_put_contents(OUTPUT_FILE, $string);
?>

测试文件t.txt内容:

dei小五5维在fe测试修字d集合啊

测试命令:

./ucut.php 7 2

结果查看命令:

hexdump -C t.txt && hexdump -C a.txt

转载于:https://www.cnblogs.com/unsea/archive/2012/11/29/2795273.html

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值