PHP中中文按实际字符截取字符串
2012-11-05 11:50:36| 分类:
php
| 标签:
|举报
|字号大中小 订阅
由于字符编码的问题在几乎所有语言中的字符串截取都会根据不同的编码进行相应的修改,在PHP中对中文截取时(UTF8编码),中文是按3个字节存储的,所以对中文截取不能使用随便substr函数进行截取,比如:
echo substr('一二三四',0 ,3);//输出:一,而不是输出:一二三
为了能截取字符串时把汉字当一个字符使用的PHP的API里没有提供相应的函数,经过改写discuz的cutstr函数可以实现我们需求,函数如下:
function cn_cutstr($string, $length, $dot = '...', $charset = 'utf-8'){
if(strlen($string) <= $length) {
return $string;
}
$pre = chr(1);
$end = chr(1);
$string = str_replace(array('&', '"', '<', '>'), array($pre.'&'.$end, $pre.'"'.$end, $pre.'<'.$end, $pre.'>'.$end), $string);
$strcut = '';
if(strtolower($charset) == 'utf-8') {
$n = $tn = $noc = 0;
while($n < strlen($string)) {
$t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
$tn = 1; $n++; $noc++;
} elseif(194 <= $t && $t <= 223) {
$tn = 2; $n += 2; $noc += 2; $length ++;
} elseif(224 <= $t && $t <= 239) {
$tn = 3; $n += 3; $noc += 2; $length ++;
} elseif(240 <= $t && $t <= 247) {
$tn = 4; $n += 4; $noc += 2; $length ++;
} elseif(248 <= $t && $t <= 251) {
$tn = 5; $n += 5; $noc += 2; $length ++;
} elseif($t == 252 || $t == 253) {
$tn = 6; $n += 6; $noc += 2; $length ++;
} else {
$n++;
}
if($noc >= $length) {
break;
}
}
if($noc > $length) {
$n -= $tn;
}
$strcut = substr($string, 0, $n);
} else {
for($i = 0; $i < $length; $i++) {
$strcut .= ord($string[$i]) > 127 ? $string[$i].$string[++$i] : $string[$i];
}
}
$strcut = str_replace(array($pre.'&'.$end, $pre.'"'.$end, $pre.'<'.$end, $pre.'>'.$end), array('&', '"', '<', '>'), $strcut);
$pos = strrpos($strcut, chr(1));
if($pos !== false) {
$strcut = substr($strcut,0,$pos);
}
return $strcut.$dot;
}
评论这张
转发至微博
转发至微博
评论