正则表达式识别标记——包括它之间的标记

许多朋友都用正则表达式去除html标记，或者提取html标记，通常我们可以很空易找到提取<>之间间的现成代码，但是，对于a标记来说，之间的内容也是很有价值的，如何能将整个标记全部提取出来呢？使用这个正则表达式： ,你就可以将某个html中的全部]*>.*?|<.*?/> //HTML标记\d+\.\d+\.\d+\.\d+//IP地址[a-zA-z]+://[^\s]*//网址URL特定字符串的匹配：^[A-Za-z]+$//匹配由26个英文字母组成的字符串^[A-Z]+$//匹配由26个英文字母的大写组成的字符串^[a-z]+$//匹配由26个英文字母的小写组成的字符串^[A-Za-z0-9]+$//匹配由数字和26个英文字母组成的字符串^\w+$//匹配由数字、26个英文字母或者下划线组成的字符串特定数字：^[1-9]\d*$//正整数^-[1-9]\d*$//负整数^-?[1-9]\d*$//整数^[1-9]\d*|0$//非负整数^-[1-9]\d*|0$//非正整数^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$//正浮点数^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$//负浮点数^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$//浮点数^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$//非负浮点数^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$//非正浮点数但是正则也有它的缺点，至少有一个：当html文本非常大的时候，用一个很复杂的正则去提取内容，电脑会卡那么一小会儿。也许这正是所谓“人无完人”吧。

上一篇：化妆品防伪标签的制作教程

下一篇：帝国cms常用的几个标签

推荐信息

网站地图 XML TXT RSS 隐私政策服务条款使用条款

Copyright ©1996-2026 www.onijiang.com Corporation, All Rights Reserved