`

利用正则表达式获取网页中多处重复出现的标签数据

阅读更多
public static void main(String[] args) {
    String regex = "<p style=\"TEXT-INDENT: 2em\">(.*?)</p>";
    String html = "<p style=\"TEXT-INDENT: 2em\">ttt</p>yyyyyfafdasf<p style=\"TEXT-INDENT: 2em\">bbb</p>";
    Pattern pattern = Pattern.compile(regex);
    Matcher match = pattern.matcher(html);
    StringBuffer buffer = new StringBuffer();
    while(match.find()){
buffer.append(match.group(1));
buffer.append("\n");
}
System.out.println(buffer.toString());
}
说明:想要抓取网页中想要的文本,而每段文本都是存放在<p style=\"TEXT-INDENT: 2em\">开头和</p>结尾的标签中,所以我们想要的获取的是ttt和bbb,(.*?)表示一个分组,并且使用的是非贪婪的模式,即获取最小的匹配内容,match.find()返回的是是否找到匹配的内容,match.group(1)表示取出其中的文本内容
分享到:
评论

相关推荐

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part1

    实例110 通过正则表达式对字符串进行匹配查找 141 实例111 通过IP地址查找主机所在地 142 实例112 解决用substr()函数对中文字符串截取时出现乱码的问题 143 实例113 字符串与HTML标记相互转换 144 实例114 运用...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part2

    实例110 通过正则表达式对字符串进行匹配查找 141 实例111 通过IP地址查找主机所在地 142 实例112 解决用substr()函数对中文字符串截取时出现乱码的问题 143 实例113 字符串与HTML标记相互转换 144 实例114 运用...

    C#编程经验技巧宝典

    121 &lt;br&gt;0200 如何使用正则表达式验证电话号码 121 &lt;br&gt;0201 如何使用正则表达式验证输入密码条件 121 &lt;br&gt;0202 如何使用正则表达式验证邮政编号 121 &lt;br&gt;0203 如何使用正则表达式验证手机号 ...

    JavaScript详解(第2版)

     17.3 使用字符串的正则表达式方法   17.3.1 match()方法   17.3.2 search()方法   17.3.3 replace()方法   17.3.4 split()方法   17.4 获取控制——元字符   17.4.1 点元字符   17.4.2 字符...

    PHP程序开发范例宝典III

    实例215 显示数据表中的重复记录和记录条数 335 8.8 排序、分组统计 336 实例216 对数据进行降序查询 336 实例217 对数据进行多条件排序 337 实例218 对统计结果进行排序 338 实例219 单列数据分组统计 ...

    精易模块[源码] V5.15

    9、改善“网页_访问”中最后一个参数(代理地址)为“”符号时无法访问网页,感谢易友【z00544】反馈。 精易模块 V3.82 what’s new:(20140816) 1、修复“时间_取现行时间戳”有时不能正常返回13位时间戳,当...

    C#全能速查宝典

    《C#全能速查宝典》共分为8章,分别介绍了C#语言基础、Windows窗体及常用控件、Windows高级控件、控件公共属性、方法及事件、数据库开发、文件、数据流与注册表、GDI+绘图技术和C#高级编程,共包含562个C#编程中常用...

    asp.net教学讲义

    3.6.5正则表达式匹配验证控件 59 3.7自定义验证控件 62 3.8验证总结控件 64 第四章:ASP.NET内置对象 67 4.1内置对象概述 67 4.2 Response对象和Request对象 67 4.2.1 Response对象的功能,常用属性和方法和示例 67 ...

    xheditor-1.1.14

    说明:允许为某个相同快捷键值重复添加多个响应代码 备注:1.0.0 beta2新添加 delShortcuts:删除快捷键 参数1:快捷键值,例:'ctrl+enter' 备注:1.0.0 Final新添加 exec:立即执行按钮及插件 参数1:工具按钮...

    freemarker总结

    上面的代码中的逻辑表达式用括号括起来主要是因为里面有&gt;符号,由于FreeMarker会将&gt;符号当成标签的结束字符,可能导致程序出错,为了避免这种情况,我们应该在凡是出现这些符号的地方都使用括号. Pythons are ...

Global site tag (gtag.js) - Google Analytics