2020-4-1 14:26:54 | 作者:老铁SEO | 0个评论 | 人浏览
也就是用正则来匹配fund="数字"stock="数字"这些内容,并且捕捉其中的数字的意思,对吧
varreg=/\s+?(?:fund|stock)=\"(\d+)\"/gi;<
>
这是亲测结果:
可以在这里在线测试:
在线正则表达式测试
java正则表达式用法
建议自己查J2SE的APIjava.util.regexPattern
×××××××××××××××××××××××××××××××××××××××××××××
我给你贴出来
×××××××××××××××××××××××××××××××××××××××××××××
publicfinalclassPatternextendsObjectimplementsSerializable正则表达式的编译表示形式。
指定为字符串的正则表达式必须首先被编译为此类的实例。然后,可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可以与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。
因此,典型的调用顺序是
Patternp=Patternpile("a*b");
Matcherm=p.matcher("aaaaab");
booleanb=m.matches();在仅使用一次正则表达式时,可以方便地通过此类定义matches方法。此方法编译表达式并在单个调用中将输入序列与其匹配。语句
booleanb=Pattern.matches("a*b","aaaaab");等效于上面的三个语句,尽管对于重复的匹配而言它效率不高,因为它不允许重用已编译的模式。
此类的实例是不可变的,可供多个并发线程安全使用。Matcher类的实例用于此目的则不安全。
正则表达式的构造摘要
构造匹配
字符
x字符x
\\反斜线字符
\0n带有八进制值0的字符n(0<=n<=7)
\0nn带有八进制值0的字符nn(0<=n<=7)
\0mnn带有八进制值0的字符mnn(0<=m<=3、0<=n<=7)
\xhh带有十六进制值0x的字符hh
\uhhhh带有十六进制值0x的字符hhhh
\t制表符('\u0009')
\n新行(换行)符('\u000A')
\r回车符('\u000D')
\f换页符('\u000C')
\a报警(bell)符('\u0007')
\e转义符('\u001B')
\cx对应于x的控制符
字符类
[abc]a、b或c(简单类)
[^abc]任何字符,除了a、b或c(否定)
[a-zA-Z]a到z或A到Z,两头的字母包括在内(范围)
[a-d[m-p]]a到d或m到p:[a-dm-p](并集)
[a-z&&[def]]d、e或f(交集)
[a-z&&[^bc]]a到z,除了b和c:[ad-z](减去)
[a-z&&[^m-p]]a到z,而非m到p:[a-lq-z](减去)
预定义字符类
.任何字符(与行结束符可能匹配也可能不匹配)
\d数字:[0-9]
\D非数字:[^0-9]
\s空白字符:[\t\n\x0B\f\r]
\S非空白字符:[^\s]
\w单词字符:[a-zA-Z_0-9]
\W非单词字符:[^\w]
POSIX字符类(仅US-ASCII)
\p{Lower}小写字母字符:[a-z]
\p{Upper}大写字母字符:[A-Z]
\p{ASCII}所有ASCII:[\x00-\x7F]
\p{Alpha}字母字符:[\p{Lower}\p{Upper}]
\p{Digit}十进制数字:[0-9]
\p{Alnum}字母数字字符:[\p{Alpha}\p{Digit}]
\p{Punct}标点符号:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
\p{Graph}可见字符:[\p{Alnum}\p{Punct}]
\p{Print}可打印字符:[\p{Graph}\x20]
\p{Blank}空格或制表符:[\t]
\p{Cntrl}控制字符:[\x00-\x1F\x7F]
\p{XDigit}十六进制数字:[0-9a-fA-F]
\p{Space}空白字符:[\t\n\x0B\f\r]
java.lang.Character类(简单的java字符类型)
\p{javaLowerCase}等效于java.lang.Character.isLowerCase()
\p{javaUpperCase}等效于java.lang.Character.isUpperCase()
\p{javaWhitespace}等效于java.lang.Character.isWhitespace()
\p{javaMirrored}等效于java.lang.Character.isMirrored()
Unicode块和类别的类
\p{InGreek}Greek块(简单块)中的字符
\p{Lu}大写字母(简单类别)
\p{Sc}货币符号
\P{InGreek}所有字符,Greek块中的除外(否定)
[\p{L}&&[^\p{Lu}]]所有字母,大写字母除外(减去)
边界匹配器
^行的开头
$行的结尾
\b单词边界
\B非单词边界
\A输入的开头
\G上一个匹配的结尾
\Z输入的结尾,仅用于最后的结束符(如果有的话)
\z输入的结尾
Greedy数量词
X?X,一次或一次也没有
X*X,零次或多次
X+X,一次或多次
X{n}X,恰好n次
X{n,}X,至少n次
X{n,m}X,至少n次,但是不超过m次
Reluctant数量词
X??X,一次或一次也没有
X*?X,零次或多次
X+?X,一次或多次
X{n}?X,恰好n次
X{n,}?X,至少n次
X{n,m}?X,至少n次,但是不超过m次
Possessive数量词
X?+X,一次或一次也没有
X*+X,零次或多次
X++X,一次或多次
X{n}+X,恰好n次
X{n,}+X,至少n次
X{n,m}+X,至少n次,但是不超过m次
Logical运算符
XYX后跟Y
X|YX或Y
(X)X,作为捕获组
Back引用
\n任何匹配的nth捕获组
引用
\Nothing,但是引用以下字符
\QNothing,但是引用所有字符,直到\E
\ENothing,但是结束从\Q开始的引用
特殊构造(非捕获)
(?:X)X,作为非捕获组
(?idmsux-idmsux)Nothing,但是将匹配标志由on转为off
(?idmsux-idmsux:X)X,作为带有给定标志on-off的非捕获组
(?=X)X,通过零宽度的正lookahead
(?!X)X,通过零宽度的负lookahead
(?<=X)X,通过零宽度的正lookbehind
(?(?>X)X,作为独立的非捕获组
--------------------------------------------------------------------------------
反斜线、转义和引用
反斜线字符('\')用于引用转义构造,如上表所定义的,同时还用于引用其他将被解释为非转义构造的字符。因此,表达式\\与单个反斜线匹配,而\{与左括号匹配。
在不表示转义构造的任何字母字符前使用反斜线都是错误的;它们是为将来扩展正则表达式语言保留的。可以在非字母字符前使用反斜线,不管该字符是否非转义构造的一部分。
根据JavaLanguageSpecification的要求,Java源代码的字符串中的反斜线被解释为Unicode转义或其他字符转义。因此必须在字符串字面值中使用两个反斜线,表示正则表达式受到保护,不被Java字节码编译器解释。例如,当解释为正则表达式时,字符串字面值"\b"与单个退格字符匹配,而"\\b"与单词边界匹配。字符串字面值"\(hello\)"是非法的,将导致编译时错误;要与字符串(hello)匹配,必须使用字符串字面值"\\(hello\\)"。
字符类
字符类可以出现在其他字符类中,并且可以包含并集运算符(隐式)和交集运算符(&&)。并集运算符表示至少包含其某个操作数类中所有字符的类。交集运算符表示包含同时位于其两个操作数类中所有字符的类。
字符类运算符的优先级如下所示,按从最高到最低的顺序排列:
1字面值转义\x
2分组[...]
3范围a-z
4并集[a-e][i-u]
5交集[a-z&&[aeiou]]
注意,元字符的不同集合实际上位于字符类的内部,而非字符类的外部。例如,正则表达式.在字符类内部就失去了其特殊意义,而表达式-变成了形成元字符的范围。
行结束符
行结束符是一个或两个字符的序列,标记输入字符序列的行结尾。以下代码被识别为行结束符:
新行(换行)符('\n')、
后面紧跟新行符的回车符("\r\n")、
单独的回车符('\r')、
下一行字符('\u0085')、
行分隔符('\u2028')或
段落分隔符('\u2029)。
如果激活UNIX_LINES模式,则新行符是惟一识别的行结束符。
如果未指定DOTALL标志,则正则表达式.可以与任何字符(行结束符除外)匹配。
默认情况下,正则表达式^和$忽略行结束符,仅分别与整个输入序列的开头和结尾匹配。如果激活MULTILINE模式,则^在输入的开头和行结束符之后(输入的结尾)才发生匹配。处于MULTILINE模式中时,$仅在行结束符之前或输入序列的结尾处匹配。
组和捕获
捕获组可以通过从左到右计算其开括号来编号。例如,在表达式((A)(B(C)))中,存在四个这样的组:
1((A)(B(C)))
2\A
3(B(C))
4(C)
组零始终代表整个表达式。
之所以这样命名捕获组是因为在匹配中,保存了与这些组匹配的输入序列的每个子序列。捕获的子序列稍后可以通过Back引用在表达式中使用,也可以在匹配操作完成后从匹配器检索。
与组关联的捕获输入始终是与组最近匹配的子序列。如果由于量化的缘故再次计算了组,则在第二次计算失败时将保留其以前捕获的值(如果有的话)例如,将字符串"aba"与表达式(a(b)?)+相匹配,会将第二组设置为"b"。在每个匹配的开头,所有捕获的输入都会被丢弃。
以(?)开头的组是纯的非捕获组,它不捕获文本,也不针对组合计进行计数。
java正则表达式详解
^取反,&&逻辑与(并且)
[^456]匹配一个非4非5非6的任意字符,可以匹配:a、x、1、8、好、中……
[a-o&&[def]]等价于[def],可以匹配:d、e、f
[a-d&&[^bc]]等价于[ad],可以匹配:a、d
以上都是匹配的单个字符,使用*、+、{}等可以匹配连续的多个字符
(?s)开启单行模式DOTALL让.号匹配任意字符
(.)任意字符并捕获在第一组
(?=.*\1)这是断言,表示后面内容将是任意个字符加上第一组所捕获的内容
这样子,如果这整个式子匹配到,表示,第一个捕获组内容在字符串中,至少出现两次,替换为""空串.
java正则表达式匹配字符串
java正则提取需要用到Matcher类,下面给出案例示例供参考
需要提取车牌号中最后一个数字,比如说:苏A7865提取5,苏A876X提取6
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;
publicclassTest{
publicstaticvoidmain(String[]args){
Strings="A876X";
//把要匹配的字符串写成正则表达式,然后要提取的字符使用括号括起来
//在这里,我们要提取最后一个数字,正则规则就是“一个数字加上大于等于0个非数字再加上结束符”
Patternpattern=Patternpile("(\\d)[^\\d]*$");
Matchermatcher=pattern.matcher(s);
if(matcher.find())
System.out.println(matcher.group(1));
}
}<
>
关于Matcher中的几个方法说明:
Mathcer.start()
Matcher.end()
Matcher.group()
当使用matches(),lookingAt(),find()执行匹配操作后,就可以利用以上三个方法得到更详细的信息.
start()返回匹配到的子字符串在字符串中的索引位置.
end()返回匹配到的子字符串的最后一个字符在字符串中的索引位置.
group()返回匹配到的子字符串
示例代码如下,具体功能请参考注释
Patternp=Patternpile(“\d+”);
Matcherm=p.matcher(“aaa2223bb”);
m.find();//匹配2223
m.start();//返回3
m.end();//返回7,返回的是2223后的索引号
m.group();//返回2223
Mathcerm2=p.matcher(“2223bb”);
m2.lookingAt();//匹配2223
m2.start();//返回0,由于lookingAt()只能匹配前面的字符串,所以当使用lookingAt()匹配时,start()方法总是返回0
m2.end();//返回4
m2.group();//返回2223
Matcherm3=p.matcher(“2223”);//如果Matcherm3=p.matcher(“2223bb”);那么下面的方法出错,因为不匹配返回false
m3.matches();//匹配整个字符串
m3.start();//返回0
m3.end();//返回3,原因相信大家也清楚了,因为matches()需要匹配所有字符串
m3.group();//返回2223<
>
另外,Mathcer类中start(),end(),group()均有一个重载方法它们是start(inti),end(inti),group(inti)专用于分组操作,Mathcer类还有一个groupCount()用于返回有多少组.
示例如下:
Patternp=Patternpile(“([a-z]+)(\d+)”);
Matcherm=p.matcher(“aaa2223bb”);
m.find();//匹配aaa2223
m.groupCount();//返回2,因为有2组
m.start(1);//返回0返回第一组匹配到的子字符串在字符串中的索引号
m.start(2);//返回3
m.end(1);//返回3返回第一组匹配到的子字符串的最后一个字符在字符串中的索引位置.
m.end(2);//返回7
m.group(1);//返回aaa,返回第一组匹配到的子字符串
m.group(2);//返回2223,返回第二组匹配到的子字符串<
>
注意:只有当匹配操作成功,才可以使用start(),end(),group()三个方法,否则会抛出java.lang.IllegalStateException,也就是当matches(),lookingAt(),find()其中任意一个方法返回true时,才可以使用。
java正则表达式提取字符串中的数字
Strings="274750.4%1384136311-1023:24";
Patternp=Patternpile("(?:)(.*?)(?:)");
Matcherm=p.matcher(s);
while(m.find()){
System.out.println(m.group(1));
}<
>