Find links from a web page(웹페이지에서 링크 찾기)

필자는 전자우편 보안 검사를 위한 전자우편 내용에서 주소연결을 찾아 악성 링크를 판단하는 로직을 구현해야 했습니다. 아래와 같이 간단하게 html 문서내에서 정규식을 사용하여 링크를 찾는 방법을 사용하였습니다.

	public ArrayList<String> extractUrls(String html) {
		ArrayList<String> result = new ArrayList<String>();

		String regex = "(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

		Pattern p = Pattern.compile(regex);
		Matcher m = p.matcher(html);
		while (m.find()) {
//			if(result.indexOf(m.group()) < 0) result.add(m.group());
			result.add(m.group());
		}

		return result;
	}

추가적으로 html문서내에서 링크의 노출빈도가 어떻게 되는지도 다음과 같이 구현해보았습니다.

	List<String> urls = extractUrls(content);
	Map<String, Integer> links = new HashMap<String, Integer>();
	if(urls != null && urls.size() > 0) {
		this.hasLink = true;
		for(String url : urls) {
			if(this.links.containsKey(url)) {
				Integer i = this.links.get(url);
				this.links.put(url, new Integer(i + 1));
			} else {
				this.links.put(url, new Integer(1));
			}
		}
	}

참고자료

Extract links from a web page

저작자표시 비영리 변경금지

'Tips, Tricks > Java, Spring Framework' 카테고리의 다른 글

Using a FilenameFilter in Java(자바에서 FilenameFilter 사용하기) (0)	2021.01.06
Create multi WAR for a single maven project(단일 Maven 프로젝트에서 여러 개의 WAR 만들기) (0)	2020.12.10
Create a File Hash in Java(자바로 파일 해쉬 만들기) (0)	2020.11.13
Converting Java ImageIO.write to ImageWriter(Java ImageIO.write를 ImageWriter로 전환하기) (0)	2020.11.09
Spring Boot 프로젝트에 외부 jar 추가 방법(method of including external jar on spring boot maven project) (2)	2020.04.23

ls -alh | grep -E 'web|server'

Find links from a web page(웹페이지에서 링크 찾기)

'Tips, Tricks > Java, Spring Framework' 카테고리의 다른 글

티스토리툴바

'Tips, Tricks > Java, Spring Framework' 카테고리의 다른 글

검색

티스토리툴바