티스토리 뷰
개인화된 웹 검색 순위 생성
이태원
Youngki Kang, Joonsoo Bae
Dept. of Industrial and Information Systems Eng. Chonbuk National University
Abstract
웹에는 무수히 많은 정보들이 존재한다. 그렇기 때문에 사용자들은 정보를 검색할 때 자신에게 필요한 양질의 정보 이외의 필요없는 정보를 골라내는데 많은 노력을 기울이게 된다. 특히 동음이의어, 동명이인 또는 중의성과 같은 자연어의 모호함으로 인하여 사용자들은 더욱 어려움을 겪고 있다. 이에 대한 해결방안으로 본 논문에서는 구글의 페이지 랭크 알고리즘을 기반으로 개인화된 웹페이지 검색 순위를 생성하여 사용자 개인이 원할 것으로 추정되는 정보를 검색결과 상위랭크에 노출한다.
Why
대부분의 인터넷 사용자들이 정보를 검색을 위해 구글이나 네이버 같은 포털사이트를 이용하는 상황이다. 그러나 구글이나 네이버가 사용하는 페이지 랭크 알고리즘은 개인별 사용자의 선호도를 반영하지 않는다. 정보들이 넘쳐나기 시작하면서 동음이의어, 동명이인, 단어의 중의성, 자연어의 모호함 등은 사용자의 검색을 더욱 어렵게 만들고 있다. 만약 사용자가 찾는 키워드가 내포하고 있는 또 다른 의미가 최신 트랜드를 반영하면서 대량의 문서와 연결되어 있을 경우 정보 검색은 더욱 어려워진다.
What
- 구글의 페이지랭크
구글 검색엔진의 검색결과 정렬을 위하여 문서의 상대적 중요도에 따라 가중치를 부여한다. 사용자가 링크를 따라 이동하는 것을 시뮬레이션 함으로써 사용자가 각 웹페이지를 방문할 확률을 구하여 웹페이지의 중요도로 사용하고 있다. - 개인화된 웹페이지 검색 순위 생성
새로운 랭킹을 생성하기 위하여 사용자가 이전에 열어보았던 웹페이지들을 저장소에 저장한 다음 사용자의 관심도를 수치화한다.
How
1. 검색엔진의 페이지랭크 수집
2. 페이지랭크 결과의 키워드 빈도 수집 페이지 GR Text Keyword Frequency(PK) RA 1 AABBBCDDABBEEEFFBBC 3A, 7B, 2C, 2D, 3E, 2F RB 2 CCCFFEECABFFAAEDDDEE 3A, 1B, 4C, 3D, 4E, 4F RC 3 CCFFEEAACCCCEEFFBBCA 3A, 2B, 7C, 0D, 4E, 4F
3. 사용자 검색기록의 웹 페이지 키워드 빈도 수집
CustomKeyword(CK) = {C, E, F} 로 가정
4. 각 웹페이지의 가중치 반영
[PK ∩ CK]
Page Keyword |
Frequency |
Sum Frequency |
PK1(RA) ∩ CK |
2C, 3E, 2F |
7 |
PK2(RB) ∩ CK |
4C, 4E, 4F |
12 |
PK3(RC) ∩ CK |
7C, 4E, 4F |
15 |
AVG(PK1, 2, 3 ∩ CK) | PK1 + PK3 + PK / 3 pages | 11.3 |
5. 개인화 가중치 반영
Page Keyword |
PK / Average |
Total Keyword Frequency (KF) |
RA = 7 |
7 / 11.3 |
0.61 |
RB = 12 |
12 / 11.3 |
1.06 |
RC = 15 |
15 / 11.3 |
1.32 |
6. 개인화된 웹 검색순위 산출
페이지 |
KF |
KF + (1 / CR) |
GR |
CR |
RA |
0.61 |
0.61 + 1 / 1 = 1.61 |
1 |
2 |
RB |
1.06 |
1.06 + 1 / 2 = 1.56 |
2 |
3 |
RC |
1.32 |
1.32 + 1 / 3 = 1.62 |
3 |
1 |
Critic
개인화 키워드의 빈도를 수집하기 위한 참조 웹 페이지를 선정하기 위한 방법에 대한 연구가 필요하다. 사용자가 방문했던 웹사이트를 알아내려면 해당 웹사이트에 임의의 코드를 삽입해야하는데 현실적으로 불가능하기 때문이다.