Entity Resolution 개념 (3) How do I Entity Resolution? Source normalization: 데이터를 깔끔하게 정리, 여러 소스에서 하나의 스키마로 맞춤. 이 스키마에서 사용되는 피처(column)들은 나중에 매치되는 짝들을 평가하는데 사용됨 Featurization and blocking key generation: blocking key를 위한 피처 생성. blocking key는 매치되는 레코드들 사이에서 공유되는 타겟화된 토큰임. 검색 공간을 N^2에서 더 계산이 수월하도록 제한하기 위함 Generate candidate pairs: blocking join key를 사용해서 후보 pair 생성. 기본적으로 blocking key에 대한 self-join임. 그래프 데이터 구조에서 실행됨 (레코드: .. Entity Resolution 개념 (2) How do I Entity Resolution? Source normalization: 데이터를 깔끔하게 정리, 여러 소스에서 하나의 스키마로 맞춤. 이 스키마에서 사용되는 피처(column)들은 나중에 매치되는 짝들을 평가하는데 사용됨 Featurization and blocking key generation: blocking key를 위한 피처 생성. blocking key는 매치되는 레코드들 사이에서 공유되는 타겟화된 토큰임. 검색 공간을 N^2에서 더 계산이 수월하도록 제한하기 위함 Generate candidate pairs: blocking join key를 사용해서 후보 pair 생성. 기본적으로 blocking key에 대한 self-join임. 그래프 데이터 구조에서 실행됨 (레코드: .. Entity Resolution 개념 (1) 출처: An introduction to Entity Resolution — needs and challenges | by Sonal Goyal | Towards Data Science Practical Guide to Entity Resolution — part 1 | by Yifei Huang | Towards Data Science Entity Resolution (Record Matching) 실세계에서 같은 entity를 의미하는 데이터 레코드들을 식별해서 서로 연결하기 위한 기법 거의 같지만 정확하게 같지 않은 문자열이 특별한 식별자 없이 매치됨 실세계 데이터는 완벽하지 않음. 회사들은 한 소스에 대해서 사람들이 자신들의 방식대로 입력한 수 많은 양의 데이터들 때문에 어려움을 겪곤 함 예시 아.. [논문리뷰] FoodKG: A Semantics-Driven Knowledge Graph for Food Recommendation Abstract 건강하게 먹길 원하는 사람들이 일상에서 마주하는 음식과 레시피 그리고 그것들의 출처를 포함하는 통합된 음식 제안 서비스가 필요한 소비자들을 위한 통합된 지식 그래프 소프트웨어 툴킷 개발. (1) 지식 그래프 생성 절차 (정보 출처를 지키면서 음식과 관련한 다양한 사일로를 연결) (2) 지식그래프 유지 계획 (3) 지식 그래프가 여러 응용에서 사용될 수 있는지를 설명함. 이 응용들은 알러지와 같은 제약을 고려하고, 자연어 질문을 수행할 수 있는 인지적인 agent가 지식 그래프에 대해 답변하면서 사용자가 즉시 사용할 수 있는 재료들을 기반으로 한 레시피를 결정할 수 있도록 하는 SPARQL-based 서비스를 포함함. 1. Introduction 심혈관 질병, 고혈압, type 2 당뇨, .. 이전 1 다음