반응형

 

요즘 블로그에 글을 남길 경황이 없다. 어느덧 석사과정 마지막 학기차에 접어들자, 공부 및 연구에 전념하느라 포스팅할 시간이 부족해진 탓인 것 같다.

 

요즘 나는 석사 졸업 연구로, 공간정보 분야에서 GraphRAG를 적용하는 연구를 하고 있다. GraphRAG라는 분야 자체가 신생 분야인 탓에, 참고할 논문이 많지 않다는 점이 곤욕이었다. 그나마 다행인 것은, LLM을 Graph 구조의 Structured Data 상에서 활용하고자 하는 선행연구가 있다는 것이다. 가장 많은 도움이 되었던 Survey 논문을 첨부하면 다음과 같다.

 

Google 학술 검색

B Jin, G Liu, C Han, M Jiang, H Ji, J Han - arXiv preprint arXiv:2312.02783, 2023 - arxiv.org Large language models (LLMs), such as GPT4 and LLaMA, are creating significant advancements in natural language processing, due to their strong text encoding/dec

scholar.google.co.kr

 

현재까지 나는 여러 선행연구를 참고하여서, 공간정보 도메인의 KG(Knowledge Graph)에 문서를 결합한 복합 KG에서의 GraphRAG를 구축해보았다. 관련하여 최근 접한 어려움은 QA셋이 없다는 문제였다. 현재까지 발견한 GraphRAG를 비롯한 많은 RAG 연구는, 범용적인 목적으로 진행되었기에, 일반적인 QA셋을 활용하여 성능을 검증했다. 그러나, 나의 연구는 '공간정보'라는 특정한 분야를 대상으로 GraphRAG의 성능을 검증해야 하는 탓에, 도메인 특화 QA셋을 확보해야 했다.

 

그래서 현재까지는, QA셋 제작과 관련된 선행연구를 참고하여 연구에서 공개된 질의 템플릿이나 방법론을 활용하여 직접 제작하는 방향으로 진행 중이다. 공간정보와 관련된 질의 생성을 위해서는 다음 연구를 참고하였다.

 

Google 학술 검색

D Punjani, M Iliakis, T Stefou, K Singh, A Both… - arXiv preprint arXiv …, 2020 - arxiv.org Large amounts of geospatial data have been made available recently on the linked open data cloud and the portals of many national cartographic agencies (eg, O

scholar.google.co.kr

 

QA셋을 제작하고 검증하면서는 '답변(Answer)의 형식을 어떻게 지정하느냐'가 생각보다 중요함을 체감하였다. 정답 데이터를 가지고 추후에 EM(Exact Match), F1, Simularity 등의 지표로 검증할 텐데, 이 답변의 형식이 일관되지 않으면 검증이 원활하기 되지 않는 문제를 경험했다. 따라서, QA셋을 제작할 때는 답변의 형식을 어떻게 지정하느냐에 대한 고려가 필요한 것 같다.

반응형

+ Recent posts