어떻게 분석했나
부산시의회 9대 4년치 행정사무감사 발언 167,071건을 전수 수집해, 의미 있는 발언만을 골라내고, 의제를 묶고, 점수를 매겼습니다. AI 언어모델 + 데이터마이닝 + 기자 검수의 3단계 파이프라인을 거친 결과를 한 페이지에 정리했습니다.
발언록 수집과 정제
부산시의회 홈페이지에 공개된 지난 4년 간 행정사무감사 4회기 발언록 전체를 수집했습니다. 원본 발언 167,071건 중 집행부·참고인 발언, 의원의 인사·소개·단답 등 무의미 발언을 제외하면 분석 대상은 54,551건으로 좁혀집니다.
분류 작업은 AI 언어모델과 데이터마이닝 기법을 함께 사용했고, 전체 데이터의 오분류율은 약 5% 범위로 측정됐습니다. 검수는 1차 자동 검증 → 2차 표본 검수 → 3차 기자 검수의 3단계로 이뤄졌습니다.
AI가 그린 의제 지도
AI 언어모델이 개별 발언 문장의 의미를 좌표 한 개로 표현하고, 좌표가 가까운 발언끼리 묶었습니다. 같은 주제를 다루지만 다른 단어로 말한 발언도 의미 공간 안에서 자연스럽게 한 무리로 모입니다.
클러스터 후보는 총 86개가 생성됐고, 이 중 '자료 요청', '인사', '의사진행' 등 의제와 무관한 74개를 제외해 최종 12개의 의제 클러스터를 확정했습니다.
활동량 · 실효성 · 충실성
9대 시의회 의원 43명의 행정사무감사 성적표를 세 가지 축으로 측정했습니다. 가중치 없이 세 점수의 산술 평균이 종합 점수입니다.
유의미한 발언이 얼마나 됐나
감사 제역할에 충실했나
8가지 기준으로 분류한 의원 발언
단순한 발언량이 아니라 발언의 성격과 발언자의 태도를 함께 살피기 위해, 모든 유의미 발언을 아래 8가지 기준으로 분류했습니다. 어디에도 해당하지 않으면 '일반 발언'으로 묶었고, 발언 한 건이 여러 기준에 동시에 해당할 수 있습니다.
같은 의제, 다른 단어를 묶다
같은 주제라도 의원마다 다른 단어로 말합니다. 예를 들어 '2030월드엑스포', '부산엑스포', '월드엑스포'는 모두 같은 사안이지만 문자열로는 다릅니다. 이 차이를 메우기 위해 세 방법을 동시에 적용해 모았습니다.
-
①
단어 자체 매칭 — 핵심 키워드 동의어 사전 기반의 단어 검색.
-
②
단어의 뜻 매칭 — 임베딩 벡터 유사도로 표기가 다른 동일 의미 단어를 포착.
-
③
AI 자체 태깅 — LLM이 문맥 전체를 보고 "이 발언은 X 의제에 속한다"고 판단.