AI & Statistics Lab

Projects 23

IP 거래 목적 AI 가치평가 모델 검증 프레임워크

아래 절차는 IP 거래 목적 AI 가치평가 모델이 실제 계약·회계 보고서·담보 심사 등에 쓰일 때 “신뢰할 만하다”는 것을 증명하는 전사(全社)적 검증 프레임워크입니다. 국제 밸류에이션 표준(IVS 2024), ISO 10668(브랜드), IFRS 13(공정가치), 美 연준 SR 11-7(Model Risk Management) 등의 요구사항을 모두 교차 반영했습니다. (ivsc.org, Brand Finance, IFRS Foundation, Home)1. 거버넌스 - “세 줄 방어선” 구축Line 책임 주체 핵심 역할1차 (개발)데이터·모델 엔지니어설계·코딩, 자기검증, 문서화2차 (독립 검증)모델리스크 전담 조직·외부 감정평가사개념·코드·성능 검증, 승인/거절 권한3차 (감사)내부감사·외부 감사법인..

Projects 2025.05.24

IP(지식재산권)의 금전적 가치를 정량화-예측하는 AI 기반 가치평가 모델

다음 절차는 “거래 목적”으로 특허·상표·저작권 등 IP(지식재산권)의 금전적 가치를 정량화-예측하는 AI 기반 가치평가 모델을 처음 설계‧구축‧운용할 때 필요한 전 과정을 단계별로 정리한 청사진입니다.(예시는 특허·상표 위주로 설명하지만, 저작권·영업비밀에도 동일한 프레임을 응용할 수 있습니다.)1️⃣ 목표·출력 정의항목 설명평가 대상특허(단일·포트폴리오), 상표, 저작권, 복합 IP 번들거래 시나리오• 일시 양도/매각 • 라이선스(고정∙로열티) • 담보(담보대출·수권)출력 포맷(a) 범위 ±신뢰구간을 갖는 FMV(Fair Market Value) 추정치 (b) 거래유형별 권장 로열티율/가격 밴드 (c) 설명가능성 지표(기여도 TOP-K feature)업데이트 주기최소 분기 1회 데이터 보강·재학습 →..

Projects 2025.05.24

“사람처럼 스스로 검증·수정하며 사실적 글을 만드는 LLM” 설계 로드맵

1단계 — 지식 기반(코퍼스) 설계 & 데이터 파이프라인구성 요소 설계 포인트 이유다층 지식 저장소· 기성 대규모 텍스트(웹+도서+학술)· 도메인별 레퍼런스(논문·코드·법령 등)· 동적 웹 검색 커넥터· 원천 문서에 고유 ID·메타데이터 부여· chunk ↔ citation 양방향 매핑 테이블 구축“출처 태그”가 살아있어야 후단(메타인지·사실 검증)에서 근거를 확인·인용 가능 (ACM 통신)데이터 품질 루프· 다단계 필터: 저품질·중복·허위 제거· 검증 실패 사례를 주기적으로 추가 학습데이터 노이즈가 “학습-->믿음(=망상)”으로 굳는 것을 차단 (arXiv)2단계 — 기본 언어모델(Encoder-Decoder) & “빠른 사고” 회로모델 크기·토크나이저: 7B~34B 토큰 단위로 실험 → 도메인 특화일..

Projects 2025.05.24

사람이 거짓 없이 사실만을 말하거나 쓰는 일이 왜 어려운지, 그리고 그럼에도 정확성을 높일 수 있는 과학적 원리와 실천 방법

1. 입력 단계: 정보가 뇌에 들어올 때부터 왜곡이 시작된다메커니즘 핵심 내용 주요 한계감각 수용 & 주의(Attention)시각·청각 자극이 1초당 수천 비트 이상 유입 → 주의 체계(시상, 전두엽)에서 극히 일부만 선택외부 잡음·선입견·정서 상태가 ‘무슨 사실을 봤다/들었다’ 자체를 달리 필터링부호화(Encoding)선택된 정보가 해마-피질 경로를 따라 장기기억으로 변환이미 가진 스키마(지식 틀)에 맞춰 재구성되며, “사실+추론”이 섞여 저장⇒ 초기 저장부터 ‘순수 사실’과 ‘해석’이 분리되지 않는다.2. 저장 단계: 기억은 찍어둔 사진이 아닌 ‘살아있는 시나리오’통합적 재구성: 수면 중 재재생(replay) 과정에서 해마–대뇌피질 연결이 강화되지만, 동시에 비슷한 경험과 섞이며 내용이 압축·보정됨망..

Projects 2025.05.24

의료 영상 캡셔닝 요약 전략 정리

아래에서는 ① 현재 프롬프트를 평가하고, ② 실제 지표(CIDEr, BLEU, BERTScore 등)까지 고려해 어떻게 보완하면 좋을지 구체적인 권장 사항과 예시 프롬프트를 제시합니다. LLM에 실제로 입력‧출력되는 형태와 후처리 전략(RL re-ranking 등)까지 함께 정리했으니 참조해 보세요.1 현재 프롬프트의 장단점 정리구간 내용 장점 잠재적 리스크 지표 영향역할“You are a radiologist …”역할 정의 명확GPT-4o 등 대형 모델은 이미 role-play 능력이 높아 큰 효과는 제한적-통합 필드modality, location, pathology, clinical details핵심 slot 명시“측정치, laterality, negation” 누락누락어는 CIDEr 패널티Extr..

Projects 2025.05.09

화학물질 독성 예측을 위한 클래스 불균형 해소 연구계획서

1. 서론화학물질의 독성 예측은 신약 개발, 환경 보호, 공중 보건 등 다양한 분야에서 필수적입니다. 그러나 독성 데이터는 일반적으로 클래스 불균형 문제를 가지고 있습니다. 예를 들어, Tox21 데이터셋에서는 독성 화합물(양성 클래스)이 비독성 화합물(음성 클래스)보다 훨씬 적습니다. 이로 인해 기계학습 모델이 양성 클래스를 제대로 학습하지 못하고, 음성 클래스에 편향되는 경향이 있습니다.기존 연구에서는 MLSMOTE(Multilabel Synthetic Minority Over-sampling Technique)와 MLSOL(Multilabel Synthetic Oversampling Based on Local Label Imbalance)을 사용하여 클래스 불균형을 해결하려 했습니다. MLSMOTE..

Projects 2025.05.03

GeoTransMol: 분자 특성 예측을 위한 새로운 딥러닝 모델 개발 연구 계획서

1. 연구 목적본 연구는 새로운 딥러닝 모델인 GeoTransMol을 개발하여, 기존의 분자 특성 예측 모델들, 특히 Tox21 및 ToxCast와 같은 독성 예측 작업에서 더 우수한 성능을 달성하는 것을 목표로 합니다. GeoTransMol은 2D 그래프 구조와 3D 기하학적 정보를 통합하여 분자의 포괄적인 특성을 포착하며, 대규모 레이블 없는 데이터셋을 활용한 자기 지도 학습을 통해 모델의 일반화 능력을 향상시킵니다. 구체적으로, TransFoxMol이 ToxCast invitrodb v4.1 데이터셋에서 달성한 AUC 0.868을 초과하는 성능을 목표로 합니다.2. 배경 및 중요성분자 특성 예측은 약물 발견 및 개발에서 핵심적인 역할을 합니다. 최근 연구에서는 그래프 신경망(GNN)과 트랜스포머 기..

Projects 2025.05.03

CycleNet 후속 연구 계획서

1. 서론정확한 시계열 예측은 다양한 영역에서 중요한 역할을 수행하며, 의사 결정, 자원 할당 및 전략적 계획 수립에 상당한 영향을 미칩니다.1 날씨 예측, 교통 관리, 에너지 관리와 같은 분야에서 조기 경보 및 사전 계획을 위한 통찰력을 제공하며 1, 수요 예측, 금융 분석 및 운영 계획과 같은 작업에 필수적입니다.2 최근 딥러닝 모델은 시계열 예측의 비선형 모델링 능력을 크게 향상시켰습니다.3 그러나 실제 시계열 데이터는 복잡한 시간적 의존성, 계절성, 추세, 노이즈 및 장기 예측에 대한 증가하는 요구와 같은 고유한 문제점을 안고 있어 정확한 예측을 어렵게 만듭니다.2 특히 장기 시계열 예측(LTSF)은 확장된 기간에 걸쳐 종속성을 모델링해야 하므로 더욱 어려운 과제입니다.4이러한 어려움 속에서 시계..

Projects 2025.05.03

SegMamba 기반 3D 의료 영상 분할 정확도 향상을 위한 연구 계획서

1. 연구 배경 및 필요성3D 의료 영상의 정확한 분할(segmentation)은 종양 부피 산출, 병변 식별 등 임상 활용에 필수적인 핵심 기술이다. 하지만 3차원 영상은 해상도와 데이터 차원이 매우 높아, 전역적(global) 정보 파악이 어려운 한계가 있다. 기존 합성곱 신경망(CNN) 기반 방법들은 국소 패턴에는 강하지만 전체 영상 내 장거리 의존성(long-range dependency)을 효과적으로 포착하지 못한다. 예를 들어, 넓은 수용영역을 갖기 위해 대형 커널을 사용하는 UX-Net 등의 시도가 있었지만, 픽셀 간 거리가 멀어지면 관계 학습에 한계가 있었다. 이를 극복하고자 Transformer 구조가 3D 분할에 도입되어 자기-어텐션(self-attention)을 통해 전역 정보를 추출..

Projects 2025.05.03

Language-Based Audio Retrieval (DCASE 2025 Task 6) 연구 계획

언어 기반 오디오 검색 시스템은 오디오 클립과 텍스트 질의를 공유 의미 공간에 인코딩하여, 관련성이 높은 오디오-텍스트 쌍이 높은 유사도를 갖도록 하는 데 목적이 있습니다. 최근 최고 성능을 보이는 방법들은 듀얼 인코더 아키텍처(오디오 인코더와 텍스트 인코더를 분리)와 대조 학습(contrastive objective)을 결합하며, 이는 크로스모달 정렬을 위해 CLIP 패러다임에서 영감을 받은 경우가 많습니다. 아래에서는 최신 연구(예: DCASE 2024 Task 8) 및 관련 벤치마크를 바탕으로, 최첨단 아키텍처, 학습 전략, 데이터 활용, 증강 기법, 그리고 모범 사례를 소개합니다.모델 아키텍처오디오 인코더: 최신 시스템들은 대규모 오디오 데이터셋으로 사전 학습된 고용량 오디오 인코더를 활용합니다...

Projects 2025.05.03