서론… tmi…
회사에 탄력근무제도가 있어서… 16시 반에 퇴근해서 삼성역으로 향했다.
내가 다니는 회사는 한강 위에 있으니까… 거리가 좀 있긴 하다 ^.ㅠ
사실, 회사에서 파일럿 성으로 여기랑 업무적으로 추진 중인 게 있긴 한데, 내가 관련 담당자인 건 아니어서,,, 음,,,
그래도 시스템에 도입을 고려하게 된다면, 그 시스템을 개발하는 나와는 완전 무관한 일일 수는 없긴 하다.
업무 영역 중에서도 내가 관여하는 쪽과 관련이 있기 때문이다.
뭐 어쨌든 간에, 얼마 전에 여기서 테스트한 결과 데이터에 대해 파트장 님이 개발자들에게 피드백 달래서 피드백 드렸는데,,, 음,,, 네,,, (이하 생략) 역시 도큐 ai는 쉽지 않다…
물론 내가 여기 강연 갈 걸 아는 회사 사람은 아무도 없다 ㅋ
회사명도 안 썼고, 명함도 안 냈으니까…ㅋㅋㅋㅋㅋㅋ ㅎ…
고용노동부 재직자 환급, 뭐 이런 거 아닌 이상은 굳이….? 회사명을 밝히진 않고, 소속을 꼭 쓰라고 하면 대학원생 (…) 이라고 쓴다 ㅋ
얼마 전에 핀테크 아카데미야… 환급해 준대서 회사명을 썼긴 하지만 ㅋㅋㅋㅋ
간만에 외부 강의~ 신난다!
이런 곳에 오면 refresh 되는 기분이 들어서 좋다.
Solar LLM은 이날 발표된 product이다.
그리고 도시락… 어디 껀진 몰라도 쿠키가 맛있었다.
입구 에서 도시락을 줬다 역시 대기업 쪽 스타트업은 다른건가
오늘 얘기를 들어 보니, 시리즈B 100억 투자 유치까진 했다고 한다.
강연 진행 순서
먼저, 이활석 님의 강연이 있었다.
그 다음으로, 조경현 교수님의 강연이 있었다.
마지막으로, 질문을 받는 시간이 있었다.
1) 첫 번째 강의 - 이활석 업스테이지 CTO 님
AGI for work
Recognition -> Extraction -> Analysis -> Insight
테이블 구조는 난이도 상승 -> 문서 구조에 대한 정보 도움 수반 필요
LLM 하나가 model 결합보다 낫다
-> 할루시네이션 문제 대처 방안
Ex) 접근방법1 : 기보유 데이터
기존의 MMLU : 한국어를 배우면, 다른 언어에 대한 성능 저하
-> depth upscaling (DUS) 방법론 도래
B2B metric
RAG ~ vector DB 형태로 embedding model로 LLM 연결
Document parse -> 업스테이지 꺼는 html 형식으로 변환, API로 제공
query analyzer = 도메인 전문가를 위한 프롬프트 엔지니어링과 흡사
2) 두 번째 강의 - 조경현 교수님
1) Transparency
cf. 실제로 document AI를 도입한 보험 회사 = 과거 이미지 데이터를 분석하는 쪽에 추가 활용
cf. data poisoning
- Lack of transparency -> negative result
- Biases in data 경계 필요
Ex) CT data -> 이것은 병원 데이터니까 유병력자의 CT라고 보면 되나? = 병원 꺼라고 양성으로 보는 거 자체가 편견이다
작은 모델을 쓰더라도 hypothesis 설정과 task에 대한 정의가 중요하다.
2) Maintability
- 세상은 빨리 변하는데, 모델은 그 속도 보다는 느리다.
하지만 전혀 모르는 정보를 RAG할 수도 없다.
- 라이센스가 언제 바뀔 지 모름 -> 그때 그때 model을 switch해서 쓸 수 있는 능력 필요
= 하위 호환성 backward compatibility 중요
cf. 시점에 따라 답이 달라지는 경우
Ex) 대한민국에서 5번째로 인구가 많은 도시?
3) Compliance
- sensitivity of data
Ex) 국내법 상, 국내 공간 정보에 대한 반출이 불가능함
Ex) EU GDPR : 유럽 밖으로 반출 시에도, 거기까지 따라 가서(?) 감시를 해서 까다롭다
Ex) 미국 HIPAA security rule (헬스케어 관련)
=> data를 쓰려면 technical safeguard 구축 필요
cf. 서비스 제공을 위한 인프라 구축
- pytorch + lit-lamma + …
- VLLM + Fast API + StreamLit
- Aws
…
”좋은 데이터 + 좋은 모델 + 인내“ ===> 좋은 결과
완성된 AI 시스템이란 건 없다
-> 그렇기 때문에 end-user의 feedback까지 잘 받아서 계속 개선해 나가는 게 중요하다
* Q&A session
- 일단, 전문가가 헷갈릴 정도이면 잘 만든 것이다.
- 측정 기준에 대해 define을 잘 하는 게 중요하다.
- 모든 사람이 만족시킬 수 있는 유튜브 컨텐츠나, 동영상 제목?
감이라는 건 주관적이기 때문에,
LLM으로 100개를 만들고 그중에서 사람이 추리는 쪽으로 추천
- 기업에 업스테이지 꺼 도입하려면?
일단 연락주세요 ㅋ ai 리터러시가 전제 되어야 비즈니스 적으로 풀어드릴 수 있어요
'IT 강의 요약' 카테고리의 다른 글
김영한의 실전 자바 - 기본편 - 2 요약 (0) | 2024.03.07 |
---|
댓글