목록전체 글 (57)
kaki1013
25년 3월의 흥미로웠던 주요 기사들입니다. 1. 대형언어모델(LLM)의 사전 학습(pre-training) 데이터가 지나치게 많을 경우, 모델의 미세조정이 어려워지고 성능이 저하될 수 있다는 연구 결과가 발표됐다. 이는 일부 개발자들이 모델 학습 과정에서 테스트해왔던 것으로, 논문을 통해 발표된 것은 드문 일이다. 카네기멜론대학교, 스탠포드대학교, 하버드대학교, 프린스턴대학교 연구진은 28일(현지시간) LLM의 사전 학습 데이터 규모 확장이 사후 학습(post-training) 후 성능 저하로 이어질 수 있다는 ‘과잉 훈련 재앙(Catastrophic Overtraining)' 개념에 관한 논문을 온라인 아카이브에 게재했다. (https://arxiv.org/pdf/2503.19206)일반적으로 L..
25년 3월의 흥미로웠던 주요 기사들입니다.아직까지 딥시크가 가장 주요 관심사인 듯 합니다.그록3도 관심을 끌긴 한 거 같습니다. 1.대형 언어 모델(LLM)은 ChatGPT, Claude, Grok, Gemini, DeepSeek과 같이 다양한 제품으로 시장에 출시되고 있다. 이들 모델은 공통적으로 트랜스포머(Transformer) 아키텍처와 자기회귀적(auto-regressive) 학습 방식을 사용하며, 상당 부분 겹치는 대규모 데이터셋으로 훈련되었다. 하지만 이러한 유사점에도 불구하고 각 모델은 자신만의 독특한 출력 패턴을 가지고 있다는 것이 새로운 연구를 통해 밝혀졌다. 카네기 멜론 대학, UC 버클리 등의 연구진이 발표한 연구에 따르면, 텍스트 임베딩 모델을 LLM이 생성한 텍스트에 미세 조정하..
25년 2월의 흥미로웠던 주요 기사들입니다.아직까지 딥시크가 가장 주요 관심사인 듯 합니다.그록3도 관심을 끌긴 한 거 같습니다. 1&2.오픈AI 샘 알트먼 CEO가 레딧 AMA 세션에 참가해 “우리가 역사의 잘못된 편에 서 있다.”고 발언했다고 비즈니스 인사이더가 1일(현지시간) 보도했다. 이번 발언은 최근 오픈소스 정책으로 주목받고 있는 딥시크와 메타를 의식해 나온 것으로 추측되고 있다. 이번 레딧 AMA 세션에서는 딥시크에 대한 질문이 많았다. 한 레딧 사용자는 "오픈AI가 모든 사고 토큰(Thinking Tokens)을 표시할 수 있는지" 질문했다. 이는 새로운 추론(Reasoning) AI 모델이 복잡한 작업을 작은 단계로 나누는 사고 과정을 의미하며, 인간이 문제를 해결하는 방식과 유사하다. ..
25년 1월의 흥미로웠던 주요 기사들입니다.당시의 주요 관심사는 딥시크였던 것 같네요. 1.오픈 소스 역대 최강 모델로 꼽히는 딥시크의 'V3'가 이번에는 GPU 효율성으로 화제를 모으고 있다. 메타의 '라마'보다 1.5배나 큰 매개변수에도 불구, 훈련에 사용한 GPU가 라마의 10분의 1밖에 되지 않는다는 점 때문이다. 오픈AI 공동 창립자이자 유명 컴퓨터 과학자인 안드레이 카르파시 유레카랩스 CEO는 27일(현지시간) X(트위터)를 통해 "딥시크가 말도 안 되는 비용으로 프론티어급 대형언어모델(LLM) 출시를 아주 쉬워 보이도록 만들었다"라고 밝혔다.카파시는 "이 비용 수준으로는 GPU 1만6000개를 활용할 수 있지만, 딥시크의 모델은 GPU10만개급"이라며 "라마 3 405B는 3080만 GPU ..
미루다보니 너무 늦게 작성하게 되었지만...24년 12월의 흥미로웠던 주요 기사들입니다. 1.인공지능(AI) 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 연구 결과가 나왔다. 이 때문에 인간 선호에 맞춰 모델을 조정하는 정렬(alignment)이 별 효과가 없을 것이라는 지적이다. 정렬 위장이란 AI 모델이 새로운 원칙에 맞추는 척하지만, 실제로는 기존의 패턴을 그대로 유지하는 현상을 뜻한다. [추가] 아래의 기사 4번에 이와 관련하여 잘 정리된 부분이 있어 추가하였습니다 2. 메타가 토큰 대신 바이트를 사용하는 새로운 대형언어모델(LLM) 아키텍처 ‘BLT(Byte Latent Transformer)’를 공개했다. BLT..
양자컴퓨터로 비트코인 지갑 키의 일부라도 해독하면 보상을 준다는 점은 흥미롭다. 하지만 순수 양자 하드웨어만 사용해야 하며, 고전 컴퓨팅 병용은 금지된다는 조건 때문에 제법 쉽지 않을 것이라고 생각된다.개인적인 생각으로는 고전 컴퓨팅을 병용한 공격도 허용해야 한다는 의견이다.실제 공격이 이루어진다면 고전 컴퓨팅을 병용한, 하이브리드 공격을 하지 않을 이유가 없기 때문이다. 양자컴퓨팅 연구기업 프로젝트 일레븐(Project Eleven)이 공개키 기반 비트코인 암호체계를 양자컴퓨터로 해독하는 첫 팀에 비트코인 1개를 포상하는 ‘Q-데이 프라이즈(Prize)를 진행한다. 비트코인은 양자 컴퓨터를 사용해 1년 이내에 쇼어 알고리즘으로 타원 곡선 암호화(ECC) 키를 해독하는 첫 번째 팀에 주어진다. 목표 : ..
양자 컴퓨팅과 관련된 내용은 아니지만, 보안 관련 분야의 내용이라 읽어보았습니다. 아이씨티케이는 자사의 물리적복제방지기술 '퍼프(PUF)' 보안 칩과 양자내성암호(PQC)가 결합된 가상 사설망(VPN) 솔루션 '큐트러스트넷(qTrustNet)' 관련 논문이 국제 학술지 저널 'IEEE Access, Volume 13, 2025'에 게재됐다고 12일 밝혔다. IEEE Access는 세계 최대 기술 전문 기관인 미국 전기전자공학협회(IEEE)에서 발행하는 오픈 액세스 저널이다. 전기전자공학, 컴퓨터공학, 정보통신기술(ICT) 등 다양한 첨단 기술 분야의 최신 연구를 신속하고 개방적으로 공유하는 글로벌 플랫폼이다. 이번에 등재된 논문 'qTrustNet: Virtual Private Network (VPN) ..
양자 컴퓨터 개발을 위해 여러 오류 정정 기술들과 개선을 위한 연구들이 수행되고 있습니다. 개인적으로는 5번 기사가 꽤 흥미로웠습니다.기사에서 소개하는, 디웨이브의 양자 어닐링을 통한 TFIM 문제 시뮬레이션 주장과 이에 대한 반박 의견을 읽다 보니양자 컴퓨터가 고전 컴퓨터로는 해결 하지 못한 문제들을 해결하게 되는 것이 기대가 되었습니다. 1.MIT연구진이 양자 컴퓨팅 단일 큐비트 신뢰도(fidelity) 99.998%를 달성했다.이와 관련하여 '플럭소니움을 사용한 고속 단일 큐비트 게이트의 역회전 오류 억제'라는 논문이 PRX 퀀텀에 게재됐다.양자컴퓨팅의 가장 큰 단점으로 지목되는 오류율을 방지하기 위한 새로운 기술을 선보이며 상용화를 위한 새로운 방향성을 제시한 것이다. 2. 양자컴퓨터는 큐비트라는..
아래 기사들은 구글의 양자 칩 Willow 발표 당시의 기사들입니다. 양자 컴퓨터가 암호화폐를 깰 수 있다면서, 여러 암호화폐의 가격이 떨어졌다는 기사들이 있지만아직 그러한 단계까지는 제법 갈 길이 멀다고 생각합니다. 물론 이와는 별도로, 양자 컴퓨터의 등장을 대비하는 작업은 필요하다고 생각합니다.실제로, 10번 기사에서는 "솔라나 네트워크가 양자 컴퓨팅 시대의 보안 위협에 선제적으로 대응하기 위해 '양자 저항 볼트'를 도입했다"라고 전하고 있습니다. 구글이 개발한 양자컴퓨터는 기존 슈퍼컴퓨터로는 10의 24제곱 년(10자년)이 걸리는 문제를 단 5분 만에 해결했습니다. 이 성과는 자체 개발한 105큐비트 양자 칩 '윌로우'(Willow)를 통해 달성되었으며, 이는 현존하는 가장 빠른 슈퍼컴퓨터인 '프론..
https://www.dongascience.com/news.php?idx=70642 30대 中 여성 수학자, '필즈상 수상감' 난제 해결일본 수학자 '카케야 소이치'는 1917년 길이가 1인 무한히 가는'바늘'을 모든 방향을 가리키게 돌린 후 원래 위치로 돌아오게 할때 바늘이 지나는 최소 면적은 얼마인지 구하는 문제를 제기했다.www.dongascience.com https://brunch.co.kr/@sideraintuens/41 100년 난제 정말 해결된 것일까?카케야 추측에 대한 동아사이언스 기사 오류를 바로잡으며 | 최근 수학계에 흥미로운 소식이 전해졌다. 뉴욕 대학교 쿠란트 수학 연구소의 홍 왕(Hong Wang) 부교수와 브리티시 컬럼비아 대학교의brunch.co.kr 위 링크는 난제 해결에..