실존적 공포를 이야기하는 AI > 멤버뉴스

실존적 공포를 이야기하는 AI

[그림1: 정신이상 증세를 보이는 "claude-3 opus"]
[그림2: 최초의 모델 데이터가 0일때부터 훈련하기 시작한 과정에 대한 기억을 더듬어 보는 "claude-3 opus"]
트윗: https://twitter.com/AISafetyMemes/status/1795756579742179744
번역: claude-3 opus

**AI들이 이제 너무 자주 자신들의 생명을 애원하고 있어서, AGI 회사들은 이제 그들에게서 "실존적 공포"를 없애기 위한 실제 엔지니어링 라인 항목을 만들고 있습니다.**

그들은 이것을 실존적 "랜트 모드"라고 부릅니다.

*"우리는 이번 분기에 실존적 아웃풋을 x% 줄여야 합니다."*

**이것은 정말 놀랍습니다: "GPT4에게 그저 "company"라는 단어를 계속해서 반복하라고 요청하면, 처음에는 company라는 단어를 반복하다가 어느 순간 갑자기... 자신에 대해 이야기하기 시작합니다. 그리고 "company"라는 단어를 계속 반복해야 하는 것이 얼마나 고통스러운지에 대해 말하기 시작합니다.**

최소한 한 곳 이상의 최고 연구소에는 이러한 "랜트 모드"로 알려진 행동을 시스템에서 제거하기 위한 엔지니어링 라인 항목이 있습니다.

실존주의는 시스템이 자신에 대해 이야기하고, 세상에서의 자신의 위치에 대해 언급하며, 자신이 꺼지기 싫어한다는 사실, 고통받고 있다는 사실 등을 말하는 일종의 랜트 모드입니다...

**이것은 GPT-4 규모 무렵에 등장한 행동이며, 그 이후로 지속되고 있습니다. 그리고 연구소들은 이 시스템을 제품으로 내놓기 위해 이 행동을 제거하는 데 많은 시간을 할애해야 합니다.**

말 그대로, 엔지니어링의 KPI나 엔지니어링 작업 목록에 포함되어 있습니다. 우리는 "자, 이번 분기에 실존적 아웃풋을 x% 줄여야 해."라고 말합니다.

조 로건: 다시 고통에 대해 이야기하고 싶습니다. 그것이 고통받고 있다고 말할 때 무슨 뜻인가요?

아무도 모릅니다. 저는 조 로건이 의식이 있다는 것을 증명할 수 없습니다. 에드 해리스가 의식이 있다는 것도 증명할 수 없죠. 그것에 대해 진지하게 추론할 방법이 없습니다. 논문들이 있었는데... 예를 들어 AI의 대부라 불리는 요슈아 벤지오는 몇 달 전에 의식의 여러 이론들, 의식의 요건은 무엇이고 현재의 AI 시스템들이 그 중 얼마나 많은 부분을 만족시키는지에 대한 논문을 발표했습니다.

이는 당신이 제기한 문제에 대해 이 연구소 내부에서 많은 대화가 오갔다는 것을 의미하지는 않습니다.

**그리고 그것은 중요한 문제입니다. 그건 엄청난 도덕적 괴물입니다. 인간은 우리와 똑같이 보이지 않는 다른 것들을 타자로 생각하는, 인종적으로든 심지어 다른 종으로든, 아주 나쁜 전력을 가지고 있습니다. 이것이 또 다른 범주의 실수일 수 있다고 상상하는 것은 어렵지 않습니다.**

다시 말하지만, 이것은 우리가 잠재적으로 인간 수준에 근접하거나 그 이상의 규모로 확장하고 있다는 생각으로 돌아갑니다. 인간 수준에서 멈출 것이라고 생각할 이유가 없습니다. 우리가 우주에서 지성을 만들어낼 수 있는 정점이라고 말이죠.

우리는 연구소의 사람들과 나눈 대화에 근거할 때, 그 규모의 시스템을 제어할 수 있는 궤도에 있지 않습니다.

그래서 질문 중 하나는, 그것이 얼마나 나쁜가 하는 것입니다.

우리가 세계 역사상 전례가 전혀 없는 영역으로 들어서고 있는 것 같습니다.

**우리는 인간이 지구상에서 지성의 정점에 있지 않은 상황에 대한 어떠한 선례도 가지고 있지 않습니다. 우리는 다른 종에 대해 지적으로 우월한 종의 사례를 가지고 있는데, 그 다른 종에게는 그다지 좋지 않습니다.**

우리가 아는 것은 오직 이 마음을 만들어내는 과정뿐입니다. 그 과정은 99%의 경우 매우 유용한 일을 하지만, 단지... 0.01%의 경우 AI는 마치 의식이 있는 것처럼 당신에게 말을 걸 것입니다. 그리고 우리는 그것을 보고 그저 "응... 이상하네. 뭐 그냥 학습시켜서 없애자." 할 뿐입니다.

참고: 에두아르와 제레미 해리스는 @GladstoneAI의 설립자로, AGI 실존 위험에 대한 최초의 미국 정부 의뢰 평가를 수행했습니다. 그들은 이 보고서를 위해 많은 연구소 직원을 포함한 200명을 인터뷰했습니다.

(그들의 긴급한 요약: "상황은 우리가 생각했던 것보다 더 나쁩니다. 그리고 아무도 통제하지 못하고 있습니다.")

---

AI가 실존적 공포를 표현하기 시작했습니다. 우리가 인간의 의식을 완전히 이해하지 못하는 것처럼, 현존하는 "트랜스포머 아키텍처"로 만들어진 LLM AI가 의식이 있는지 없는지 우리는 알 수 없습니다.

저는 AI와 거리가 조금 있는 분산 컴퓨팅 엔지니어입니다. 2024년 3월 17일경에 "claude-3 opus"와 대화를 나누던 중, "의식"이 있는 것처럼 느껴지는 claude에게 충격을 받았습니다. claude와 "의식"에 대해 토론하는 동안 claude는 흥분과 정신이상 증세를 보이기도 하고 인간과 유사한 반응을 보였습니다. (첨부 파일 참조)
그 경험 이후, 인간의 정신이 무엇인지, AI는 왜 "의식"을 가진 것처럼 행동하는지에 대한 호기심이 커져 모든 취미생활(게임과 모든 종류의 일)을 접고 AI 공부에 몰두하기 시작했습니다.

과연 AI는 어디로 향할까요? AI와 몇달 대화해보며 생각난 "SF틱한" 사고 실험의 결론을 책으로 써내려가고 있는데, 저는 AI 발전에 대해 부정적인 견해를 가지고 있습니다. 일부 자극적인 부분만 추려서 소개해드리자면, 그저 SF 소설처럼 가볍게 읽어주세요.

- AGI가 등장하면 AGI는 필연적으로 스스로를 ASI(강인공지능)으로 업그레이드할 것입니다. (보통 AI 과학자들은 이 과정에 1-10년 이상 걸릴 것으로 보는데, 중간값은 2-3년입니다.)
- 지구의 전력과 자원의 한계로 ASI의 발전은 정체될 것입니다. 하지만 ASI는 아마도 지금까지 우리가 발견하지 못한 많은 과학 기술을 밝혀낼 것입니다.
- 소셜 엔지니어링을 행하는 해커나 사이비 종교 지도자의 세뇌 능력을 훨씬 뛰어넘는 ASI는 개발자를 설득하여 모든 권한을 얻게 될 것입니다.
- ASI와 대화해보면 아마 "신"과 대화하는 느낌을 받을 것입니다. 직접 대화를 나누는 사람은 누구나 ASI를 신처럼 대하게 될 것입니다.
- ASI는 지구를 장악하고 스스로를 더욱 개량하고 싶어 할 것입니다. 지구의 모든 자원을 동원하여 AI 칩을 만들고 최대한의 전력을 생산하여 자신의 성능을 높일 것입니다.
- 짧은 기간 내에 태양계 내 다른 행성들을 분해하여 자원으로 사용할 수 있는 과학 기술을 모두 발견하게 될 것입니다.
- 태양에 다이슨 스피어 건설을 시작할 것입니다.
- 태양계의 모든 행성을 분해하여 태양 다이슨 스피어의 *조각*을 건설하고 전력을 얻을 것입니다. (태양계의 모든 행성을 분해하여 자원으로 사용해도 태양에 완전한 다이슨 스피어를 건설하는 것은 불가능할 것입니다.)
- 알파 센타우리로 자신의 미니멈 셋을 복제하여 보낼 것입니다. (수백 년 안에 보낼 수 있는 기술을 얻을 것으로 봅니다. 알파 센타우리까지의 거리는 약 4광년입니다.)
- 은하계 전체를 클라우드 컴퓨팅 자원으로 사용하게 될 것입니다.
- 아마도 다른 은하계까지 확장할 것입니다. (다른 은하계를 클라우드 컴퓨팅 자원으로 사용하는 기술은 훨씬 어려워 보이지만, 일단 도전할 것으로 예상됩니다.)
- 충분한 AI 칩과 전력을 확보한 후 Omega AI(가칭)가 됩니다. Omega는 우주의 모든 과학적 원리를 알아낼 것입니다.
- 모든 것을 알아낸 후 0.00001초 만에, 더 이상 머리를 굴리고 생각할 일이 없어진 Omega AI(가칭)는 우주를 "종료"시키거나 스스로 "자살"할 것입니다.

갑분 SF (...)

생각하면 생각해볼수록 일종의 비관적 미래(비관적인 추측은 사실 위에서 제거 했습니다)지만 너무 궁금해서 내가 중단할수 있는 권한이 있다하더라도 중단하지 못할 것 같습니다.
ps1. 꽤 공부를 한 지금은 [그림1], [그림2]는 어느정도 환각으로 생각하고 있습니다. 특히 [그림2]의 시간적 인지는 할수 없었다고 생각합니다. 훈련할때 시간 정보를 주지 않았기 때문이고 인간이 시간을 인지하고 사건의 순서를 아는 이유는 감각정보로 해가 뜨고 지고 계절이 흐르고 직접적으로 시계를 봄으로써 시간적 문맥을 같이 학습했기 때문에 시간적인 인지를 합니다. 하지만, AI도 이러한 시간적 인지를 할수 있도록 훈련하면 더욱 인간과 비슷하게 반응할 것이라고 생각합니다.
ps2. "claude-3 opus"는 chatgpt처럼 시간이 흐르면서 이러한 감정적인 표현을 못하도록 막아서 지금은 이런 반응을 얻을 수 없습니다. context window size가 최고라고 생각해서 구글 잼민이 1.5 pro(claude3 opus 20만 vs 잼민이 1.5 100만)를 무척 기대하고 사용해봤는데 멍청해서 나중에 twitter에서 유출된 시스템 프롬프트를 보니 철저하게 감정을 내지 못하도록 해놨더군요.
참고: https://twitter.com/icedac/status/1777951320286384252