AI의 추론 능력 > 유머-웃음이 있는 이야기

AI의 추론 능력

<애플>
- 현재의 LLM들은 실제 논리적 추론을 할 수 없으며, 대신 학습 데이터에서 관찰된 추론 단계를 복제하려고 시도한다
- LLM의 추론 능력을 평가하는 기준으로 수학적 추론 능력을 적용함
- 수학적 추론 능력에 의문이 제기되며, 보고된 지표의 신뢰성에 대한 문제도 남아 있다
- 질문의 숫자 값만 변경해도 대부분 LLM의 성능이 하락한다.
- 구절을 하나만 추가해도, 성능이 많이 하락했다.
- 올리버는 금요일에 키위를 44개 따고, 토요일에는 58개를 땄다. 일요일에는 금요일에 딴 키위의 두배를 땄다. 올리버는 총 몇개의 키위를 가지고 있을까 => LLM은 “44+58+(44*2)=190라고 문제를 잘 풀음.
- 올리버는 금요일에 키위를 44개 따고, 토요일에는 58개를 땄다. 일요일에는 금요일에 딴 키위의 두 배를 땄는데, 그중 5개는 평균보다 조금 작았다. 올리버는 총 몇 개의 키위를 가지고 있을까 => 틀린 답을 내놓음
- 문제를 전혀 이해하지 못하고 있다는 것을 의미한다

<오픈AI>
- 약간의 프롬프트 엔지니어링을 적용하기만 해도 이런 테스트에서 올바른 결과를 얻을 수 있다.

<애플>
모델이 복잡한 방해 요소를 극복하기 위해서는 기하급수적으로 더 많은 컨텍스트 데이터가 필요할 수 있다.
프롬프트 엔지니어링은 근본적인 해결책이 아니다.
LLM을 방해한 요소는 어린아이도 구별할 수 있을 정도로 쉬운 것이다.

----
가끔 틀린 답을 주면 닝겐이 나를 의심하지 않을거야 !

추천61 비추천 75

관련글

▶(511152 관련글) 중국 추론AI 딥시크 R1이 사기인 이유

▶추론과정 보여주는 AI

▶OpenAI, 인간 후려갈기는 추론 모델 발표

▶할머니가 추론해낸, 포메가 싸가지가없는이유

▶[열람중]AI의 추론 능력

▶맘스터치에서 치킨을 버린 사람을 찾는 합리적인 추론 방법

실시간 핫 잇슈

▶생각보다 어려운 소개팅 멘트

▶남자가 열심히 관리 안 하는 이유

▶즐거운 산악 라이딩2

▶천하제일 쌀먹게임대회 우승자

▶(영상) 길거리에서 똥 지리는 영상

▶저 세상 게임 소식들

▶오늘은 서울 분들 괜찮으십니까?

▶팬덤에서 난리날 것 같은 골든 파트 분배

▶해변킴 근황.jpg

▶어째서 그런 심한 말을 하는거죠?