민예은은 서로 다른 시간과 경험이 한 공간 안에서 만나고 잠시 연결되는 순간에 관심을 둔다. 설치, 조각, 영상, 사운드 등 다양한 매체를 통해 하나로 설명되지 않는 여러 현실의 층위와 그 사이에서 생겨나는 감각적 긴장을 보여주는 작업을 하고 있다.
Min Ye-eun is interested in moments when different times and experiences meet and briefly connect within a space. Working across installation, sculpture, video, and sound, she makes works that explore multiple layers of reality that cannot be explained as one, and the sensory tensions that arise between them.
이 영상은 아야코 록카쿠의 회화 이미지(무제)를 출발점으로 이미지–음악–인물 서사를 한 화면 안에서 결합한 작업이다. 토탈미술관에서 열린 작가의 개인전에서 선택한 한 작품의 화면 요소(색, 리듬, 밀도, 반복되는 형태)를 악보의 요소로 치환해 몽환적인 배경음악을 만들고, 화면 중앙의 캐릭터를 중심으로 인물을 실사 영상처럼 재구성한다. 캐릭터는 한국어·독일어·일본어 세 가지 언어를 사용하는 존재로 설정되어, 자신이 온 “행성”과 이곳에서 수행할 일을 시적인 독백처럼 말한다. 이 다국어 대사는 AI 음성으로 구현되며, 생성된 이미지 및 영상과 결합되어 하나의 단일한 시청각 장면을 이룬다.
이 작업은 “한 장의 회화가 어디까지 다른 매체로 번역될 수 있는가”라는 질문에서 시작한다. 토탈미술관에서 열린 아야코 록카쿠 개인전에서 마주한 무제(Untitled) 회화 한 점을 선택하고, 그 화면을 ‘감상’의 대상으로 두는 대신 음악과 말, 움직임의 규칙을 생산하는 원본 데이터로 삼는다.
이미지의 구성 요소를 악보에 대응시키는 방식으로 먼저 배경음악을 만들고, 이어서 회화 속 캐릭터를 실사화해 “다른 세계에서 온 존재”라는 설정을 부여한다. 한국어·독일어·일본어로 말하게 설정한 이유는 하나의 세계가 단일한 언어로 환원되지 않는다는 전제를 드러내기 위함이다.
또한 제작 과정에서 기본 설정과 방향만 정하고, 원하는 결과에 더 가까이 가기 위한 프롬프트 작성은 AI에 맡긴다. 직관적으로 생성·선택·조합해 완성된 이 영상의 설명을 다시 AI와 함께 작성하는 선택은, 이 작업이 저자성(누가 쓰고 만드는가)과 번역의 연쇄(이미지 → 악보 → 음성 → 영상 → 텍스트) 자체를 작품의 일부로 다루고 있기 때문이다.
- 출품작 정보
- 작품명: 카오스에서 찾아낸 질서: 별의 아이 1 / 작가: 민예은
- 형식: MP4 / 길이: 40초 / 화면비: 16:9
- 해상도: 1904×1072 / fps: 30 / 코덱·비트레이트: 11657kbps
- 오디오(채널·샘플레이트): 스테레오 2채널
- 사용 데이터셋(토탈미술관 제공) 및 선택 범위
- 제공 방식: Dropbox(전시 관련 텍스트, 작품 정보, 이미지 포함)
- 선정 이미지(핵심 입력): rokkaku_Japan-Korea_1 (작품 이미지 1장만 사용)
- 보조 참고: 데이터셋 내 전시 관련 텍스트 파일 전체 열람(설정 조건 정리 목적)
- 추가 조사: 웹서치를 통해 록카쿠 관련 자료를 학습 및 참고(단, 생성의 핵심 입력은 위 이미지 기준)
- 사용 AI 모델/서비스(모델명 명시)
- 이미지 생성: Kling 3
- 비디오/디지털 캐릭터: Kling 3
- 음성 합성(TTS): ElevenLabs – Multilingual v2
- 음악 생성: Gemini 3
- 프롬프트 작성 및 정리: Gemini 3, ChatGPT 5.2
※ 요구사항 충족 방식: 데이터셋이 ‘규칙(매핑/제약/움직임 조건)’을 제공하고, AI가 그 규칙을 수행하여 음악·이미지·영상이 생성 및 변형되도록 구성한다(단순 보정 목적이 아님).
- 생성 파이프라인(요약)
- 입력: Dropbox 데이터셋에서 rokkaku_Japan-Korea_1 선택 + 전시 텍스트 전체 열람
- 이미지 → 음악: 5-1 매핑 규칙을 설정한 뒤 Gemini 3로 몽환적 배경음악 생성
- 실사화: 중앙 캐릭터 기준으로 고정 요소/스타일/금지 항목을 프롬프트화하여 Kling 3로 실사 이미지 및 캐릭터 생성
- 다국어 음성: 한국어·독일어·일본어 대사 설정 → ElevenLabs Multilingual v2로 음성 생성
- 영상: 제공 오디오 + 움직임 규칙(5-3) 입력 → Kling 3로 16:9 30초 영상 생성 → 최종 MP4 출력
- 알고리즘 및 프롬프트 구조(번역 규칙)
5-1) 이미지 → 음악 매핑(사용자 정의 규칙)
- 밝기/대비: 전체가 밝을수록 메인 선율을 2kHz~10kHz 중심에 배치하고, 대비를 반영해 강한 액센트와 부드러운 배경 간 다이내믹 대비를 확대한다.
- 질감(붓터치): 거친 터치는 퍼커시브(쇼트 어택)와 미세 화이트 노이즈로, 부드러운 색면은 신스 패드와 롱 릴리즈(리버브)로 공간감을 구성한다.
- 화면 밀도/패턴: 촘촘한 화면은 16분음표 아르페지오, 마림바 계열 오스티나토로 반복 패턴을 형성한다.
- 시선 스캔: 좌→우 이동은 패닝으로, 상→하 시선은 초반 고역 중심에서 중반 이후 중·저중역 혼합으로 전환한다.
- 분위기/구조: 몽환적 앰비언트와 미세 글리치(리버스 등)를 결합하고, 마지막 약 4초를 시작부와 맞물리도록 설계한다.
5-2) 캐릭터 실사화 조건(핵심)
- 동화 같은 실사 톤, 동아시아인 얼굴, 알록달록 염색 머리, 머리 장식 최소화
- 얼굴만 과도하게 부각되지 않도록 배경을 충분히 구성
5-3) 영상 생성 조건(움직임 규칙 + 제약)
- 인물: 동일한 소녀(정체성과 헤어 완전 고정), 자연스러운 발음과 입모양, 미세한 눈 깜빡임과 마이크로 움직임만 허용
- 촬영: soft warm light, 얕은 심도, 안정된 얼굴 프레이밍, 카메라가 인물 중심으로 천천히 360도 이동
- 배경(실사 재해석된 임파스토 세계)의 음악 반응:
① 안료 가루 = 매 박자 펄스
② 연기 구름 = 멜로디를 따라 소용돌이
③ 보케 = 고주파 반짝임
④ 컬러 클러스터 = 2박 드리프트
⑤ 글리터 = 보컬 강세에만 짧게 반응 - 금지: 얼굴 드리프트, 정체성 변화, 인물 추가, 입·치아 아티팩트, 플리커·지터, 워핑·멜팅, 텍스트·워터마크·로고
- 데이터셋–모델 상호작용(생성 동력 근거)
- rokkaku_Japan-Korea_1의 시각 요소를 음악 파라미터로 번역(5-1)하여 ‘소리의 규칙’을 도출하고, Gemini 3가 이를 수행해 음악을 생성한다.
- 동일 캐릭터 실사화 조건(5-2)과 영상 제약 및 움직임 규칙(5-3)을 프롬프트 구조로 고정하고, Kling 3가 이를 수행해 이미지 및 영상을 생성·변형한다.
- 다국어 설정을 음성 합성 파이프라인(ElevenLabs Multilingual v2)으로 구현하여 서사를 청각 요소로 결합한다.
→ 결론: 데이터셋은 단순 참조가 아니라 규칙(매핑/제약/움직임)의 근거로 작동하며, AI 모델이 그 규칙을 실행하는 생성 과정 자체가 최종 미학을 형성한다.
This video work begins with a painting (Untitled) by Ayako Rokkaku and combines image, music, and character-based narrative into a single unified audiovisual frame. Drawing from a selected work encountered in the artist’s solo exhibition at Total Museum, key visual elements—color, rhythm, density, and repeating forms—are translated into musical structures to generate a dreamlike background score. At the center of the screen, a character derived from the painting is reconstructed as a live-action figure. This character, configured as a being who speaks Korean, German, and Japanese, delivers a poetic monologue about the “planet” they come from and their purpose in this world. The multilingual narration is realized through AI-generated voice, forming a cohesive audiovisual scene in combination with generated images and video.
The work originates from the question: “To what extent can a single painting be translated into other media?” Rather than treating the selected Untitled painting as an object of passive viewing, it is redefined as a source that generates rules for music, speech, and movement. The image is first mapped onto a musical system to produce sound, after which the central figure is rendered as a live-action character and framed as an entity from another world. The use of three languages reflects the premise that a single world cannot be reduced to a singular linguistic system.
In the production process, only the initial direction and parameters were defined by the artist, while the iterative development of prompts was largely delegated to AI in order to approach the desired outcome. The decision to also co-author the description of the work with AI reflects a broader conceptual interest in authorship—who creates and writes—and in the chain of translation (image → score → voice → video → text) as an integral part of the artwork itself.
Work Information
- Title: Order Found in Chaos: Star Child 1
- Artist: Min Ye-eun
- Format: MP4
- Duration: 40 seconds
- Aspect Ratio: 16:9
- Resolution: 1904 × 1072
- Frame Rate: 30 fps
- Codec / Bitrate: 11657 kbps
- Audio: Stereo, 2-channel
Dataset (Provided by Total Museum) and Selection Scope
- Source: Dropbox (including exhibition texts, artwork information, and images)
- Primary Input: rokkaku_Japan-Korea_1 (single artwork image)
- Supplementary Reference: Full review of exhibition-related text files (for defining conceptual conditions)
- Additional Research: Web-based research on Rokkaku (reference only; core generation is based on the selected dataset image)
AI Models and Services Used
- Image Generation: Kling 3
- Video / Digital Character: Kling 3
- Voice Synthesis (TTS): ElevenLabs – Multilingual v2
- Music Generation: Gemini 3
- Prompt Design and Structuring: Gemini 3, ChatGPT 5.2
The dataset functions not merely as a reference, but as a system of rules (mapping, constraints, motion conditions), which are executed by AI models to generate and transform music, images, and video.
Generation Pipeline (Summary)
- Input: Selection of rokkaku_Japan-Korea_1 from the dataset + full review of exhibition texts
- Image → Music: Establishment of mapping rules (5-1), followed by generation of ambient music using Gemini 3
- Character Realization: Prompt-based definition of fixed elements, style, and constraints; generation of live-action imagery via Kling 3
- Multilingual Voice: Script in Korean, German, and Japanese → synthesized using ElevenLabs Multilingual v2
- Video: Integration of generated audio and motion rules (5-3) → production of a 16:9 video via Kling 3 → final MP4 output
Algorithm and Prompt Structure (Translation Rules)
5-1) Image → Music Mapping (Custom Rules)
- Brightness / Contrast: Brighter compositions emphasize high-frequency melodic ranges (2kHz–10kHz), with dynamic contrast shaping accents and background layers
- Texture (Brushwork): Rough textures translate into percussive elements and white noise; smooth color fields into synth pads with long reverb
- Density / Pattern: Dense compositions generate sixteenth-note arpeggios and ostinato patterns
- Gaze Scan: Left-to-right movement is mapped to stereo panning; top-to-bottom transitions shift from high to mid-low frequency ranges
- Atmosphere / Structure: Dreamlike ambient textures combined with subtle glitch effects, with the final segment looping back toward the beginning
5-2) Character Realization Conditions (Core)
- Fairytale-like live-action tone
- East Asian facial features
- Multicolored dyed hair
- Minimal head accessories
- Balanced composition to prevent overemphasis on the face
5-3) Video Generation Conditions (Motion Rules and Constraints)
- Character: A single consistent identity (no drift), natural lip-sync, minimal micro-movements (blinking, subtle gestures)
- Cinematography: Soft warm lighting, shallow depth of field, stable facial framing, slow 360° camera movement centered on the subject
- Background (reinterpreted impasto world) reacts to music:
① Pigment dust → rhythmic pulses per beat
② Smoke clouds → swirling with melody
③ Bokeh → high-frequency sparkle
④ Color clusters → two-beat drift
⑤ Glitter → brief response to vocal accents - Prohibited: identity drift, additional characters, facial artifacts, flicker/jitter, warping/melting, text, watermarks, logos
Dataset–Model Interaction (Generative Logic)
The visual elements of rokkaku_Japan-Korea_1 are translated into musical parameters (5-1), forming a system of “sonic rules,” which are executed by Gemini 3 to generate music. Fixed conditions for character realization (5-2) and constraints for motion and video generation (5-3) are embedded within the prompt structure and executed by Kling 3 to produce images and video. Multilingual narration is integrated through the ElevenLabs pipeline, forming the narrative layer.
In conclusion, the dataset operates not as a passive reference but as a rule-based system (mapping, constraints, motion), and the execution of these rules by AI models constitutes the generative process that ultimately defines the work’s aesthetic.
