BIGDATA - 더밀크

Legal Use of LLM Training Data Reduces AI Business Risks

NewYork Times reports that as early as last month, OpenAI staff were aware of potential illicit activities but believed that the AI's training was properly aligned with its designated objectives. In Silicon Valley, where 'data-hungry' has become the byword, major U.S. companies are exploiting vast datasets to fuel their AI operations. This insatiable demand has given rise to 'synthetic data', crafted to supplement the immense volume of data—ranging from hundreds of billions to trillions—necessary for training sophisticated AI models.In this landscape, the lawful utilization of 'refined' news data by AI platforms stands out as a global anomaly, drawing significant interest.South Korea’s BECU AI, formerly known as Bflysoft, leads in providing cutting-edge knowledge data across various domains including news, media, and legal sectors.BECU AI’s CEO, Lim Kyunghwan, underscores the pivotal roles of data quality and quantity in shaping AI's efficacy and reliability. Lim also highlighted the crucial role of real-time news data in training AI systems, while addressing the ethical and legal ramifications concerning data sourcing and usage.Lim further discussed the strategic value of news data and the legal frameworks supporting its legitimate use, stressing the necessity for stringent compliance with established protocols. Under Lim’s stewardship, BECU AI has recalibrated its mission to amplify its AI endeavors and is gearing up for upcoming international projects.

권순우 2024.05.12 05:09 PDT

"합법적 LLM 학습 데이터, AI 사업 리스크 줄인다"

지난달 6일 보도된 뉴욕타임즈(NYT) 기사다. NYT는 특히 “오픈AI 직원들이 위법 행위 가능성을 사전에 인지하고 있었지만 AI 학습은 이용 목적에 부합하다고 믿었던 것처럼 보인다"고 보도했다. 실제 미 실리콘밸리 기업들은 막대한 데이터를 학습, AI 서비스에 활용하고 있는 상황. ‘데이터 헝그리'란 말이 나올 정도. 현존 데이터가 부족해서 데이터를 만들어 내는 ‘합성데이터’까지 나오는 상황이다. AI를 학습하기 위해서는 수백, 수 천 억개의 데이터가 필요하기 때문이다. 이 같은 상황에서 ‘정제된' 뉴스 데이터를 합법적으로 AI 플랫폼 기업이 활용하는 사례가 등장 주목을 받고 있다. 세계적으로 드문 사례다. 뉴스, 미디어, 법률 등 다양한 섹터의 고급 지식 데이터를 수집, 제공하고 있는 한국의 비큐AI(BECUAI, 구 비플라이소프트)가 주인공이다. 비큐AI 임경환 CEO는 “데이터의 질과 양은 인공지능의 효율성과 유효성을 결정하는 핵심 요소다. 데이터의 출처와 사용 방법에 대한 윤리적, 법적 문제가 대두되고 있다”며 “특히 실시간으로 업데이트되는 뉴스 데이터는 AI시스템의 학습 과정에 필수적인 자원"이라며 “다만 이를 사용하기 위해서는 적법한 절차를 따라야 한다"고 말했다. 임 대표는 뉴스 데이터의 가치와 데이터를 합법적으로 사용할 수 있는 방안 등에 대한 인사이트를 공유했다. 임 대표의 비큐AI는 최근 비플라이소프트에서 AI 사업을 강화하기 위해 사명을 바꾸고 해외 신사업 등을 준비하고 있다.

권순우 2024.05.12 05:09 PDT

K스타트업은 '미래 인재', 대학생은 '스펙' 확보... 윈윈!

글로벌 경기 둔화 우려로 2023년 한 해 동안 미국 빅테크 기업은 물론 전 산업군에서 인력감원과 같은 구조조정이 이뤄졌다. 코로나19 팬데믹 기간 동안 과잉인력을 채용한 탓이다. 이 같은 흐름에도 자금 여력이 있고, 신규 프로젝트를 진행 중인 기업들은 여전히 실력 있는 인재 채용에 열을 올린다. 특히 ICT(Information and Communication Technology) 분야는 더욱 그렇다. ICT는 정보 기술과 통신 기술의 합성어로 정보기기 하드웨어와 소프트웨어 기술, 그리고 이를 이용해 정보를 수집하고, 관리하고, 가공하고, 보존하는 등 모든 방법을 의미하는 용어다. 인공지능(AI). 모바일, 웨어러블 기술은 4차 산업혁명의 핵심으로 영역을 확장하고 있어 관련 인재 확보가 시급하다. 미국에 본사를 둔 한국인 기반의 스타트업과 중소, 중견 기업들 입장에서는 비용적인 문제로 인재 확보가 쉽지 않다. 미국 체류를 위한 비자 스폰서 등 산적한 이슈들 때문에 한국에서 인재를 영입하기도 어렵다.한국 정부에서 추진하는 'ICT 인턴십' 프로그램은 미국, 특히 기술 허브로 불리는 실리콘밸리의 한국 기업들에게 대안이 되고 있다. 이 인턴십은 과학기술정보통신부, 정보통신기획평가원(IITP), 그리고 한국정보산업연합회(FKII)가 주최, 주관하는 프로그램으로 2023년까지 7년간 성공리에 운영 돼 실리콘밸리 스타트업과 한국의 각 대학으로 부터 호평을 받아왔다. 실리콘밸리 등을 비롯한 미국 소재 기업이 제공하는 ICT 관련 직무 중심의 인턴십 활동을 통해 이론과 실무를 갖춘 ICT 인재를 양성하는데 목적을 둔 프로그램이다. 실리콘밸리 소재 기업에서 진행되는 글로벌 인턴십 과정은 지원 학생에게 글로벌 경험 및 '직무탐색의 기회'를 제공하고, 기업에게는 필요한 잠재 인력을 미리 경험하는 '인재탐색의 기회'를 제공한다는 측면에서 좋은 반응을 얻었다. 이 프로그램은 2024년에도 진행된다. ICT 학점연계 프로젝트 인턴십 사업 관계자와의 인터뷰를 통해 ‘2024년도 ICT 학점연계 프로젝트 인턴십’ 프로그램에 대해 알아봤다.

권순우 2023.12.25 00:25 PDT

데이터 없는 스마트시티는 깡통도시 : 어반풋프린트

스마트 시티(smart city). 도시의 물적, 인적 자원을 디지털적으로 연결하고 효율적으로 활용하는 도시를 뜻한다. 세계 각국이 물적 '성장'을 위한 도시에서 '지속가능성'으로 관점을 옮기면서 더 큰 화두로 떠올랐다. 이는 미국 등 선진국 뿐만은 아니다. 개발이 상대적으로 늦은 개발도상국도 '도시 개발'의 화두로 스마트시티를 내세우고 있다. 여기에 ESG가 화두로 떠오르면서 탄소 배출을 최소화할 수 있는 친환경 도시로서의 조건도 강화되는 추세다. 또 심각해진 기후 변화로 예측할 수 없는 가뭄, 태풍 등 자연 재해 대비의 필요성도 커졌다.문제는 인프라. 스마트 시티 인프라 구축에 큰 비용이 들어간다. 그만큼 효율성이 중요한데 한국의 서울과 수도권에서는 공공 대중교통 API를 구축해 버스 대기 시간, 차내 혼잡도 등 정보를 실시간으로 알려주는 것도 편리함 뿐만 아니라 효율성을 극대화해야하기 때문이다. 바르셀로나는 도시 곳곳에 IoT 센서를 설치해 도시의 기후, 소음, 교통체증 등 정보를 수집, 오픈소스로 공개한다. 실제 바르셀로나가 센서를 도입한 이후 가로등에 사용되는 에너지 사용량이 30% 줄었다. 이 외에도 스마트 시티를 만들기 위한 많은 아이디어들이 나온다. 그러나 신기술과 통신 기술 외에도, 스마트시티 구축을 위해서 필요한 것이 또 있다. 바로 데이터와 분석 능력이다. 이 도시가 갖고 있는 자원은 무엇인지, 취약점은 무엇인지를 파악해야 그에 맞는 도시 발전 계획을 세울 수 있다. 더밀크에서는 스마트시 티를 위한 데이터 플랫폼을 만드는 회사, 어반풋프린트(Urban Footprint)를 소개한다.

김영아 2022.05.31 15:06 PDT

진료∙치료기록, 보험 데이터를 한눈에 : 클래리파이 헬스

미국은 최첨단 의료기술을 보유한 국가지만, 의료 시스템적인 면에서는 ‘의료 후진국'이다. 말도 안되게 비싼 의료비와 민영 의료보험으로 인해 환자들은 금전적으로 큰 부담을 진다. 감기 때문에 병원을 한 번 방문하더라도 수십만 원이 청구되곤 한다.병원의 느린 업무속도도 환자에게 큰 불편을 준다. 병의 원인을 파악하거나 전문의를 찾아 치료를 받기 위해서 여러 번 병원을 방문하기도 한다. 이에 따른 추가 비용도 환자의 몫이다. 최근에는 의사뿐 아니라 간호사, 치과기공사 등 의료 인력 부족으로 인해 예약부터 진료를 받는 데 걸리는 시간도 길어졌다.환자들이 의료시설에서 겪는 불편은 의료 산업 전반에도 악영향을 미친다. 비효율적인 프로세스와 지나치게 많은 비용은 의료기관에 대한 불신으로 이어진다. 이는 장기적으로 기관의 이미지를 실추시킨다. 병원뿐 아니라 의료 연구기관과 제약회사도 간접적인 불이익을 받는다. 의료기관을 불신하게 된 환자들이 자신의 의료 데이터를 제공하지 않으려 하기 때문이다. 신약과 치료법 개발을 위해서는 충분한 의료 데이터가 필수인데, 데이터를 얻기 어려워지면 그만큼 의료 개발은 늦어질 수밖에 없다. 이 악순환을 해결하기 위한 열쇠로 ‘데이터'와 ‘투명성'을 내세운 기업이 있다. 바로 샌프란시스코의 헬스케어 스타트업 클래리파이 헬스(Clarify Health)다.

김영아 2022.04.26 15:36 PDT

데이터센터 냉각 기술도 ESG : 서브머

데이터는 급속도로 늘어나고 있다. 인터내셔널 데이터 코퍼레이션(IDC; International Data Corporation)은 2020년부터 2025년까지 새로운 데이터가 연평균 23% 성장해, 2025년에는 약 175제타바이트(ZB; Zettabyte)의 데이터가 생성될 것으로 예측했다. 1제타바이트는 약 1조 기가바이트에 해당하며, 이는 그동안 전세계에서 팔린 모든 아이폰(20억대 이상)의 데이터를 합친 것보다도 몇배나 많다. 얼마나 많은 데이터가 새롭게 생성되고 있는지 그야말로 가늠하기조차 힘든 수치다.이렇게 많은 데이터가 생성되는 이유는 무엇일까? 글로벌 테크 카운슬(Global Tech Council)은 “데이터 중심 사고방식 덕분에 이러한 변화가 가능하다"면서 "빅데이터 교육, 분석 기술 및 서비스에 대한 수요가 있기 때문”이라고 설명했다.데이터가 증가하면 데이터센터는 당연히 늘어날 수밖에 없다. 2021년 글로벌 인터넷 데이터 시장 보고서(Global Internet Data Centers Market Report)에 의하면 데이터의 폭발적인 증가로 인해 데이터센터의 시장 규모는 2027년 1434억 달러까지 치솟을 전망이다. 유럽연합 집행위원회(European Commission)에 따르면 2030년까지 데이터센터는 전 세계 전력의 약 8%를 소비할 것으로 예상된다.데이터센터에서는 구체적으로 어떤 일을 하는 걸까? 데이터센터는 방대한 데이터와 응용 프로그램을 저장, 처리, 배포할 수 있는 중앙 집중화된 시설이다. 조직의 가장 중요하고 독점적인 자산을 보유하고 있다고 볼 수 있다. 데이터센터는 조직의 모든 운영에 중추적인 역할을 맡게 되므로, 데이터센터에 고장이 발생하면 지속적인 운영을 하는데 큰 차질이 생기게 된다.데이터센터의 고장을 최소화하기 위해 반드시 필요한 건 냉각기술이다. 노트북을 오래 사용하다보면 노트북이 뜨거워지고 팬의 소리가 거칠어지는 것을 본 적이 있을 것이다. 기업체의 데이터센터는 비즈니스의 지속을 위해 연중무휴 24시간 운영되는 곳이 많다. 이때 데이터센터의 냉각이 충분히 이루어지지 않으면, 과열이 발생하고 이는 장비의 고장, 심각하게는 가동 중지로 이어진다.따라서 효과적인 데이터센터 냉각기술은 기업의 생산성, 기후 및 환경에 영향을 미치는 중요한 요소다. 오늘 소개하는 회사는 서브머(Submer)로 침수냉각 방식을 사용해 데이터 관리의 신뢰성을 높이고, 비용을 절감하는 솔루션을 제시한다.

황재진 2022.04.17 04:42 PDT

WALMART
DX

월마트 부활의 비결 : 개인화 기술에 집중 투자

코로나19 팬데믹 이후 모든 영역에서 디지털화가 급속도로 이뤄졌다. 일하고, 교류하고, 쇼핑하고, 미디어를 소비하는 방식이 완전히 달라졌다. 약 7년이 소요되는 디지털 발전을 팬데믹이란 외부요소로 인해 단 몇 개월 만에 달성한 셈이다. 그 과정에서 기업들은 전문가들의 예상보다 20~25배 더 빠르게 행동했다. PWC의 최신 글로벌 소비자 인사이트 전문가 의식 조사에 따르면, 응답자의 41%가 '매일 또는 매주 스마트폰으로 쇼핑한다'고 응답했다. 6개월 전에는 39%, 5년 전에는 12%에 불과했다. 모바일 쇼핑 비율은 이제 매장 쇼핑 비율과 비슷한 수준으로, 단 6%밖에 차이가 나지 않는다. 기업에게 이러한 소비자 행동 변화는 일시적 현상이 아니다. 글로벌 B2B 이커머스 시장 규모는 2028년까지 18.7%(CAGR) 성장할 것으로 전망되고 있다. 쇼핑 뿐만이 아니다. 전 분야에 거친 변화의 속도는 앞으로도 결코 늦춰지지 않을 것이란 게 업계 중론이다. 그렇다면 디지털 방식으로 재정의된 시대 속에서 기업들에게 가장 필요한 덕목은 무엇일까? 바로 '개인화 경험에 대한 투자'다. 이를 위한 대규모 기술 투자와 민첩한 대응방식, 직원경험 개선도 필요하다. 어도비가 최근 발간한 '2022 디지털 트렌드 보고서'에서는, 앞으로 기업들은 생존하기 위해 고객 경험을 중심으로 기업 운영을 전면 개선해야 한다고 조언한다.

Juna Moon 2022.03.05 19:52 PDT

우리가 정말 '빅데이터' 했을까?

안녕하세요. 실리콘밸리의 스타트업 전도사, 더밀크 스타트업 포커스입니다.‘빅데이터’가 세상의 관심을 끌기 시작한지 10년이 넘었습니다. 빅데이터는 모두에게 익숙한 용어이고 데이터는 모든 조직이 가장 원하는 자원이 됐습니다. 구글, 아마존, 넷플릭스, 애플, 메타 등의 빅테크 기업이 이 시대를 주도하는 이유는 바로 '데이터' 때문일 것입니다. 세상이 디지털화됨에 따라 산업을 가리지 않고 데이터 역량을 강화하고 있습니다. 데이터와 거리가 멀어 보이는 제조업 또한 ‘인더스트리 4.0'을 통해 기업을 디지털화하고 빅데이터를 적극 활용하고 있습니다.하지만 핵심 자원인 데이터는 그 자체로서는 아무런 의미가 없습니다. 또 실제로 빅데이터를 하고 있냐고 물어본다면 어떻게 해야할지 잘 모르는 경우가 많습니다. 빅데이터 하면 데이터 과학자나 전문가만이 다룰 수 있는 영역이라고 생각합니다. 전문가도 없이 여전히 테크니션에 의존해 형식적, 피상적 데이터 분석만 하고 있는 기업도 있습니다.빅데이터 분석의 주된 목적은 개인 또는 조직의 의사 결정에 도움이 되는 통찰력을 얻는 것입니다. 즉 데이터를 바탕으로 올바른 의사 결정을 지원하는 것이죠. 방대한 데이터를 수집한들 데이터가 말하고자 하는 맥락, 의미 등을 파악하지 못하고 이를 시의적절하게 판단해 활용하지 않는다면 무용지물입니다. 한편 빅데이터 산업은 대중화의 길에 들어섰습니다. 세상에 데이터 분석 전문가는 많고 분석을 위한 솔루션과 툴은 넘쳐납니다. 이 때문에 빅데이터 기술 자체의 혁신보다 사용자 중심의 효율성을 추구하고 처리 데이터의 확대 등 기술 고도화 단계로 진화 중입니다. 실행 가능한 인사이트를 얻는 빅데이터의 본연의 목표를 달성하기 위해 지금 빅데이터 솔루션 업체들은 어떤 가치를 제공하고 있을까요? 오늘 스타트업 포커스에서는 프로메시움, 팝SQL, 스타버스트에 대해서 알아보도록 하겠습니다.

김영아 2022.02.23 14:35 PDT

데이터 접근성·효율성·속도 높인 분석 엔진: 스타버스트

미국 보스턴에 있는 스타트업 스타버스트(Starburst)는 데이터 분석 엔진을 제공하는 업체다. 스타버스트의 분석 엔진을 이용하는 기업들은 데이터에 빠르게 접근할 수 있고, 분산 데이터를 효율적으로 활용하면서 전반적인 비용을 절감 효과를 경험할 수 있다는 것이 장점이다. 스타버스트의 데이터 분석 엔진은 데이터가 어디에 있든, 어떤 형태로 나타나든 액세스가 가능한 실시간 분산 쿼리 엔진을 제공한다. 결과적으로 데이터 분석 담당자들이 모든 데이터에 대해 빠르게 분석할 수 있는 환경을 제공하는 한편, 이를 기반으로 기업의 성과 개선을 위한 신속한 결정을 내리는데도 도움을 준다. 스타버스트는 현재 300여 명의 직원들이 근무하고 있다. 컴캐스트 VM웨어, 버라이즌 등 150여 개 기업들이 스타버스트의 서비스를 사용하면서 기술력을 인정받고 있다.

김주예 2022.02.22 11:54 PDT

비전문가도 쉽고 빠르게 빅데이터 분석: 프로메시움

프로메시움(Promethium)은 실시간으로 데이터 기반 의사 결정을 지원하는 빅데이터 솔루션이다. 이 회사는 기존 솔루션 대비 분석 단계를 최소화하고 자연어 검색과 분석을 빅데이터 분석 영역에 포함시켰다. 기존 ETL(Extraction, Transformation, Loading) 분석 방식의 비효율적인 측면을 제거하고 사용자 중심의 인터페이스로 데이터 소스에 연결, 몇 분 안에 데이터 분석 결과를 얻을 수 있는 것이 특징이다. 프로메시움은 이런 차별화를 통해 빠르게 고객을 확보하고 있으며 지난 2월 8일 2600만달러의 시리즈A 투자 유치에 성공했다.

Youngjin Yoon 2022.02.21 12:08 PDT

BIGDATA

원격으로 데이터 공유·편집: 팝SQL

훌륭한 소프트웨어는 개발자 한 사람의 노력만으로 만들어지지 않는다. 개발자 외에도 프로젝트 매니저, 마케터, 데이터 분석가 등 여러 구성원들이 프로젝트 성공을 위해 토론하고 협업하면서 만들어진다.이를 위해서는 좋은 동료들도 필요하지만, 좋은 동료들과 협업하기 위한 '툴'의 중요성을 빼놓을 수 없다. 특히 데이터를 관리하고 분석할 때는 그 필요성이 배가 된다. 잘 관리되고 분석된 데이터는 기존 서비스의 퍼포먼스를 평가하고, 서비스를 개선할 수 있는 지표가 되기 때문이다. 이를 위해 팀원들이 서로 데이터를 공유하고, 쿼리를 짜고, 분석할 수 있는 도구가 필요하다.최근 팀 협업에 특화된 SQL 데이터 분석 도구를 개발하는 스타트업이 있다. 바로 샌프란시스코에 본사를 둔 팝SQL(PopSQL)이다. 팝SQL은 스타트업 액셀러레이터(창업육성기관)인 'Y콤비네이터'가 양성한 회사다.

김영아 2022.02.21 09:13 PDT

GM
BIGDATA

빅테크 규제 나비효과? ... 강력한 무기된 고객 정보 / 사명 변경이 유행? / 다 만드는 GM

최근 기업들과 마케팅 부서들이 개인 정보 수집에 열중하고 있다고 합니다. 2일(현지시각) 월스트리트저널(WSJ)에 따르면 기업의 마케팅 부서 등은 고객의 자세한 개인 정보와 프로필 등을 수집하기 위해 각종 경품 이벤트나 퀴즈 대회 등을 준비하고 있다고 합니다. 주류 브랜드인 밀러 하이 라이프는 지난여름 온라인 콘테스트를 통해 브랜드 패티오 세트를 증정했는데요. 승자들에게 바, 의자, 네온사인 등을 제공했습니다. 이 행사를 통해 회사는 4만 명의 개인정보를 수집할 수 있었다고 합니다. 밀러의 모회사인 몰슨 쿠어스 비버리지는 올해만 300건 이상의 경품 행사와 이벤트를 통해 데이터를 수집하고 있습니다. 이 회사뿐만이 아닙니다. 스포츠 용품 판매업체인 딕스 스포팅 굿스는 지난 2020년 850만 명의 새로운 로열티 프로그램 회원과 운동선수 데이터를 추가했습니다. 이 회사는 2000만 명 이상의 충성도 회원을 보유하고 있다고 하는데요. 회원 프로필에는 최대 325가지 고객의 특성이 담긴 데이터를 포함하고 있다고 합니다. 펩시코 역시 최근 들어 데이터 수집에 각별한 신경을 쓰고 있는데요. 7500만 고객 기록을 보유한 이 회사는 2년 안에 이 수치를 두 배로 늘릴 계획이라고 WSJ는 전했습니다.👉빅테크 규제가 가져온 나비효과 데이터에 대한 중요성은 이미 오래전부터 강조되어 왔는데요. 유독 최근 미국 기업들이 더 고객 데이터 수집에 목을 매는 이유는 어디에 있을까요. 빅테크발 규제가 가져온 '나비효과'라고 표현할 수 있을 것 같습니다. 미국 정부의 개인정보보호 정책이 강화되고 엄청난 고객 데이터를 보유한 기업들의 데이터 활용에 규제가 뒤따르고 있기 때문입니다. 그간 기업들은 온라인 광고를 위해 페이스북과 같은 소셜미디어나 광고 기술회사 등 비즈니스 파트너가 보유한 데이터에 의존해왔는데요. 빅테크 기업들이 정책을 바꾸면서 데이터 활용이 어려워졌습니다. 가령 애플은 올해 개인정보 보호를 위해 사용자에게 추적 허용하는지 여부를 묻고 있는데요. 모바일 앱 분석업체 플러리에 따르면 애플 사용자들의 18%만이 이를 허용하고 있습니다. 결론적으로 페이스북을 포함한 주요 앱이 플랫폼 상에서 광고 타겟팅을 할 수 있는 데이터가 줄어드는 셈입니다. 실제 메타 플랫폼은 최근 분기의 매출 성장에 타격을 입었습니다. 구글 역시 크롬 브라우저에서 비슷한 정책을 추진할 계획입니다. 오는 2023년 말까지 구글은 사용자 개인정보 보호를 위해 크롬 브라우저 내 타사 쿠키의 접근을 막는 정책을 시행할 계획입니다. 이런 트렌드가 확산되면 결국 빅테크 플랫폼의 데이터를 사용하는 비용이 급격하게 늘어날 수밖에 없을 텐데요. 이 때문에 기업들이 자체적으로 자신들을 위한 고객 정보를 모으는데 열을 올리고 있는 겁니다. 업계에서는 다소 시간이 걸리더라도 장기적으로는 회사에 긍정적인 요소가 될 것으로 기대하고 있는데요. 샤이암 베누고팔 펩시코 글로벌 미디어 부분 수석 부사장은 WSJ와의 인터뷰에서 "자체 데이터를 통해 수천만 달러를 절약할 수 있었다"며 "캠페인을 전개할 때도 올바른 청중에게 도달하는 데 더욱 효과적"이라고 덧붙였습니다.

권순우 2021.12.02 13:30 PDT