ETL: 텍스트에서 사람 이름 추출

첫 장 > 프로그램 작성 > ETL: 텍스트에서 사람 이름 추출

ETL: 텍스트에서 사람 이름 추출

2024-11-07에 게시됨

검색:961

chicagomusiccompass.com.

을 스크래핑한다고 가정해 보겠습니다.

보시다시피 카드에는 여러 장의 카드가 있으며 각각은 이벤트를 나타냅니다. 이제 다음 항목을 확인해 보겠습니다.

ETL: Extracting a Person

이벤트 이름은 다음과 같습니다.


jazmin bean: the traumatic livelihood tour

이제 질문은 다음과 같습니다. 텍스트에서 아티스트 이름을 어떻게 추출합니까?

인간으로서 저는 Jazmin Bean이 아티스트라는 것을 "쉽게" 알 수 있습니다. 위키 페이지를 확인해 보세요. 하지만 해당 이름을 추출하는 코드를 작성하는 것은 까다로울 수 있습니다.

"야, : 앞에는 아티스트 이름이 와야지"라고 생각할 수도 있겠네요. 참 영리해 보이죠? 이 경우에는 작동하지만 다음 경우는 어떻습니까?


happy hour on the patio: kathryn & chris

여기서 순서가 뒤집어졌습니다. 다양한 사례를 처리하기 위해 논리를 계속 추가할 수 있지만 곧 취약하고 모든 것을 다루지는 못할 수많은 규칙이 탄생하게 될 것입니다.

여기서 명명된 엔터티 인식(NER) 모델이 유용합니다. 오픈 소스이며 텍스트에서 이름을 추출하는 데 도움이 될 수 있습니다. 모든 사건을 포착할 수는 없지만 대부분의 경우 필요한 정보를 얻을 수 있습니다.

이 접근 방식을 사용하면 추출이 훨씬 쉬워집니다. 저는 Python의 머신러닝 관련 커뮤니티가 매우 훌륭하기 때문에 Python을 사용하겠습니다.


from gliner import GLiNER

model = GLiNER.from_pretrained("urchade/gliner_base")

text = "jazmin bean: the traumatic livelihood tour"
labels = ["person", "bands", "projects"]
entities = model.predict_entities(text, labels)

for entity in entities:
    print(entity["text"], "=>", entity["label"])

출력을 생성하는 방법은 다음과 같습니다.


jazmin bean => person

이제 다른 사례를 살펴보겠습니다.


happy hour on the patio: kathryn & chris

산출:


kathryn => person
chris => person

소스-GLiNER

멋지죠? 이름을 추출하는 지루한 논리는 더 이상 필요하지 않습니다. 모델을 사용하면 됩니다. 물론 가능한 모든 경우를 다룰 수는 없지만 내 프로젝트에서는 이 수준의 유연성이 잘 작동합니다. 더 높은 정확성이 필요한 경우 언제든지 다음을 수행할 수 있습니다.

다른 모델을 사용해 보세요
기존 모델에 기여
프로젝트를 포크하고 필요에 맞게 조정

결론

소프트웨어 개발자로서 기계 학습 공간의 도구에 대한 최신 정보를 지속적으로 얻는 것이 좋습니다. 단순한 프로그래밍과 논리만으로 모든 것을 해결할 수는 없습니다. 모델과 통계를 사용하면 일부 문제를 더 잘 해결할 수 있습니다.

릴리스 선언문 이 글은 https://dev.to/garciadiazjaime/etl-extracting-a-persons-name-from-text-ahl?1에서 복제됩니다.1 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.

최신 튜토리얼 더>

구문 강조 표시시 RichTextBox 깜박임을 제거하는 방법은 무엇입니까?
RichTextBox Syntax 하이라스 강조 강조 using System; using System.Windows.Forms; using System.Runtime.InteropServices; class MyRichT...

프로그램 작성 2025-04-17에 게시되었습니다
Java는 SimpledateFormat을 사용하여 'Z'를 사용하여 날짜 방법을 구문 분석합니다.
'Z'리터럴로 날짜를 파싱하기에 충분하지 않습니다. 이 동작은 'z'문자가 UTC를 명시 적으로 나타내기 때문에 반 직관적 인 것처럼 보일 수 있습니다. 그러나 Java 7 이상에서 "yyyy-mm-dd't'...

프로그램 작성 2025-04-17에 게시되었습니다
Object-Fit : IE 및 Edge에서 표지가 실패, 수정 방법?
이 문제를 해결하기 위해 문제를 해결하는 영리한 CSS 솔루션을 사용합니다. -50%); 높이 : 100%; 너비 : 자동; // 수직 블록의 경우 높이 : 자동; 너비 : 100%; // 수평 블록의 경우 이 조합은 절대 포지셔닝을 사용하여 중앙에서 ...

프로그램 작성 2025-04-17에 게시되었습니다
MySQL 오류 #1089 : 잘못된 접두사 키를 얻는 이유는 무엇입니까?
오류 설명 [#1089- 잘못된 접두사 키 "는 테이블에서 열에 프리픽스 키를 만들려고 시도 할 때 나타날 수 있습니다. 접두사 키는 특정 접두사 길이의 문자열 열 길이를 색인화하도록 설계되었으며, 접두사를 더 빠르게 검색 할 수 있습니...

프로그램 작성 2025-04-17에 게시되었습니다
MySQL에서 데이터를 피벗하여 그룹을 어떻게 사용할 수 있습니까?
select d.data_timestamp, sum (data_id = 1 that data_value else 0 End), 'input_1'로 0 End), sum (data_id = 2 an Els.] d.data_timestamp ...

프로그램 작성 2025-04-17에 게시되었습니다
HTML5 내비게이션 요소에 대한 자세한 설명
키 테이크 아웃 내비게이션 링크 그룹을 나타내는 HTML5 NAV 요소는 스크린 리더가 사이트 탐색을 건너 뛰고 시각 장애가있는 사람들을위한 사용자 경험을 향상시킬 수 있으므로 웹 사이트 접근성을 향상시키는 데 중요한 도구입니다. NAV 요소는 단일 페이...

프로그램 작성 2025-04-17에 게시되었습니다
Java는 여러 반환 유형을 허용합니까 : 일반적인 방법을 자세히 살펴보십시오.
public 목록 getResult (문자열 s); 여기서 foo는 사용자 정의 클래스입니다. 이 방법 선언은 두 가지 반환 유형을 자랑하는 것처럼 보입니다. 목록과 E. 그러나 이것이 사실인가? 일반 방법 : 미스터리 메소드는 단일...

프로그램 작성 2025-04-17에 게시되었습니다
Goji 프레임 워크에서 HTML 양식 입력을 구문 분석하는 방법은 무엇입니까?
다음 코드 스 니펫은 Goji에서 이것을 구현하는 방법을 보여줍니다 : func hello (c web.c, w http.responsewriter, r *http.request) {. // 양식을 구문 분석합니다 err : = r.parsefo...

프로그램 작성 2025-04-17에 게시되었습니다
C ++ 내장 유형에 실제로 기본 생성자가 있습니까?
내장 유형은 C? "아니오" 추론 내장 유형은 전통적인 의미에서 생성자를 선언하지 않았습니다. 그러나 생성자 호출과 유사한 구문을 사용하여 초기화 할 수 있습니다. 이 초기화는 다음과 같이 나타납니다. int x0(5); //...

프로그램 작성 2025-04-17에 게시되었습니다
익명의 JavaScript 이벤트 처리기를 깨끗하게 제거하는 방법은 무엇입니까?
익명 이벤트 리스너를 제거하는 데 익명의 이벤트 리스너 추가 요소를 추가하면 유연성과 단순성을 제공하지만 유연성과 단순성을 제공하지만 제거 할 시간이되면 요소 자체를 교체하지 않고 도전 할 수 있습니다. 요소? element.addeventListene...

프로그램 작성 2025-04-17에 게시되었습니다
HTML 요소의 실제 너비 및 높이 방법의 비밀을 드러냅니다.
요소 속성을 사용하여 .offseteight 속성은 각각 요소의 실제 너비와 높이를 나타냅니다. 이러한 속성은. 스타일 객체가 아닌 요소의 일부입니다. const width = document.getElementByid ( 'foo...

프로그램 작성 2025-04-17에 게시되었습니다
와일드 카드 수입을 사용하는 것이 옳습니까?
와일드 카드 수입을 피하는 사례 자격을 갖춘 이름은 바 레나 이름보다 선호됩니다. pyqt4 import qt가 아닌 pyqt4.qtcore import qt와 같은 구문을 사용하여 가져 오는 모듈을 명시 적으로 지정하는 것이 좋습니다. 자격을 갖춘 이름을 사...

프로그램 작성 2025-04-17에 게시되었습니다
React+Vite+TS 프로젝트에서 Vitest, MSW 및 극작가 구성 - 파트 3
Playwright는 웹 앱에 대한 프레임 워크 공유 엔드 투 엔드 테스트 (E2E 또는 통합 테스트) 도구입니다. Playwright는 훌륭한 개발자 경험을 보유하고 있으며 변화를 간단하게 변경하기에 좋은 글쓰기와 탄력적입니다. 1. 극작가를 설치하...

프로그램 작성 2025-04-17에 게시되었습니다
단일 SQL 쿼리로 Varchar 필드의 크기를 얻는 방법은 무엇입니까?
구문 : select table_schema.columns where table_name = 'mytable' 설명 : information_schema.columns :이 테이블은 데이터베이스의 모든 열에 ...

프로그램 작성 2025-04-17에 게시되었습니다
관리되지 않는 C ++ 클라이언트는 WCF 서비스와 어떻게 통신합니까?
1. 엔드 포인트 인터페이스 및 클래스 생성 : WCF 서비스에 대한 C# 인터페이스 (IHELLOSERVICE) 및 해당 구현 클래스 (helloService)를 정의합니다. 2. Windows NT 서비스를 작성하십시오 : WCF 서비스...

프로그램 작성 2025-04-17에 게시되었습니다