Una nova DBNet difusa per a la segmentació d'imatges mèdiques Part 1
Sep 15, 2023
Resum:Quan els metges estan cansats, sovint cometen errors de diagnòstic. De la mateixa manera, els farmacèutics també poden cometre errors en la dispensació de medicaments. Per tant, la segmentació d'objectes té un paper vital en moltes àrees relacionades amb la salut, com l'anàlisi de símptomes en imatges biomèdiques i classificació de fàrmacs. Tanmateix, molts algorismes tradicionals d'aprenentatge profund utilitzen una única vista d'una imatge per a la segmentació o la classificació. Quan la imatge és borrosa o incompleta, aquests algorismes no aconsegueixen segmentar l'àrea patològica o la forma dels fàrmacs amb precisió, cosa que pot afectar els plans de tractament posteriors. En conseqüència, proposem el Fuzzy DBNet, que combina la xarxa de papallona dual i l'ASPP difusa en una xarxa d'aprenentatge profund i processa imatges dels dos costats d'un objecte simultàniament. Els nostres experiments van utilitzar conjunts de dades de raigs X de pulmó i píndoles de diverses categories per a l'entrenament. El coeficient mitjà de Daus del nostre model proposat va assolir el 95,05% en la segmentació de múltiples pastilles i el 97,05% en la segmentació pulmonar. Els resultats van mostrar que el nostre model proposat va superar altres xarxes d'última generació en ambdues aplicacions, demostrant que el nostre model pot utilitzar múltiples vistes d'una imatge per obtenir la segmentació o la identificació de la imatge.
Cistanche pot actuar com a potenciador antifatiga i resistència, i els estudis experimentals han demostrat que la decocció de Cistanche tubulosa podria protegir eficaçment els hepatòcits del fetge i les cèl·lules endotelials danyades en ratolins nedadors que suporten pes, regular l'expressió de NOS3 i promoure el glicogen hepàtic. síntesi, exercint així una eficàcia antifatiga. L'extracte de Cistanche tubulosa ric en glucòsids feniletanoides podria reduir significativament els nivells de creatina cinasa sèrica, lactat deshidrogenasa i lactat, i augmentar els nivells d'hemoglobina (HB) i glucosa en ratolins ICR, i això podria tenir un paper antifatiga disminuint el dany muscular. i retardar l'enriquiment de l'àcid làctic per a l'emmagatzematge d'energia en ratolins. Les pastilles compostes de Cistanche Tubulosa van allargar significativament el temps de natació amb pes, van augmentar la reserva de glucogen hepàtic i van disminuir el nivell d'urea sèrica després de l'exercici en ratolins, mostrant el seu efecte antifatiga. La decocció de Cistanchis pot millorar la resistència i accelerar l'eliminació de la fatiga en els ratolins que fan exercici, i també pot reduir l'elevació de la creatina cinasa sèrica després de l'exercici de càrrega i mantenir la ultraestructura del múscul esquelètic dels ratolins normal després de l'exercici, cosa que indica que té els efectes. de millorar la força física i anti-fatiga. Cistanchis també va allargar significativament el temps de supervivència dels ratolins enverinats per nitrits i va millorar la tolerància a la hipòxia i la fatiga.

Feu clic a fatiga extrema
【Per a més informació:george.deng@wecistanche.com / WhatsApp:8613632399501】
1. Introducció
Hi ha hagut nombrosos casos en què la segmentació d'imatges en medicina s'ha implementat principalment perquè la interpretació d'imatges mèdiques a partir de TC i ressonància magnètica requereix un coneixement mèdic substancial i temps. A més, les estadístiques revelen que els errors mèdics contribueixen a la mort de 7.000 a 9.000 persones cada any als Estats Units [1]. Per tant, per abordar aquests problemes, s'han proposat diverses solucions tecnològiques. Per exemple, la U-Net desenvolupada per Ronneberger et al. [2] s'utilitza en la segmentació d'imatges biomèdiques. El DoubleU-Net emprat per Debesh Jha et al. [3] s'utilitza en procediments com la colonoscòpia. Es basa principalment en U-Net i VGG-19, compost per dos codificadors i descodificadors. De la mateixa manera, Chin et al. [4] utilitzeu l'algoritme d'aprenentatge profund Mask R-CNN per segmentar les cordes vocals i les regions de la glotis dels vídeos de la laringe, ajudant els metges en el diagnòstic i el tractament.
Entre el reconeixement d'imatges pulmonars, Jakub et al. va assenyalar que els resultats de les imatges de raigs X de lesions de la malaltia són fàcilment ocluses pels vasos sanguinis. Tot i que els mètodes d'aprenentatge automàtic per al reconeixement d'imatges pulmonars poden ajudar a reduir la càrrega del personal mèdic, la seva precisió és només del 91% [5]. A més, el model d'aprenentatge profund per a la identificació de malalties pulmonars ha demostrat ser superior als mètodes tradicionals d'aprenentatge automàtic [6,7]. Per tant, hem utilitzat l'aprenentatge profund per al reconeixement d'imatges. En el cas de la toracostomia de pneumotòrax, el metge ha de mirar la imatge de raigs X del tòrax per trobar la línia pleural translúcida que sobreposa les costelles. Com que aquesta imatge és propensa a desdibuixar-se per la superposició de teixits, el reconeixement tradicional d'imatges no és efectiu [8], sobretot perquè l'aire s'acumula a la part frontal del cos en lloc de la part superior, cosa que dificulta la interpretació de les àrees del pneumotòrax per als metges. Com que els símptomes inicials de moltes lesions pulmonars no són evidents i els pulmons tenen característiques patològiques complexes [9], molts estudiosos han proposat mètodes d'aprenentatge profund per millorar la precisió i l'eficiència del diagnòstic [10]. Laura et al. [11] van proposar una xarxa complexa per al reconeixement d'imatges pulmonars, i el seu experiment va mostrar una gran precisió per al reconeixement de textures. En conseqüència, un mètode de xarxa complex pot extreure funcions importants. Alhassan et al. [12] va utilitzar el mètode d'aprenentatge conjunt per detectar pneumònia en imatges de raigs X de tòrax amb una taxa de precisió millorada del 93%. A partir de les característiques d'aprenentatge del conjunt, el mètode s'utilitza per millorar la precisió de la identificació del model. Mohammad et al. [13] va proposar un model d'aprenentatge profund per ajudar a la detecció precoç de COVID-19, que va ajudar el personal mèdic a reduir la seva càrrega de treball. Per a la segmentació de la imatge pulmonar, Feidao et al. [14] va proposar un mecanisme d'atenció de tres terminals per ressaltar l'àrea objectiu automàticament i millorar el rendiment de la segmentació pulmonar. Com a resultat, s'utilitza un mòdul de porta d'atenció per millorar l'efecte d'entrenament del model. Tanmateix, aquests models no van utilitzar completament les imatges de raigs X del tòrax. Hi ha dues maneres de prendre imatges de raigs X pulmonars: anteroposterior i posteroanterior. Es prenen radiografies pulmonars anteroposteriors de la cavitat toràcica; Les radiografies del pulmó posteroanterior es prenen des de l'esquena. Els models d'aprenentatge profund existents només poden introduir una imatge alhora per al reconeixement [15]. Per tant, és possible que el model no pugui identificar la ubicació de la lesió, ja que només s'introdueix un costat de la imatge de raigs X [16]. En conseqüència, hem utilitzat mètodes d'aprenentatge profund per a la identificació d'imatges pulmonars.

Entre el reconeixement d'imatges de píndoles, la majoria dels mètodes de classificació existents només es basen en informació d'una sola cara, però en alguns casos, molts tipus de píndoles no es poden classificar. Per exemple, el mateix tipus de píndola pot tenir diferents formes quan es veu des de diferents angles; algunes píndoles poden tenir lletres només en un costat; i aquells amb formes i colors similars també poden suposar un repte. En aquests casos, és possible que el model no pugui classificar un grup de píndoles amb precisió. A causa de la pandèmia, un gran nombre de persones acudeixen als hospitals cada dia, provocant un augment substancial de l'ús de píndoles i errors mèdics [17,18]. Per abordar aquests problemes, Ou et al. [19] va proposar una arquitectura d'aprenentatge profund en dues etapes per detectar i, posteriorment, classificar 1000 tipus de píndoles. A més, millorar el coneixement dels medicaments i proporcionar als pacients la informació adequada s'han convertit en problemes importants per evitar el malbaratament de medicaments i els efectes secundaris nocius [20]. Tanmateix, la identificació de píndoles basada en l'aparença segueix sent una tasca descoratjadora per als pacients. Wang et al. [21] va utilitzar la xarxa d'inici de GoogLeNet per entrenar l'arquitectura d'aprenentatge profund i les tècniques de millora de la imatge centrant-se en el color, la forma i les marques, però només pot identificar un sol tipus de píndola, que és el seu gran defecte. La identificació simultània de múltiples tipus de píndoles pot satisfer millor les necessitats del públic. En el camp de la segmentació d'imatges de píndoles, Kwon et al. [22] van utilitzar Mask R-CNN, i els conjunts de dades d'entrenament que van utilitzar contenien només 27 tipus de píndoles, cadascuna de les quals tenia diferents formes i colors. En realitat, però, molts més tipus de píndoles tenen un aspecte similar. Per adaptar-se a les necessitats del món real, es van utilitzar 93 tipus de píndoles per entrenar el nostre model. Tenien formes i colors similars i variaven principalment en diferents empremtes, fent que el nostre model fos més aplicable a les necessitats clíniques. En la detecció d'objectes de píndola, Lu et al. [23] va proposar molts mètodes de detecció d'objectes. Tot i que aquests models van detectar la posició de les píndoles, el mapa és només del 87%. A més, els estudiosos anteriors no han abordat de manera efectiva els problemes en la identificació de píndoles, inclosa la seva col·locació aleatòria i la presència de múltiples píndoles en una imatge. L'angle de rotació de la píndola també és difícil de determinar i estandarditzar per a cada classe de píndola.
Per a la visió per ordinador, altres casos utilitzen vehicles aeris no tripulats (UAV) combinats amb aprenentatge profund, Keiller et al. [24] va estudiar la classificació de plantes des de perspectives espacials i espectrals utilitzant imatges RGB i UAV espectrals basades en la tecnologia 2D-CNN.
Els mètodes actuals per a la segmentació d'imatges utilitzen principalment una sola imatge com a entrada. Quan s'introdueix una imatge única de baixa qualitat al model, sorgeixen problemes amb la segmentació i la classificació d'objectes imprecises. En l'àmbit mèdic, a causa de les complexes característiques de les imatges, Akinobu et al. [25] va proposar BtrflyNet per identificar metàstasis òssies, que poden acceptar dues imatges d'entrada simultàniament. Els resultats experimentals van indicar que pot millorar la taxa d'èxit de l'entrenament del model. Tanmateix, aquest model només és aplicable a les imatges de metàstasi òssia. A partir d'aquest document, hem millorat el BtrflyNet per proposar Fuzzy DBNet, que ha aconseguit excel·lents resultats en el reconeixement d'imatges de píndoles i de pulmó.
2. Materials i Mètodes
2.1. Conjunts de dades
En aquest article, es van utilitzar conjunts de dades de raigs X del tòrax i píndoles. Les dades de raigs X de tòrax es van obtenir del conjunt de dades de raigs X de tòrax del NIH [26] que contenia 112.120 imatges, de les quals vam extreure 72.324 vistes tant anteroposterior (AP) com posteroanterior (PA) dels mateixos pacients. A continuació, vam emparellar les imatges AP amb les seves imatges PA corresponents, donant com a resultat un total de 267.105 parells AP-PA després de l'augment.

El conjunt de dades de píndoles consta de 93 categories amb un total de 1238 imatges: rodones, ovalades, rectangulars, triangulars i de diferents colors. Per capturar les dues cares de cada píndola, es van prendre imatges després que les píndoles s'escampessin en un tauler transparent i es van fotografiar directament des de dalt i baix. El conjunt de dades es va dividir en un 80% per a la formació, un 10% per a proves i un 10% per a la validació. Per millorar la precisió del model, vam aplicar l'esquema AutoAugment [27] per discretitzar cada magnitud d'operació (M) a partir de [0, 10] per augmentar les dades, donant lloc a un conjunt de dades augmentat de 2476 imatges.
El conjunt de dades va ser la limitació més significativa del nostre model. En primer lloc, les nostres imatges d'entrada havien de ser de doble cara, no només imatges generals, sinó també imatges que penetraven objectes, com ara els raigs X. En segon lloc, es requerien correspondències fixes de les posicions dels objectes a les imatges. Per solucionar-ho, el nostre equip va fer esforços per alinear les posicions de les píndoles entre les seves imatges de doble cara durant la recollida del conjunt de dades.
És important tenir en compte que el conjunt de dades de raigs X de pulmó utilitzat en aquest estudi va ser proporcionat pel NIH, mentre que el conjunt de dades de la píndola va ser capturat per la fotografia del nostre equip.
2.2. Preprocessament de dades
Per ajudar els farmacèutics en la classificació de les píndoles, es van anotar 93 tipus de píndoles. Hem utilitzat l'anotador d'imatges VGG [28] per etiquetar cadascun amb el seu nom en 93 categories diferents. Vam etiquetar la vora de la píndola i vam convertir les dades etiquetades en un fitxer JSON com a veritat bàsica de les dades d'entrenament. L'algoritme de preprocessament es pot trobar a l'algoritme A1.

2.3. DBNet difusa
Aquest article proposa una nova arquitectura d'aprenentatge profund, Fuzzy Double-Butterfly Network (DBNet), en la qual es poden introduir dues imatges amb propietats complementàries per dur a terme la segmentació d'imatges. Es compon principalment de tres parts: l'arquitectura de codificador-descodificador de doble papallona, el bloc Fuzzy Atrous Spatial Pyramid Pooling (ASPP) i una porta d'atenció, tal com es mostra a la figura 1.
Es va utilitzar un VGG 19 entrenat per codificar la primera arquitectura de papallona per extreure funcions d'imatge per estalviar temps d'entrenament i evitar un sobreajust. Entre els dos codificadors i descodificadors en forma de papallona, hi havia dos blocs concatenats que connectaven dos conjunts de blocs Fuzzy ASPP, intercanviant així les diferents característiques de les imatges. Aleshores, el resultat inicial de la primera arquitectura en forma de papallona es va multiplicar amb la imatge original, tal com es mostra al bloc de multiplicació de la figura 1. Això va millorar la gravetat específica de la característica per aconseguir una segmentació més precisa. L'algoritme Fuzzy DBNet es pot trobar a l'algoritme A2.
Fuzzy ASPP va combinar ASPP amb la teoria difusa i es va col·locar entre el codificador i el descodificador de les dues xarxes de tipus papallona. La figura 2 mostra l'estructura de Fuzzy ASPP.

A la part Fuzzy Pooling, es va utilitzar una funció de pertinença en forma de campana per completar l'operació i els resultats de cada pegat d'agrupació es van ajustar dinàmicament. L'algoritme A3 mostra l'algoritme d'ajust dinàmic. L'objectiu principal era reduir la proporció de la característica influenciada pels factors d'incertesa. L'algoritme Fuzzy ASPP es pot trobar a l'algoritme A4.
A les connexions de salt, es va utilitzar un mecanisme d'atenció per eliminar les respostes sorolloses i irrellevants mitjançant l'ús de característiques extretes de mapes de característiques més gruixuts. Va reduir eficaçment el soroll i les funcions innecessàries del model i va millorar el seu rendiment i precisió. La figura 3 mostra l'estructura de la porta d'atenció.

3. Resultat
3.1. Configuració de l'experiment
La validació de l'entrenament i les proves del model proposat es van fer en un ordinador amb una CPU 8-nucli (Intel Xeon W-3223), 64 GB de memòria, una GPU (RTX 3090) amb 24 GB de memòria gràfica, i 10.496 nuclis CUDA. La implementació es va fer mitjançant el framework PyTorch. La taula 1 mostra els hiperparàmetres utilitzats per a tots els experiments.

La funció de pèrdua total (LDC) combina la pèrdua mitjana de daus (LavgDice) amb la pèrdua d'entropia creuada categòrica (LCCE) i es calcula de la següent manera:

on N és el nombre de mostres i C és el nombre de classes. Com que la sortida de la xarxa eren imatges multiclasse, vam calcular el LCCE mitjançant l'equació (3). A continuació, vam calcular el LDice per a cada classe mitjançant l'equació (2). Va ser possible eliminar tots els píxels del Ppred que no estaven actius al Ptrue. Per als píxels activats, les prediccions de baixa confiança es van penalitzar majoritàriament, mentre que els valors de predicció més alts van obtenir coeficients de Daus més alts. Per tant, el model va aprendre objectes de diferents classes i mides mitjançant LDice i LCCE.
3.2. Índex d'avaluació del rendiment
En aquest estudi, hem utilitzat tres mètriques per avaluar el rendiment del model: precisió en funció dels píxels, coeficient mitjà de daus (Dice) i intersecció mitjana sobre Union (me). Aquests indicadors es mostren a la fórmula següent.

on Xi denota els valors de veritat fonamentals i Yi els valors predits. El TP, FP, TN i FN representen els números de casos de veritables positius, falsos positius, veritables negatius i falsos negatius, respectivament. La precisió de píxels va mesurar el percentatge de píxels correctament identificats a la imatge; la puntuació de Daus mesurava la superposició entre la segmentació prevista i la veritat del terreny; i mIoU va mesurar la segmentació prevista amb la veritat terrestre. Aquestes mètriques es van triar perquè proporcionaven una visió completa del rendiment del model i permetien comparacions significatives amb altres models del camp. Els valors més alts d'aquestes mètriques indicaven un millor rendiment del model.
3.3. Segmentació d'imatges de raigs X pulmonars
Hem realitzat experiments per entrenar el mètode proposat i vam validar el model mitjançant un conjunt de validació. Com es mostra a la figura 4, la pèrdua d'entrenament de Fuzzy DBNet al conjunt de dades de raigs X pulmonar va assolir la convergència al voltant de l'època 100 i va aconseguir una convergència completa aproximadament a la 300a.

Al conjunt de dades de raigs X del pulmó, vam seleccionar un conjunt d'imatges com a exemples per a la prova del model. Constava de sis imatges: imatges brutes anterior-posterior i posteroanterior, les imatges de veritat del terreny corresponents i els resultats segmentats. Aquestes imatges es mostren a la figura 5.

Hem comparat les sortides de Fuzzy DBNet i la seva veritat terrestre a les dades de les proves utilitzant el coeficient mitjà de Daus, mIoU i la precisió de píxels per mesurar el rendiment del model. Els resultats es mostren a la taula 2.

Hem seleccionat dos conjunts de raigs X pulmonars dels resultats de segmentació del nostre conjunt de proves com a exemples. A la figura 6, la integritat de la segmentació del nostre model era molt millor que la de BtrflyNet. A la figura 7, quan les imatges pulmonars originals eren borroses, el rendiment de segmentació de DoubleU-Net era pobre, mentre que el nostre model segmentava amb precisió els pulmons.


【Per a més informació:george.deng@wecistanche.com / WhatsApp:8613632399501】
