Este texto é baseado na resenha do seguinte artigo: Price, W.N., Cohen, I.G. Privacy in the age of medical big data. Nat Med 25, 37–43 (2019). https://doi.org/10.1038/s41591-018-0272-7 |
Introdução
O Big Data chegou à medicina, e seus defensores prometem aumento de qualidade, eficiência e inovação. Mais recentemente, o rápido desenvolvimento das técnicas de aprendizado de máquina e inteligência artificial (IA) promete trazer ainda mais aplicações úteis do Big Data, desde a alocação de recursos até o diagnóstico de doenças complexas. No entanto, com o Big Data surgem grandes riscos e desafios, incluindo questões significativas sobre a privacidade do paciente. Neste artigo, os autores examinam as preocupações éticas e as respostas legais levantadas sobre esse tema. No entanto, as tentativas de reduzir os riscos à privacidade também trazem seus próprios custos, que devem ser considerados tanto para os pacientes quanto para o sistema de saúde como um todo.
O artigo se inicia com a discussão dos benefícios que o Big Data pode trazer para a ciência e a prática da saúde. Em seguida, abordam-se as preocupações que o Big Data levanta nesses contextos. Os autores concentram-se em uma preocupação proeminente (mas não a única): violações de privacidade. Dessa forma, a partir de uma teoria básica sobre a privacidade de dados na saúde, os autores examinam como as preocupações com a privacidade se manifestam em duas fases do ciclo de vida da aplicação do Big Data: coleta de dados e uso de dados. Essas preocupações são fundamentadas em uma discussão sobre a legislação relevante nos Estados Unidos, um elemento-chave do mundo dos dados de saúde enfrentado pelos inovadores nesse espaço. Algumas recomendações regulatórias são feitas pelos autores. Um argumento importante do artigo, contrariando a narrativa atual, é que, embora a falta de privacidade gere preocupações, o excesso de privacidade nessa área pode apresentar problemas.
Por que precisamos de big data na saúde?
Big data são grandes volumes de dados com três características principais (conhecidas como os três v’s):
- volume (grande quantidade de dados)
- velocidade (rápido acesso e análise)
- variedade (diversidade de dados entre indivíduos e tipos de dados)
Existem duas principais categorias de aplicações de pesquisa de big data:
- abordagens tradicionais com uso de dados coletados com a análise feita por softwares de modelagens estatísticas
- métodos mais recentes que utilizam aprendizado de máquina e inteligência artificial não só na coleta, mas também na atualização e análise dos dados.
O big data permite avaliações mais poderosas da qualidade e eficiência dos cuidados de saúde, e essas análises podem ser usadas para promover melhoria nos cuidados. Atualmente, muitos aspectos dos cuidados de saúde não são adequadamente rastreados e analisados, mesmo com evidências persistentes de tratamentos ineficazes, desperdício significativo e erros médicos. Compreender o que funciona e o que não funciona é crucial para melhorias no sistema de saúde. Nessa linha, o uso de Big data desempenha um papel importante nisso, sendo utilizado em diversos exemplos:
- para medir a qualidade hospitalar, como no programa de Relatórios de Qualidade de Pacientes Internados dos Centros de Serviços Medicare e Medicaid;
- para desenvolver hipóteses científicas, como nos estudos de associação em larga escala do genoma;
- para comparar a eficácia de diferentes intervenções, como no Instituto de Pesquisa de Resultados Centrados no Paciente;
- para monitorar a segurança de medicamentos e dispositivos, como no sistema sentinela do FDA (Food and Drug Administration).
Um novo conjunto de ferramentas que utiliza técnicas de inteligência artificial para encontrar padrões em grandes volumes de dados de saúde está em rápido desenvolvimento. A mais conhecida dessas ferramentas envolve a análise de imagens e está começando a ser usada na prática clínica. Algoritmos têm sido capazes de identificar lesões de pele cancerígenas a partir de imagens com a mesma precisão de dermatologistas treinados, e o sistema IDx-DR recentemente recebeu aprovação do FDA para diagnóstico baseado em inteligência artificial de retinopatia diabética. Além disso, a inteligência artificial pode ser utilizada para fins prognósticos, como prever quando pacientes traumatizados estão prestes a sofrer uma grave hemorragia e precisam de intervenção imediata, ou quando pacientes têm uma alta probabilidade de morrer dentro de um ano e, portanto, podem considerar a transição de cuidados tradicionais para cuidados paliativos.
Algoritmos de IA podem fornecer recomendações de tratamento e, de forma controversa, auxiliar na tomada de decisões de alocação de recursos. Esses usos dependem de conjuntos de dados de saúde muito amplos, que incluem informações sobre o histórico de tratamento dos pacientes, sua resposta ao tratamento e dados pessoais, como informações genéticas, histórico familiar, comportamento de saúde e sinais vitais. Sem esses dados, os algoritmos não podem ser treinados ou avaliados quanto ao seu desempenho após o treinamento.
A próxima evolução do big data na área da saúde, que está ganhando impulso gradualmente, reside no desenvolvimento de sistemas de saúde baseados em aprendizado de máquina. Nesses sistemas, a fronteira tradicional entre pesquisa clínica e cuidados de saúde é desgastada. Mesmo em projetos de sistemas de saúde mais tradicionais, há uma considerável incerteza e ambiguidade em relação à linha entre “pesquisa”, “melhoria da qualidade” ou “inovação”, o que tem implicações importantes para a revisão regulatória. Nos sistemas de saúde baseados em aprendizado de máquina, os dados são coletados rotineiramente durante o processo de cuidado, com o objetivo explícito de utilizá-los para análise e melhoria dos cuidados. Assim como os dados são coletados continuamente, eles são analisados de forma contínua para identificar padrões no processo de cuidado, procedimentos que podem ser aprimorados e outros padrões subjacentes, como a resposta diferencial dos pacientes a diferentes tratamentos. Por fim, esses novos insights são incorporados ao caminho do cuidado clínico, seja de forma explícita (em diretrizes de prática ou publicações) ou implicitamente (no contexto de recomendações ou procedimentos incorporados automaticamente aos sistemas eletrônicos de registro de saúde). O conceito desse tipo de sistema descrito pode ser aplicado por meio de mecanismos de aprendizado de máquina explícitos mas também é possível fazer o mesmo modelo por meio de algoritmos de IA.
Quadro 1 | Exemplos ilustrando possíveis usos de big data Scott, um paciente com câncer de fígado, está recebendo tratamento de Anita, sua médica. Anita utiliza o módulo CancerChoice no sistema de prontuário eletrônico (EHR) do hospital para ajudar na decisão sobre quais quimioterápicos administrar. O módulo acessa os dados do EHR de Scott, incluindo seu histórico médico, histórico familiar e sequência genética. Além disso, ele se conecta a grandes conjuntos de dados comerciais para obter informações adicionais sobre os hábitos de compras, alimentação e exercícios de Scott, o que pode auxiliar na escolha do tratamento. Com base em todos esses dados, o módulo faz uma recomendação, comparando as informações de Scott com dados similares de milhões de pacientes em todo o país, incluindo dados de cuidados de saúde e estilo de vida relacionados à saúde. Samantha chega ao Hospital Chicago Hope com disfunção moderada de órgãos. O médico está tentando decidir se deve enviar Samantha para uma unidade especializada de cuidados intensivos (UTI). Samantha poderia se beneficiar, mas as vagas são limitadas e outros pacientes poderiam se beneficiar mais. Na medicina tradicional, avaliar o risco de parada cardiorrespiratória ou outros eventos adversos graves que podem ser evitados pode levar horas. Além disso, a avaliação também possui uma precisão prognóstica limitada e o risco pode mudar durante esse período. Agora, imagine que existe um mecanismo alternativo de avaliação disponível. A CorazonAI desenvolveu um mecanismo de análise preditiva, com base em dados dos prontuários eletrônicos de milhões de pacientes nos Estados Unidos, que pode determinar com precisão o risco para centenas de pacientes, com atualizações em tempo real para ajudar o médico a avaliar quem deve ser admitido na UTI. O médico utiliza o sistema, que recomenda a admissão de Samantha. Nesses exemplos, a privacidade dos pacientes foi violada? Essas violações são antiéticas? Elas são aquelas que a lei deve proibir? E como essas preocupações se comparam aos benefícios obtidos com o uso de big data no contexto da saúde? |
Como pensar sobre a privacidade na saúde
O conceito de privacidade em saúde é difícil de definir. A visão atual conecta privacidade ao contexto. Existem regras para cada contexto sobre como as informações podem fluir, que dependem dos atores envolvidos, do processo pelo qual as informações são acessadas, da frequência do acesso e do propósito desse acesso. Quando essas regras são violadas, ocorre uma violação da privacidade. Tais violações podem ocorrer porque um ator inadequado obtém acesso às informações, o processo de acesso às informações é violado ou o propósito do acesso é inadequado, e assim por diante. As razões normativas pelas quais essas violações são problemáticas podem ser divididas (com alguma simplificação) em duas categorias – preocupações consequencialistas e deontológicas. Dois avisos são necessários: em primeiro lugar, algumas violações de privacidade levantam questões em ambas as categorias. Em segundo lugar, algumas preocupações que discutimos também estão presentes na coleta de grandes ou pequenos volumes de dados. No entanto, os cenários de big data têm a tendência de aumentar o número de pessoas afetadas, a gravidade dos efeitos e a dificuldade para os indivíduos prejudicados em adotar medidas preventivas ou de proteção.
Preocupações consequencialistas: Resultam de consequências negativas que afetam a pessoa cuja privacidade foi violada. Essas consequências podem ser tangíveis, como, por exemplo, o aumento do prêmio do seguro de cuidados de longo prazo devido a informações adicionais agora disponíveis como resultado de uma violação de privacidade, discriminação no emprego ou a divulgação do status de HIV para pessoas em seu círculo social. Também podem ser o sofrimento emocional associado ao conhecimento de que informações médicas privadas estão “lá fora” e podem ser potencialmente exploradas por outras pessoas: pense na possibilidade de aumento da ansiedade se alguém acreditar que agora está suscetível a roubo de identidade, mesmo antes de qualquer uso indevido da identidade ocorrer.
Preocupações deontológicas. São preocupações que não dependem de experimentar consequências negativas. Nessa categoria, a preocupação com uma violação de privacidade se manifesta mesmo que ninguém utilize as informações de uma pessoa contra ela ou mesmo se a pessoa nunca se torne ciente de que ocorreu uma violação. Por exemplo, suponha que uma organização, de forma pouco escrupulosa ou inadvertida, obtenha acesso aos dados que você armazena em seu smartphone como parte de uma ampla coleta de dados. Após revisá-los, incluindo fotos que você tirou de um problema pessoal embaraçoso, a organização percebe que seus dados não têm valor para eles e destrói o registro. Você nunca descobre que isso aconteceu. Aqueles que revisaram seus dados vivem no exterior e nunca encontrarão você ou alguém que o conheça. É difícil dizer que você foi prejudicado no sentido consequencialista, mas muitos consideram a perda de controle sobre seus dados, a invasão, como problemática do ponto de vista ético, mesmo na ausência de dano. Isso é uma preocupação deontológica.
Coleta de dados
- Disposições específicas do responsável pelos dados versus disposições gerais
A coleta de dados médicos gera preocupações legais e éticas de privacidade. Nos Estados Unidos, os dados de saúde são tratados de maneira diferente com base em como são criados e quem os manipula. Por outro lado, a União Europeia possui o Regulamento Geral de Proteção de Dados, que estabelece um único regime abrangente para dados de saúde, independentemente de sua origem ou do responsável pela guarda dos dados. Essa abordagem europeia define amplamente os “dados relacionados à saúde” como informações pessoais relacionadas à saúde física ou mental de uma pessoa, incluindo a prestação de serviços de saúde e a revelação de informações sobre o estado de saúde.
Os responsáveis os quais a lei dos Estados Unidos se concentra são os médicos, os sistemas de saúde e seus parceiros comerciais. A principal lei federal dos Estados Unidos que rege a privacidade de dados de saúde é a Regra de Privacidade criada nos termos da Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA) – também existem leis de privacidade específicas de cada estado e a Regra Comum federal, que protege os sujeitos de pesquisa, mas não são o foco deste artigo.
Sob a Regra de Privacidade da HIPAA, as “entidades cobertas” são proibidas de usar ou divulgar “informações protegidas de saúde” (PHI – Protected Health Information) exceto em uma lista específica de circunstâncias; os “parceiros comerciais” enfrentam limitações semelhantes por meio de contratos exigidos com as entidades cobertas. A definição de PHI é ampla, incluindo a maioria das informações de saúde individualmente identificáveis; as entidades cobertas incluem a maioria dos prestadores de serviços de saúde, seguradoras de saúde e “clearinghouses[1]” de informações de saúde.
A HIPAA estabelece regras que podem ser consideradas excessivamente protetoras ou insuficientemente protetoras da privacidade. Embora permita o uso de informações de saúde protegidas (PHI) para tratamento de saúde, operações, pagamento, saúde pública e aplicação da lei, exige isenção do Comitê de Ética em Pesquisa (IRB) ou autorização do paciente para pesquisa. A anonimização dos dados de saúde é uma estratégia importante da HIPAA, mas os dados anonimizados (deidentified data) podem ser reidentificáveis (reidentifiable) por meio de triangulação com outros conjuntos de dados. Além disso, a regulamentação da HIPAA foca nos atores e suas atividades, não nos próprios dados. Quando um paciente solicita seus próprios dados de saúde e os compartilha com terceiros, a HIPAA não impõe restrições ao uso ou divulgação desses dados, a menos que o destinatário seja outra entidade coberta ou um parceiro comercial.
No entanto, o principal problema é que a maioria dos dados de saúde não é abrangida pela HIPAA. A lei foi criada com foco em provedores de cuidados de saúde e outras entidades, mas não abrange dados gerados fora desses contextos, como informações de seguros de vida ou dados de saúde gerados por pessoas e produtos não relacionados aos cuidados de saúde. A HIPAA também não cobre informações geradas pelos usuários, como o uso de aplicativos de rastreamento de saúde ou pesquisas na internet sobre sintomas específicos. Além disso, a HIPAA não aborda o enorme volume de dados que não são diretamente relacionados à saúde, mas que podem revelar informações sobre a saúde das pessoas. Estamos entrando em um futuro em que gigantes como Google, Apple e IBM têm um papel dominante na área de dados de saúde, operando fora do âmbito da HIPAA. Embora existam algumas leis que possam proteger usos específicos desses dados, atualmente há pouca proteção abrangente da privacidade de saúde nos Estados Unidos.
- Coleta de dados precisa ter diversidade
Coleta de dados precisa ocorrer contemplar diversidade. Um exemplo são os vieses existentes, como as disparidades raciais que pode até serem replicadas em modelos preditivos. Populações marginalizadas que não tem seus dados coletados, como uso de cartão de crédito ou histórico de internet – levando a vieses nas pontuações de crédito ou perfis de consumidores – também podem estar ausentes nos dados de saúde, como em bancos de dados genômicos ou prontuários eletrônicos, devido em parte à falta de seguro saúde e à incapacidade de acessar cuidados de saúde, bem como a uma série de outras razões.
As consequências distributivas dessa falta de inclusão ou de coleta de informação de alguns grupos populacionais são complexas; em alguns casos, pode favorecer, mas em outros casos, desfavorecer aqueles cujos dados estão ausentes. Por exemplo, considere uma decisão de alocação entre vários pacientes em relação a um recurso médico escasso. Se um determinado grupo minoritário realmente responde pior à intervenção médica do que outros grupos, a falta de coleta de informações sobre o grupo minoritário pode fazer com que o algoritmo dê mais prioridade ao paciente minoritário do que se os dados tivessem sido incluídos. Se o grupo minoritário responder melhor do que outros grupos, o efeito oposto pode ocorrer. De qualquer forma, o resultado será que a previsão do sistema será tendenciosa de maneira problemática. Isso é um desafio difícil de superar, entre outras razões, devido a definições contestadas e incompatíveis de “justiça” no espaço de análises preditivas.
Uma solução é o acesso melhorado aos cuidados de saúde para populações desfavorecidas, mas se esse objetivo for alcançado, não será por causa das necessidades de dados. O ajuste estatístico para lacunas de dados pode ajudar a mitigar o problema em certa medida, mas esta é uma área à qual os financiadores (especialmente os financiadores públicos) devem estar atentos. O programa All of Us, por exemplo, tem como objetivo desenvolver uma amostra nacionalmente representativa para seu trabalho genômico. Embora essa ambição não seja realizável para toda a pesquisa, os financiadores devem considerar solicitar aos solicitantes que abordem explicitamente suas estratégias para tornar seus conjuntos de dados mais inclusivos, e devem levar isso em consideração ao alocar recursos.
- O papel do paciente na coleta e acesso aos dados
Até que ponto os dados de um indivíduo devem ser usados em análises preditivas sem seu consentimento? A resposta ética depende do tipo de dados, quem terá acesso a eles e para qual finalidade. Embora preocupações com a privacidade sejam relevantes, em alguns casos, o uso não consentido dos dados de saúde pode ser justificado se houver benefícios equitativamente distribuídos e os riscos para o indivíduo forem baixos. A análise ética também considera se os dados de saúde devem ser tratados como um bem público, sujeito a requisitos de interesse público. O princípio de reciprocidade sugere que o uso não consentido pode ser mais aceitável quando os pacientes se beneficiam dos resultados obtidos. Além disso, o princípio de proporcionalidade indica que os benefícios devem superar as pequenas consequências negativas para os pacientes.
Em relação ao uso dos dados de saúde dos pacientes, é importante considerar o papel que eles devem desempenhar na decisão sobre quais tipos de uso de seus dados são permitidos. Isso envolve a criação de um regime de governança que equilibre a autonomia do paciente e a maximização dos benefícios do big data na saúde. Por um lado, dar a cada paciente a aprovação individual para cada acesso aos seus dados pode garantir sua autonomia, mas pode limitar significativamente o uso desses dados. Por outro lado, tratar os dados como completamente alienáveis, sem nenhum direito de controle por parte do paciente, também apresenta desafios éticos. É importante considerar o contexto e os detalhes específicos de quem acessa os dados e para que finalidade. Em muitos casos, o regime de governança ideal pode estar em algum ponto intermediário. Isso pode incluir a criação de um conselho de direção que inclua representantes de pacientes para tomar decisões sobre quais solicitações de dados são permitidas e sob quais circunstâncias. Uma abordagem alternativa seria colocar os dados em um espaço de custódia coletiva, no qual os administradores, incluindo representantes de pacientes, tomariam decisões sobre o acesso e os usos aprovados dos dados, tendo obrigações fiduciárias para com os pacientes cujos dados são utilizados. Essas abordagens buscam equilibrar a privacidade do paciente e os benefícios sociais do big data na saúde.
Quadro 2 | O desafio de múltiplos conjuntos de dados para a reidentificaçãoo possíveis usos de big data Muitos acreditam que dados “anonimizados” não podem ser usados para identificar novamente o sujeito dos dados. No entanto, à medida que os conjuntos de dados se tornam mais abundantes, a capacidade de combinar múltiplos conjuntos de dados pode superar a estratégia de desidentificação. Um exemplo famoso disso, anterior à HIPAA, foi demonstrado por Latanya Sweeney. Na década de 1990, o estado de Massachusetts adquiriu seguro saúde para os funcionários públicos e posteriormente divulgou registros resumindo as visitas hospitalares de todos os funcionários, sem custo, para pesquisadores interessados nos dados. O então governador, William Weld, garantiu ao público que os dados haviam sido tratados para evitar a reidentificação, removendo informações como nomes, endereços e números de Seguro Social. No entanto, muitos atributos dos pacientes não foram removidos. Sweeney, que na época era estudante de pós-graduação, sabia que Weld morava na cidade de Cambridge e adquiriu os registros eleitorais completos dessa cidade, que continham o nome, endereço, CEP, data de nascimento e sexo de todos os eleitores. Ela combinou esses dados com os dados do seguro saúde estadual para demonstrar que era possível reidentificar as prescrições, diagnósticos e histórico médico de Weld. Um exemplo recente do problema de reidentificação de dados ocorreu com a Netflix no meio dos anos 2000. A Netflix lançou um desafio para melhorar seu algoritmo de recomendação de filmes, divulgando publicamente cem milhões de registros contendo avaliações de usuários de 1999 a 2005. Embora as informações de identificação tenham sido removidas, os pesquisadores Arvind Narayanan e Vitaly Shmatikov, da Universidade do Texas, demonstraram que ainda era possível reidentificar os usuários da Netflix ao vinculá-los a outros conjuntos de dados. Eles utilizaram dados públicos do Internet Movie Database (IMDb), onde os usuários também avaliam filmes publicamente, para mostrar que era possível descobrir as avaliações privadas dos usuários na Netflix. A estratégia de reidentificação aproveitou avaliações de filmes mais obscuros nos dois sistemas e o momento em que as resenhas foram publicadas. Esses exemplos não pretendem afirmar que a desidentificação é sempre impossível ou que a reidentificação será sempre fácil. No entanto, eles destacam como o aumento do número de conjuntos de dados e a interconexão das informações tornam a reidentificação mais plausível, mesmo para dados que anteriormente eram considerados desidentificados. |
Outra abordagem é o que Barbara Evans, professora de direito da Universidade de Houston, chama de “dados comuns direcionados ao consumidor”, em que grupos de indivíduos consentem em colaborar para construir recursos de dados de saúde em larga escala para uso em pesquisas científicas, com termos definidos pelos próprios membros do grupo. É importante ter representantes dos pacientes envolvidos em decisões cruciais sobre como seus dados serão utilizados, especialmente quando o consentimento individualizado do paciente não é obtido. Embora essas abordagens sejam viáveis atualmente, podem ser menos viáveis no futuro, quando conjuntos de dados contendo uma grande variedade de informações são usados para diversas análises. O uso de conjuntos de dados de contexto cruzado, ou intercontextuais (cross-context datasets), que combinam dados do consumidor para previsões de saúde, dados de saúde para publicidade direcionada ou combinações para ambos os propósitos, tornaria mais difícil estabelecer um regime de governança coerente para dados do consumidor e dados de saúde. As políticas atuais que exigem regimes específicos de contexto podem limitar o desenvolvimento futuro desses conjuntos de dados intercontextuais, tanto para o bem quanto para o mal.
Usos de dados
Nesta seção são destacadas as principais questões legais e éticas de privacidade levantadas pelo uso de dados de pacientes já coletados, especialmente em sistemas impulsionados por inteligência artificial, e abordagens para lidar com elas.
- Discriminação com base em dados de saúde
O uso de big data derivado de pacientes levanta preocupações de privacidade, especialmente devido à possibilidade de discriminação por parte de empregadores ou seguradoras com base em informações sensíveis obtidas dos dados médicos. Isso pode resultar na exclusão de pessoas com doenças graves ou custosas, principalmente nos Estados Unidos, onde o seguro de saúde geralmente está vinculado ao emprego. Alguns defendem que essa discriminação é justificada pelo princípio da “equidade atuarial”, onde cada indivíduo deve pagar ou receber de acordo com seu risco, algo facilitado pelo uso de big data. Essa questão fundamental levanta a discussão entre favorecer a distribuição de recursos com base no risco individual versus uma visão mais solidária do seguro, que envolve a redistribuição por meio do compartilhamento dos custos. No entanto, as leis existentes nos contextos de seguro de saúde e emprego geralmente favorecem a proibição parcial dessa forma de discriminação.
Leis como a GINA (Lei de Não Discriminação de Informações Genéticas), ADA (Lei dos Americanos com Deficiências) e PPACA (Lei de Proteção ao Paciente e Cuidados Acessíveis) foram implementadas para proibir a discriminação com base em informações genéticas, condições médicas e seguros de saúde. No entanto, essas leis têm limitações significativas. A ADA não abrange casos em que o uso de big data prejudica pessoas saudáveis, mas percebidas como tendo alto risco de doenças futuras. Além disso, a GINA e a ADA não se aplicam ao seguro de vida. Fazer cumprir essas leis pode ser difícil, pois muitas vezes é difícil identificar casos de discriminação. Além disso, certos danos consequencialistas, como o estigma decorrente de informações pessoais sensíveis, são difíceis de abordar legalmente. Uma pesquisa recente revelou preocupações entre participantes de ensaios clínicos sobre o compartilhamento de seus dados, mas esses resultados podem não representar as atitudes gerais do público.
- Compartilhamento de informações privadas
Há danos subjetivos associados à privacidade quando informações de saúde privadas se tornam disponíveis, resultando em constrangimento, paranoia ou sofrimento mental. Embora essas lesões possam não ter efeitos externos mensuráveis, elas são consideradas danos. Leis como a GINA, ADA e a PPACA têm limitações na abordagem desse tipo de lesão.
O uso de big data também pode resultar em danos à dignidade. É importante que exista uma parte da vida de um indivíduo que seja apenas sua, permanecendo desconhecida para os outros, a menos que seja compartilhada. Informações de saúde são particularmente sensíveis e privadas. O uso de big data pode permitir que outras pessoas tenham conhecimento direto da saúde de alguém, mesmo que o indivíduo não deseje que essas informações sejam acessadas, seja por divulgação acidental ou atividades maliciosas, como hacking. A maioria das pessoas não está ciente dos possíveis usos de seus dados. Um exemplo relevante é o uso do banco de dados genético GEDmatch para identificar o assassino Golden State, destacando como informações compartilhadas sobre um indivíduo podem revelar informações sobre outros, como parentes genéticos, que não consentiram o compartilhamento.
Uma questão complexa levantada pela análise preditiva é se a privacidade de uma pessoa é violada quando outras pessoas fazem inferências sobre ela. Jeff Skopek, professor de direito da Universidade de Cambridge, argumenta que inferências feitas por meio da mineração de dados não constituem uma violação de privacidade, pois não envolvem observação direta ou acesso aos dados. Ele propõe que existem fundamentos legais e normativos para rejeitar a ideia de que inferências podem violar a privacidade. Por exemplo, se alguém descobre que sua amiga está grávida ao observar mudanças em seu comportamento e aparência, não seria considerado uma violação de privacidade. A questão é se a análise de big data é mais semelhante ao primeiro caso ou ao último exemplo. Claro, o big data nos permite fazer muito mais inferências com muito mais confiança do que as observações amigáveis no exemplo da gravidez, mas a análise deontológica está relacionada com a quantidade que acreditamos saber ou com o caminho pelo qual acreditamos saber?
Um caminho a seguir
Uma reação às violações de privacidade na área da saúde é limitar estritamente o acesso aos dados dos pacientes. Isso pode envolver o compartilhamento mínimo de dados necessários em todos os contextos, a retenção de dados por um período limitado ou obscurecer intencionalmente os dados, especialmente se as preocupações éticas e consequencialistas forem difíceis de reduzir após o ocorrido. No entanto, é importante considerar que limitar o acesso aos dados também pode ter suas próprias consequências negativas.
A superproteção da privacidade prejudica a inovação baseada em dados, limitando a agregação e o uso inovador dos dados. A desidentificação de dados, embora cumpra requisitos de privacidade, dificulta a vinculação de informações quando há diferentes provedores de serviços de saúde, seguradoras ou mudanças de localização. Dados fragmentados e desorganizados impõem obstáculos tecnológicos e econômicos à inovação baseada em dados.
Existem métodos que podem proteger a privacidade sem prejudicar a inovação. Em alguns casos, os pesquisadores podem usar técnicas de dados pseudonimizados (pseudonymized data) ou privacidade diferencial. Auditorias de privacidade e padrões de segurança são importantes para garantir o uso adequado e evitar o acesso não autorizado aos dados. Os detentores de dados devem ser responsáveis pela proteção dos dados, em vez de serem meros intermediários indiferentes à privacidade. No entanto, em muitos casos, ainda haverá um equilíbrio necessário entre privacidade e inovação.
A privacidade e o sigilo podem entrar em conflito quando se trata de inovação baseada em dados. Enquanto os inovadores têm incentivos para manter os dados em sigilo, a sociedade pode preferir ter acesso a esses dados para promover avanços e melhorias. A manutenção de bancos de dados proprietários, como o da Myriad Genetics, que contém informações genéticas e histórico médico de pacientes, ilustra essa questão. A falta de acesso a esses dados dificulta a obtenção de melhores resultados em testes e pesquisas relacionadas. Preocupações com a privacidade podem ser usadas como justificativa para manter os dados em sigilo, dificultando a demanda por compartilhamento de dados.
O sigilo justificado pela privacidade pode minar a confiança em inovações baseadas em big data. Quando insights valiosos são descobertos por meio do big data, é crucial que os prestadores de serviços de saúde e os pacientes confiem nesses resultados para implementá-los. No entanto, a opacidade dos algoritmos de aprendizado de máquina pode dificultar a construção dessa confiança. Manter dados e algoritmos em sigilo sob o pretexto de proteção da privacidade pode levar a uma falta de confiança por parte dos prestadores de serviços de saúde e dos pacientes. Embora existam práticas médicas que são naturalmente opacas para os pacientes, a atenção midiática e a novidade do uso de big data e inteligência artificial na área de saúde podem aumentar a preocupação dos pacientes com sua integração nos cuidados de saúde.
Por outro lado, se os pacientes preocupados com a privacidade se recusarem a participar de sistemas baseados em dados, os algoritmos podem não ser desenvolvidos. Encontrar o equilíbrio adequado entre proteção da privacidade e transparência suficiente é um desafio complexo para aqueles que defendem o uso de big data, aprendizado de máquina e sistemas de saúde baseados em aprendizado. Além disso, não existe uma abordagem única que se aplique a todos os casos. O futuro da privacidade do big data dependerá da fonte de dados, do custodiante dos dados, do tipo de dados e da importância da triangulação de dados de várias fontes. É importante não assumir que o maximalismo da privacidade é sempre a melhor solução. Tanto a superproteção quanto a subproteção da privacidade podem causar danos aos pacientes, tanto no presente quanto no futuro.
Porque indicamos esse artigo:
1. Importância da privacidade dos dados na saúde: Explica por que a privacidade é fundamental quando se trata de informações de saúde, considerando os dados pessoais sensíveis e íntimos envolvidos. Destaca como a violação da privacidade pode levar a consequências negativas para os indivíduos.
2. Consequências das violações de privacidade: Discute as preocupações consequencialistas relacionadas à violação da privacidade na área da saúde. Aborda as possíveis consequências negativas para os indivíduos, como o uso indevido de informações médicas, discriminação no emprego e sofrimento emocional decorrente da perda de controle sobre seus dados pessoais.
3. Preocupações sobre privacidade: Explora as preocupações em relação à privacidade na saúde. Destaca como a invasão da privacidade pode ser considerada problemática do ponto de vista ético, mesmo na ausência de consequências negativas imediatas. Exemplifica situações em que os indivíduos perdem o controle sobre seus dados, mesmo que não sofram danos diretos.
4. Desafios da coleta de dados de saúde: Analisa os desafios éticos e legais associados à coleta de dados de saúde. Discute as diferenças nas regulamentações de privacidade nos Estados Unidos e na União Europeia, enfatizando as limitações da Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA) nos EUA. Aborda a falta de cobertura para dados de saúde gerados fora dos contextos de cuidados de saúde e a crescente influência de grandes empresas de tecnologia na área de dados de saúde.
5. Viés e falta de diversidade nos dados: Destaca a importância de garantir a diversidade nos dados de saúde coletados, a fim de evitar viés e disparidades nos resultados dos modelos preditivos. Explica como a falta de inclusão de certos grupos populacionais pode levar a resultados tendenciosos e distributivamente injustos na alocação de recursos médicos escassos.
6. Anonimização e reidentificação de dados: Aborda as questões relacionadas à anonimização dos dados de saúde e os desafios de reidentificação. Explica como os dados anonimizados podem ser potencialmente reidentificáveis, comprometendo a privacidade dos indivíduos. Discute a necessidade de abordagens mais robustas para proteger a identidade dos pacientes e garantir a privacidade dos dados.
7. Proteção abrangente da privacidade na saúde: Analisa a falta de proteção abrangente da privacidade de saúde nos Estados Unidos e discute a necessidade de políticas e regulamentações mais abrangentes nessa área. Destaca a importância de equilibrar a coleta e o uso de dados para avanços em pesquisa e cuidados de saúde, ao mesmo tempo em que se protege a privacidade e a segurança dos indivíduos.
[1] É uma entidade que processa informações de saúde em nome de outras organizações de saúde. Ela atua como intermediária na coleta, armazenamento e distribuição dessas informações. Uma clearinghouse de informações de saúde geralmente recebe dados de várias fontes, como hospitais, clínicas e laboratórios, e os converte em um formato padronizado para facilitar o compartilhamento e o acesso às informações de saúde entre diferentes partes interessadas, como profissionais de saúde, pesquisadores e pagadores de seguros de saúde. Essas entidades desempenham um papel importante na facilitação da troca de informações de saúde de maneira eficiente e segura.