Todos os dias, há grandes quantidades de informação entrando na internet. O número real pode ser difícil de compreender! Tais quantidades de dados precisam ser estruturados e organizados para que façam algum sentido. É aí que entra Data Science - fornece uma maneira de dar sentido a toda essa informação. Naturalmente, há uma enorme necessidade de um data scientist qualificado. As oportunidades de emprego para esta posição estão aumentando constantemente. Então, se você está pensando em se candidatar a uma vaga de data scientist, precisa conhecer as questões essenciais de uma entrevista de emprego sobre data science. Este tutorial fornecerá exatamente isso.
O guia é dividido em duas partes grandes - o básico e as coisas mais avançadas. Coisas como: questões sobre big data, diferença entre um data scientist e um data analyst e assim por diante. No final, darei algumas dicas para a sua entrevista e resumiremos tudo o que foi dito neste tutorial.
Tabela de Conteúdo
- 1. Introdução
- 1.1. Pergunta 1: O que é 'data science'?
- 1.2. Pergunta 2: Qual é a diferença entre 'data science' e 'big data'?
- 1.3. Pergunta 3: Qual é a diferença entre um 'data scientist' e um 'data analyst'?
- 1.4. Pergunta 4: Quais são os recursos fundamentais que representam big data?
- 1.5. Pergunta 5: O que é um 'sistema de recomendação'?
- 1.6. Pergunta 6: cite um motivo pelo qual o Python é melhor linguagem para data science do que a maioria das outras linguagens de programação.
- 1.7. Pergunta 7: O que é teste A/B?
- 1.8. Pergunta 8: O que é o Hadoop e por que devo me importar?
- 1.9. Pergunta 9: O que é um 'viés de seleção'?
- 1.10. Pergunta 10: O que é uma 'análise do poder'?
- 2. Perguntas avançadas sobre Data Science
- 2.1. Pergunta 1: defina 'filtragem colaborativa'.
- 2.2. Pergunta 2: O que é 'fsck'?
- 2.3. Pergunta 3: O que é 'validação cruzada'?
- 2.4. Pergunta 4: Qual é melhor - bons dados ou bons modelos?
- 2.5. Pergunta 5: Qual é a diferença entre o aprendizado 'supervisionado' e 'não supervisionado'?
- 2.6. Pergunta 6: Qual é a diferença entre 'valor esperado' e 'valor médio'?
- 2.7. Pergunta 7: Qual é a diferença entre 'bivariada', 'multivariada' e 'univariada'?
- 2.8. Pergunta 8: E se dois usuários acessassem o mesmo arquivo HDFS ao mesmo tempo?
- 2.9. Pergunta 9: Quantos formatos de entrada do Hadoop comuns existem? Quais são eles?
- 2.10. Pergunta 10: O que é 'amostragem por cluster'?
- 3. Dicas gerais e resumo
- 4. Conclusões
Introdução
Vamos começar pela superfície e falar sobre definições .
Oferta Mais Recente Ativa Nesse Exato Momento:
SAVE 50%
DataCamp End of Year Sale
Unlock a year of unlimited data and AI learning at half the price! This is your final call to save big on expertise for 2025. Act fast and secure your 50% discount with DataCamp's End of Year Sale – the clock is ticking!
Muitas de suas primeiras perguntas da sua entrevista para a vaga de data scientist podem incluir a diferenciação entre termos aparentemente semelhantes, mas um pouco diferentes. É por isso que provavelmente seria uma boa ideia partir dessas definições para que você tenha uma compreensão clara das coisas antes de avançar.
Pergunta 1: O que é 'data science'?
A data science é uma forma de metodologia usada para extrair e organizar vários dados e informações de grandes fontes de dados (estruturadas e não estruturadas) .
A forma como essa forma de ciência funciona é que ela usa vários algoritmos e matemática aplicada para extrair não apenas informações, mas sim informações úteis, e organizá-las de uma maneira que faça sentido e permita algum tipo de uso concreto.
Pergunta 2: Qual é a diferença entre 'data science' e 'big data'?
Certamente, uma das perguntas mais difíceis de uma entrevista para uma vaga em data science, muitas pessoas não conseguem expressar uma diferença clara. Isso ocorre principalmente devido à falta de informações sobre o assunto.
No entanto, a resposta em si é realmente muito simples - o termo 'big data' implica grandes volumes de dados e informações, ele precisa de um método específico para ser analisado. Portanto, big data é o que a data sience analisa.
Pergunta 3: Qual é a diferença entre um 'data scientist' e um 'data analyst'?
Embora essa seja também uma perguntas muito básica de uma entrevista de emprego, os termos ainda tendem a se misturar.
O data scientist extrae, processa e analisa dados. Ele está preocupado em fornecer previsões para as empresas sobre quais problemas eles podem encontrar.
O data analyst resolve problemas de negócios inevitáveis em vez de antecipá-los. Ele identifica problemas, realiza análises de informações estatísticas e documenta tudo.
Pergunta 4: Quais são os recursos fundamentais que representam big data?
Agora que abordamos as definições, podemos passar para as perguntas mais específicas de uma entrevista sobre data science. Tenha em mente, porém, que você será obrigado a responder perguntas relacionadas a data scientist, data analyst e big data. A razão para isso acontecer é porque todas essas subcategorias estão interligadas entre si.
Existem cinco categorias que representam big data e são chamadas de " 5 Vs ":
- Valor;
- Variedade;
- Velocidade;
- Veracidade;
- Volume.
Todos esses termos correspondem ao Big Data de uma maneira ou de outra.
Pergunta 5: O que é um 'sistema de recomendação'?
É um tipo de sistema que é usado para prever o quão alto o rating seria dado pelos usuários a certos objetos específicos (filmes, músicas, mercadorias, etc.). Escusado será dizer que existem muitas fórmulas complexas envolvidas em tal sistema.
Pergunta 6: cite um motivo pelo qual o Python é melhor linguagem para data science do que a maioria das outras linguagens de programação.
Para responder às questões de uma entrevista sobre data science, é essencial conhecer Python. Naturalmente, o Python é muito rico em bibliotecas de data science, é incrivelmente rápido e fácil de ler ou aprender. O pacote Python de deep learning e outras bibliotecas de machine learning inclui ferramentas populares como sci-kit-learn, Keras e TensorFlow, que permitem aos data scientists desenvolver modelos de dados sofisticados que se conectam diretamente a um sistema de produção.
Para descobrir insights dos dados, você terá que usar o Pandas, a biblioteca de análise de dados do Python. Ele pode conter grandes quantidades de dados sem o atraso que o Excel proporciona muitas vezes. Você pode fazer uma análise de modelagem numérica com o Numpy. Você pode fazer cálculos e cálculos científicos com o SciPy. Você pode acessar muitos algoritmos poderosos de machine learning com a biblioteca de códigos do sci-kit. Com a API do Python e o IPython Notebook que acompanha o Anaconda, você terá opções poderosas para visualizar seus dados.
Pergunta 7: O que é teste A/B?
Embora o teste A/B possa ser aplicado em vários nichos diferentes, ele também é uma das perguntas mais proeminentes de uma entrevista de data science. Então o que é teste A/B?
O teste A/B é uma forma de testes realizados para descobrir qual versão da mesma coisa vale mais a pena usar para alcançar o resultado desejado .
Digamos, por exemplo, que você queira vender maçãs. Você não tem certeza de que tipo de maçã - vermelha ou verde - seus clientes preferirão. Então você tenta os dois - primeiro você tenta vender as maçãs vermelhas, depois as verdes. Depois de terminar, você simplesmente calcula qual foi o grupo mais lucrativo e é isso - um teste A/B!
Pergunta 8: O que é o Hadoop e por que devo me importar?
Aviso prévio! O Hadoop é uma estrutura de processamento distribuído de código aberto que gerencia o processamento e armazenamento de dados para aplicativos de big data em execução em sistemas em cluster.
Para responder à pergunta, o Apache Hadoop é uma coleção de utilitários de software de código aberto que facilitam o uso de uma rede de vários computadores para resolver problemas envolvendo grandes quantidades de dados e cálculos. Ele fornece uma estrutura de software para armazenamento distribuído e processamento de big data usando o modelo de programação MapReduce.
O Hadoop divide os arquivos em grandes blocos e os distribui entre nós em um cluster. Em seguida, ele transfere o código empacotado em nós para processar os dados em paralelo. Isso permite que o conjunto de dados seja processado com mais rapidez e eficiência do que seria na arquitetura de supercomputador mais convencional.
Pergunta 9: O que é um 'viés de seleção'?
O viés de seleção é o viés introduzido pela seleção de indivíduos, grupos ou dados para análise de tal forma que a randomização adequada não é alcançada, garantindo assim que a amostra obtida não seja representativa da população a ser analisada.
Se o viés de seleção não for levado em consideração, algumas conclusões do estudo podem não ser precisas.
Pergunta 10: O que é uma 'análise do poder'?
Um tipo de análise usado para determinar que tipo de efeito uma unidade terá simplesmente baseado em seu tamanho.
A análise do poder está diretamente relacionada a testes de hipóteses. O principal objetivo subjacente à análise de potência é ajudar o pesquisador a determinar o menor tamanho de amostra que seja adequado para detectar o efeito de um dado teste no nível desejado de significância.
Perguntas avançadas sobre Data Science
Agora que abordamos as perguntas básicas e introdutórias sobre Data Science, vamos para as coisas mais avançadas.
O material aqui fornecido é uma mistura de perguntas que tem a ver com data science, big data e data analyst. Estes são os tipos de perguntas que você pode ser especificamente solicitado dar uma resposta mais elaborada.
Pergunta 1: defina 'filtragem colaborativa'.
A filtragem colaborativa , como o nome indica, é um processo de filtragem que muitos sistemas de recomendação utilizam . Esse tipo de filtragem é usado para localizar e categorizar determinados padrões.
A filtragem colaborativa é um método usado para fazer previsões automáticas (filtragem) sobre os interesses de um usuário, coletando preferências ou amostras de informações de muitos usuários (colaborando). Esse tipo de filtragem é usado para localizar e categorizar determinados padrões.
Pergunta 2: O que é 'fsck'?
É importante que um candidato numa entrevista sobre data science saiba que ' fsck ' é uma abreviação para “File System Check”. É um tipo de comando que procura por possíveis erros dentro do arquivo e, se houver erros ou problemas encontrados, o fsck os reportará ao Hadoop Distributed File System.
Pergunta 3: O que é 'validação cruzada'?
A validação cruzada pode ser bastante difícil de explicar, especialmente de maneira simplista e de fácil compreensão.
A validação cruzada é usada para analisar se um objeto executará da maneira que se espera que ele seja executado uma vez colocado nos servidores ativos. Em outras palavras, ele verifica como determinados resultados de análises estatísticas específicas serão medidos quando colocados em um conjunto independente de dados.
Pergunta 4: Qual é melhor - bons dados ou bons modelos?
Essa pode ser uma das perguntas mais populares numa entrevista referente ao big data, embora também se enquadre na categoria data science.
A resposta a essa pergunta é realmente muito subjetiva e depende do caso. Empresas maiores podem preferir bons dados, pois é o núcleo de qualquer negócio bem-sucedido. Por outro lado, bons modelos não poderiam ser criados sem ter bons dados.
Você provavelmente deve escolher de acordo com sua preferência pessoal - realmente não há uma resposta certa ou errada (a menos que a empresa esteja procurando especificamente por uma delas).
Pergunta 5: Qual é a diferença entre o aprendizado 'supervisionado' e 'não supervisionado'?
Embora essa não seja uma das perguntas mais comuns das entrevistas, e, tenha mais a ver com machine learning do que com qualquer outra coisa, ela ainda assim pertence ao data science, portanto vale a pena saber a resposta.
Durante o aprendizado supervisionado, você infere uma função de uma parte rotulada de dados projetada para treinamento. Basicamente, a máquina aprenderia com os exemplos objetivos e concretos que você fornece.
Aprendizado não supervisionado refere-se a um método de treinamento de máquina que não usa respostas rotuladas - a máquina aprende por descrições dos dados de entrada.
Pergunta 6: Qual é a diferença entre 'valor esperado' e 'valor médio'?
Não há diferença entre as duas. No entanto, ambos são usados em diferentes situações.
Os valores esperados geralmente refletem variáveis aleatórias, enquanto os valores médios refletem a população da amostra.
Pergunta 7: Qual é a diferença entre 'bivariada', 'multivariada' e 'univariada'?
A análise bivariada diz respeito a duas variáveis de cada vez, enquanto a análise multivariada lida com múltiplas variáveis. A análise univariada é a forma mais simples de analisar dados. " Uni " significa " um ", ou seja, seus dados têm apenas uma variável. Não lida com causas ou relações (ao contrário da regressão) e seu principal objetivo é descrever: pega nos dados, resume esses dados e localiza padrões nos dados.
Pergunta 8: E se dois usuários acessassem o mesmo arquivo HDFS ao mesmo tempo?
A resposta em si não é nada difícil, mas é fácil fazer confusão pela forma como outros programas similares reagem.
Se dois usuários estão tentando acessar um arquivo no HDFS, a primeira pessoa obtém o acesso, enquanto o segundo usuário (que chegou atrasado) é negado.
Pergunta 9: Quantos formatos de entrada do Hadoop comuns existem? Quais são eles?
Esta pergunta é difícil porque você não precisa apenas saber o número, mas também os formatos em si.
No total, existem três formatos de entrada comuns do Hadoop. Eles são os seguintes: formato de valor-chave, formato de arquivo de sequência e formato de texto .
- Fácil de usar
- Oferece conteúdo de qualidade
- Muito transparente com os preços
- Design simples (sem informações desnecessárias)
- Cursos de alta qualidade (mesmo os gratuitos)
- Variedade de recursos
- Programas Nanodegree
- Indicado para empresas
- Certificados de conclusão pagos
- Bem estabelecido na indústria
- Grande extensão de funcionalidades para escolher
- Cursos de nível superior
- Cursos de nível superior
- Indicado para empresas
- Certificados Pagos de conclusão
Pergunta 10: O que é 'amostragem por cluster'?
Amostragem por cluster refere-se a um tipo de método de amostragem. Com a amostragem por conglomerados, o pesquisador divide a população em grupos separados, denominados clusters. Em seguida, uma amostra aleatória simples de clusters é selecionada da população. O pesquisador realiza sua análise dos dados dos clusters amostrados.
Dicas gerais e resumo
Agora que já respondemos algumas perguntas básicas e algumas mais avançadas vamos revisar rapidamente o que aprendemos.
A coisa mais importante que você deve lembrar para o início de sua entrevista de emprego são as definições. Se você tiver aprendido as definições e conseguir explicá-las de uma maneira facilmente compreensível, basicamente ficará garantido que deixará uma boa e duradoura impressão em seus entrevistadores.
Depois disso, certifique-se de revisar todos os tópicos avançados. Você não precisa necessariamente se aprofundar em cada uma das milhares de perguntas sobre data science que existem por aí. Revisar os tópicos principais e simplesmente conhecer os conceitos com os quais você ainda não está familiarizado deve ser o seu objetivo antes da entrevista de emprego.
Seu principal objetivo na entrevista deve ser mostrar o conhecimento que você possui. Quer se trate de questões sobre data science ou qualquer outra coisa - se o seu empregador conseguir ver que você é conhecedor do assunto,é muito mais provável que ele o considere como um potencial empregado.
Lembre-se, porém - o conhecimento é apenas uma parte da equação. As outras coisas que os empregadores estão procurando ativamente são a humildade, o respeito, a idoneidade, a confiabilidade, etc. Você também deve procurar exibir essas e o resto de suas boas características durante a entrevista de emprego. Não tenha medo de falar de si mesmo, mas permaneça humilde - há uma linha tênue entre saber o seu valor e simplesmente se gabar.
Você sabia?
Você já se perguntou quais plataformas de aprendizagem online são as melhores para sua carreira?
Conclusões
Com grandes quantidades de novas informações todos os dias, está ficando mais difícil para as empresas gerenciarem seus dados e tomar decisões apropriadas com base nisso. É por isso que máquinas poderosas têm sido postas em ação para que possam organizar as informações e apresentá-las de uma maneira viável. No entanto, essas máquinas exigem bons data scientists usá-las e obter os melhores resultados.
Neste tutorial, apresentei apenas algumas das perguntas principais de uma entrevista de emprego sobre data science. Você deve ter sido capaz de obter pelo menos uma idéia do que deve esperar do processo seletivo da entrevista. Coloque o tempo e o trabalho duro, e você sentirá que está ficando melhor no assunto!
Espero que você seja bem-sucedido em conseguir o emprego de data scientist, e desejo-lhe boa sorte!