Download as pdf or txt
Download as pdf or txt
You are on page 1of 4



      Data Technology Plan
Assignment ‐ 03 


Student Name 
             Based on the Data collection Plan, the technology to be used in each stage of process is 
finalized based on key points. Technical Criteria and Business Criteria is explained and Solution 
for the identified challenges is presented. 

Key Technical Criteria        Key Business Criteria  Technology Solution 
Healthcare Data: Data collected from  The storage system should be of  In order to support the business 
online forms filled by healthcare  less cost.  constraints and storage solution, 
employees and offline forms filled by  ‐>There are different forms of data  data can be stored across 
patients.  like data fed into direct online  Haadoop(HDFS) which helps in 
‐>This data has to be merged and stored.  forms which directly gets stored in  storing and processing larger 
‐>Here Inflow of data  is huge so the  the storage system.   datasets on a faster pace  
storage system should manage this.  ‐>Technical team who manages   ‐>Hadoop stores all unstructured 
There are different forms of data like  this have cloud storage and data  data .   
data fed into direct online forms and also  warehouse expertise and can be  ‐>Its beneficial to support the 
offline handwritten forms which  trained on Hadoop skills like  cost requirements as its open 
sometimes are unstructured or semi  MapReduce and HDFS.  source. 
structured  ‐>The technical team has expertise  ‐>The forms can be converted 
Sales Data:  in converting forms to Json  into json documents and can be 
Sales data of the organisation is fed  on  documents and update them in  stored in couchDB which 
the company's sales record by employers  database.   supports storage of semi 
at different regions using shared  ‐>The tech Team also has skills of  structured and unstructured 
spreadsheets  JavaScript and expertise in  data. 
‐>Override of data should not be allowed  Database (RDBMS) and can easily  ‐>It also supports insertion and 
and edit history has to be managed   adopt a NoSQL DB interface  update at large scale 
‐>Large scale of data insertion and     
update to be allowed 


Key Technical Criteria        Key Business Criteria Technology Solution

For the Data stored in online(100  Data is collected from diverse  "Data Cleaner" can be used to 
forms per day) and offline forms  sources such as surveys, data‐ do the pre‐processing required 
which can be from 100 to 200 forms  entry forms and online feedback  such as Data cleaning, 
a day  and they have different format  Deduplication and also to 
Following preprocessing methods  and structure.   merge the data. 
has to be done   Preprocessing such as data  ‐>This tool works on 
 ‐> Data Cleaning, Deduplication and  cleaning and deduplication is  Excel,RDBMS and any NoSQL 
also Merging of data(Data  challenging here.  DBs and hence this tool will be a 
Integration)  Variables to be used in the data  perfect solution for the 
Online and Offline Survey Forms:  has to be cross‐verified and  challenges.  
‐>Hundreds of online surveys are  data‐type has to be checked.  ‐>It also allows the user to 
collected from users online and  Data integration also requires  create personalised cleansing 
saved for improvement of business.  high attention as it comes from  rules. 
‐>Data that's collected is 70% Online   multiple source  The other pre‐processing 
and 20% offline data including  Any inconsistency in the data  method that will be effective is 
handwritten forms.   has to be identified and  creating cleaning code in 
Feedback data is also collected by  corrected at this stage to have  python and customise it as per 
sales representatives.  better analysis  the data and use it on data 
which is unstructured, so it has 40 %    before any analysis 
of structured and 35%semistructured   
and 25% unstructured data. 
Sales data that’s entered by 
employers has following 
preprocessing to be done 
Data cleaning ‐ remove dirty and 
irrelevant data 
Normalization ‐ Data has to be 
transformed into labels and relation 
has to be created within tables for 
ease of access. Also, redundancy of 
data needs to be eliminated.  

Key Technical Criteria        Key Business Criteria Technology Solution 
Different attributes of  Feedback data may not be  Bar charts could be used to 
customer data should be  honest sometimes which may  compare different attributes of 
displayed like the diabetes,  give a skewed visualization and  customers and give visualization 
cholesterol and fat level.   could be misleading, Validating  on which type of customer are 
This enables better  the reliability is important and  high in numbers. 
understanding the different  can be done on a sample of  Sales data in the past years 
types of customers in a way  data.  could be displayed in a line 
enables sales of different health  Stakeholders could use the  chart with year and revenue on 
supplements(like sugar‐free  visualization to stabilize  both axis which will help 
products)  production and improvise sales  understand the sales trend 
Sales data of previous years has    better. 
to be visualized in order to do  Sales of different products done 
analysis and set the target,  so far can be displayed using a 
This could be further classified  Pie chart with different colors 
into sales of different products  to understand the percentage 
like protein supplements,  of high selling and low selling 
weight loss products, and  products. 
diabetic control mix, to improve  ‐ All these Visualizations can be 
sales  done using Tableau as  
  This does not require any 
coding skills so it can be easily 
used by the sales and marketing 
people also 
Data from spreadsheet as well 
as from Hadoop can be 
connected to Tableau so any 
small data to all data 
visualization can be done using 
Based on the ideas presented above each stage of data processing will have the different 
technologies specified  (Hadoop‐storage, Data Cleaner‐Preprocessing, Tableau‐Visualization) to 
make the process effective. 

You might also like